文|邱曉芬
編輯|蘇建勛
一句話介紹
「智域基石」是一家致力于構(gòu)建具身智能時代數(shù)據(jù)入口與訓(xùn)練輸入基礎(chǔ)設(shè)施的公司,其核心使命是將海量、雜亂的原始物理世界數(shù)據(jù),精準(zhǔn)編譯成直接面向機(jī)器人任務(wù)成功率的高質(zhì)量訓(xùn)練輸入。
團(tuán)隊(duì)介紹
「智域基石」CEO楊哲軒為前PingCAP核心成員,擁有大規(guī)模分布式系統(tǒng)與底層架構(gòu)設(shè)計(jì)的背景,也是連續(xù)創(chuàng)業(yè)者,負(fù)責(zé)多家公司商業(yè)化業(yè)務(wù)。
「智域基石」CTO徐良威有著騰訊、小鵬機(jī)器人的從業(yè)背景,是實(shí)戰(zhàn)經(jīng)驗(yàn)豐富的機(jī)器人軟硬件專家,熟悉具身智能算法對于數(shù)據(jù)的需求,也有豐富硬件落地的經(jīng)驗(yàn)。
「智域基石」COO為張計(jì)業(yè),前華為地市總經(jīng)理,曾擔(dān)任具身智能公司「穹徹智能」生態(tài)負(fù)責(zé)人。
融資進(jìn)展
完成數(shù)千萬元天使輪融資,資方包括四家機(jī)器人廠商,包括靈初智能、穹徹智能、浙江人形、智平方(拼音序)。
產(chǎn)品及業(yè)務(wù)
目前,「智域基石」計(jì)劃在全國建立起面積超一萬平方的真機(jī)數(shù)據(jù)采集工廠,工廠中機(jī)器人數(shù)量超400臺、異構(gòu)硬件形態(tài)超10種。
他們預(yù)計(jì)在2026年內(nèi)積累超過200PB異構(gòu)數(shù)據(jù)。在今年第二季度,「智域基石」將從真機(jī)數(shù)據(jù)生產(chǎn),全面拓展至 Ego-Centric(第一人稱視角)領(lǐng)域,牢牢掌控模型的后訓(xùn)練與預(yù)訓(xùn)練的數(shù)據(jù)入口,通過數(shù)據(jù)編譯層,將原始數(shù)據(jù)加工成高質(zhì)量語料,可直接作為模型訓(xùn)練輸入。
![]()
△ego centric 設(shè)備的概念圖
在數(shù)據(jù)生產(chǎn)和加工方面,「智域基石」團(tuán)隊(duì)將大數(shù)據(jù)行業(yè)的技術(shù)理念和架構(gòu),引入到了具身智能領(lǐng)域,搭建了一套打破“廢料堆砌”的自動化“數(shù)據(jù)編譯管線”,主要特點(diǎn)包括——
①數(shù)據(jù)質(zhì)檢環(huán)節(jié):過往面對海量數(shù)據(jù),其他類型公司往往采用傳統(tǒng)抽檢,導(dǎo)致高達(dá)95%的無效噪音混入訓(xùn)練集。而「智域基石」引入了分布式計(jì)算與彈性伸縮架構(gòu),對機(jī)器人采集的視覺、深度、關(guān)節(jié)位姿和力觸覺等多模態(tài)數(shù)據(jù)進(jìn)行全量質(zhì)檢,在源頭直接剔除無效的“數(shù)據(jù)膨脹”。
②數(shù)據(jù)底座重構(gòu)(具身智能專屬的異構(gòu)湖倉):真實(shí)物理世界的數(shù)據(jù)天然具有高熵、多源異構(gòu)以及采樣頻率嚴(yán)重異步(如視覺30Hz與關(guān)節(jié)控制500Hz的落差)的特征,傳統(tǒng)的簡單存儲極易讓數(shù)據(jù)淪為無法訓(xùn)練的“多模態(tài)黑盒”。
為此,「智域基石」率先將成熟的數(shù)據(jù)湖倉( Data Lakehouse )架構(gòu)引入并深度改造為具身智能專屬底座。該架構(gòu)不僅實(shí)現(xiàn)了對超大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一納管,更依托自研的數(shù)據(jù)引擎,在底層完成了視覺、深度、力觸覺與關(guān)節(jié)位姿等復(fù)雜維度在毫秒級別的高精度"時空戳對齊"。
這一步直接跨越了模態(tài)間的時空錯位,將混沌的物理記錄徹底錨定為大模型可解析的高價值時序資產(chǎn)。
![]()
△數(shù)據(jù)管線示意圖
③數(shù)據(jù)編譯:這是最核心的“精煉”過程。不僅僅是去噪、增廣與重定向,系統(tǒng)會將非標(biāo)數(shù)據(jù)進(jìn)行“技能原子化”,提取出帶有明確動作意圖與物理約束的“語義片段”,并為數(shù)據(jù)建立版本號與血緣追蹤,確保資產(chǎn)可追溯。
④智能檢索與組配:針對行業(yè)“按小時買數(shù)據(jù)”的價值錯位,團(tuán)隊(duì)推出了自研的查詢引擎,用類似SQL的方式,對海量物理數(shù)據(jù)中的場景、技能、動作基元進(jìn)行語義化調(diào)用。
例如,當(dāng)客戶算法團(tuán)隊(duì)提出特定的訓(xùn)練需求時,摒棄傳統(tǒng)的盲目海選與人工拼湊,「智域基石」的數(shù)據(jù)交付專家只需在后臺輸入簡捷的代碼指令(如:精準(zhǔn)調(diào)取“廚房場景”中“拿杯子”任務(wù)、且特定驗(yàn)證成功率>95%的數(shù)據(jù)),系統(tǒng)即可快速響應(yīng),快速召回并組配出符合要求的結(jié)構(gòu)化技能流。這種將非標(biāo)需求轉(zhuǎn)化為標(biāo)準(zhǔn)化系統(tǒng)指令的能力,極大提升了交付效率與準(zhǔn)確度。
⑤標(biāo)準(zhǔn)化打包與彈性交付:在完成檢索與組配后,系統(tǒng)會自動將提取的結(jié)構(gòu)化片段,打包為帶有版本號(如v2.4.0)、開箱即用的標(biāo)準(zhǔn)化訓(xùn)練數(shù)據(jù)集。
面對單次交付動輒高達(dá)數(shù)百TB的超大規(guī)模交易量級,「智域基石」構(gòu)建了彈性的交付體系:既支持兼容S3等云原生架構(gòu)的云端專線直連與授權(quán)調(diào)用,也支持針對極高數(shù)據(jù)安全要求的高吞吐線下物理陣列(硬盤)交付。這種靈活的資產(chǎn)分發(fā)模式,不僅實(shí)現(xiàn)了自動化交付,更徹底打通了從數(shù)據(jù)精煉廠到客戶算力集群的“最后一公里”。
通過構(gòu)建這套強(qiáng)大的自動化“數(shù)據(jù)編譯管線”,「智域基石」實(shí)現(xiàn)了商業(yè)模式上的關(guān)鍵躍升:雖然前端物理世界的高保真數(shù)據(jù)采集仍需依賴專業(yè)人力與真機(jī)工廠,但在核心的數(shù)據(jù)加工與海量交付環(huán)節(jié),系統(tǒng)徹底實(shí)現(xiàn)了與傳統(tǒng)“人海戰(zhàn)術(shù)”的解耦。
商業(yè)模式
為了穩(wěn)步推進(jìn)“數(shù)據(jù)精煉廠”的商業(yè)落地,智域基石規(guī)劃了三階段商業(yè)演進(jìn)路線,逐步實(shí)現(xiàn)從數(shù)據(jù)生產(chǎn),到數(shù)據(jù)精煉,再到行業(yè)基礎(chǔ)設(shè)施構(gòu)建的跨越:
第一階段(2026-2027):核心目標(biāo)是搶占高質(zhì)量物理數(shù)據(jù)入口。對標(biāo)英偉達(dá) EgoScale 路線,自研 Ego-Centric(第一人稱視角)穿戴設(shè)備以獲取稀缺的預(yù)訓(xùn)練語料;同時聯(lián)合政企與頭部機(jī)器人廠商建設(shè)真機(jī)采集工廠,沉淀后訓(xùn)練工業(yè)數(shù)據(jù)。目前,通過為頭部客戶提供定制化的結(jié)構(gòu)化訓(xùn)練輸入,公司在手訂單已近億元。
第二階段(2027-2029):隨著核心管線的打磨成熟,業(yè)務(wù)將從"數(shù)據(jù)生產(chǎn)和精煉"轉(zhuǎn)向"標(biāo)準(zhǔn)化資產(chǎn)訂閱"。將前期沉淀的通用動作與場景,提煉為開箱即用的行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)集。通過長期框架協(xié)議與場景庫增量更新服務(wù),實(shí)現(xiàn)單點(diǎn)數(shù)據(jù)資產(chǎn)的重復(fù)變現(xiàn),大幅提升利潤率并覆蓋更廣泛的客戶群。
第三階段(2029+):開放 API 與開發(fā)者生態(tài),構(gòu)建通用基座,全面升級為具身智能通用數(shù)據(jù)基礎(chǔ)設(shè)施,構(gòu)建數(shù)據(jù)交易市場與開發(fā)者生態(tài),最終以共建共享的姿態(tài),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的規(guī)模化分發(fā)與全生態(tài)復(fù)用。
Founder思考
①具身智能數(shù)據(jù)存在核心矛盾
在「智域基石」CEO楊哲軒看來,當(dāng)前具身智能賽道正面臨一場隱蔽的"供給危機(jī)":行業(yè)有龐大的訓(xùn)練需求,也不缺乏海量的原始數(shù)據(jù),但真正稀缺的是將混沌的物理記錄,穩(wěn)定、高效地"編譯"為高信噪比訓(xùn)練輸入的基礎(chǔ)設(shè)施能力。大量未經(jīng)深度結(jié)構(gòu)化處理的多模態(tài)采集記錄,往往淪為消耗模型算力的"數(shù)據(jù)廢料"。
這一現(xiàn)象的底層矛盾,源于具身智能數(shù)據(jù)處理天然處于“交叉學(xué)科的空白地帶”。現(xiàn)階段,機(jī)器人算法團(tuán)隊(duì)雖然深刻理解模型對物理規(guī)律、動作約束與任務(wù)語義的精細(xì)需求,卻往往受制于工程瓶頸,難以建立工業(yè)級的大規(guī)模數(shù)據(jù)流水線;而傳統(tǒng)的AI數(shù)據(jù)標(biāo)注廠商,盡管具備勞動力密集型的規(guī)模化生產(chǎn)經(jīng)驗(yàn),卻由于缺乏對機(jī)器人運(yùn)動學(xué)、力觸覺反饋以及多模態(tài)時空對齊等底層邏輯的認(rèn)知,其產(chǎn)出質(zhì)量難以滿足大模型走向真實(shí)場景的苛刻標(biāo)準(zhǔn)。
隨著具身智能數(shù)據(jù)量級正迎來指數(shù)級的躍升,這種“懂算法的不懂工程量產(chǎn),懂量產(chǎn)的不懂機(jī)器人硬件”的結(jié)構(gòu)性錯位,不僅推高了行業(yè)的試錯成本,更成為了制約具身大模型跨越物理鴻溝的最大掣肘。
②人力密集型的數(shù)采工廠沒有壁壘
要在具身智能數(shù)據(jù)業(yè)務(wù)上建立真正的商業(yè)壁壘并實(shí)現(xiàn)規(guī)模化盈利,單純依靠傳統(tǒng)的人力密集型管理優(yōu)化是行不通的,必須通過技術(shù)架構(gòu)重構(gòu),系統(tǒng)性地降低數(shù)據(jù)加工的綜合成本。
「智域基石」CEO楊哲軒指出,人力成本具有天然的剛性,且隨著規(guī)模擴(kuò)張,管理效率必將觸及上限。面對大模型日益龐大的PB級數(shù)據(jù)吞吐需求,僅靠“堆人頭”的傳統(tǒng)模式無法形成長期的核心競爭力。真正的商業(yè)解法在于,依托高度自動化的“數(shù)據(jù)管線”來實(shí)現(xiàn)加工流程的規(guī)模化,這是攤薄固定成本、提升邊際收益的最優(yōu)路徑。
客觀預(yù)期下,隨著這套管線工程化與自動化能力的不斷迭代,未來「智域基石」在核心數(shù)據(jù)加工環(huán)節(jié)的人力需求有望降低至少50%。楊哲軒認(rèn)為,通過硬核的技術(shù)手段,實(shí)事求是地達(dá)成數(shù)據(jù)產(chǎn)能與人力投入的有效解耦,才是企業(yè)真正走向高毛利基礎(chǔ)設(shè)施的立足之本。
③2026年是具身智能跨越商業(yè)鴻溝的關(guān)鍵檢驗(yàn)節(jié)點(diǎn)
伴隨2023年以來的投本體,投模型,投零部件的浪潮,當(dāng)前具身智能落地的卡點(diǎn)已經(jīng)形成共識:“數(shù)據(jù)是瓶頸”。楊哲軒判斷,2026年,隨著數(shù)據(jù)方向的創(chuàng)業(yè)公司如雨后春筍一般產(chǎn)生,具身智能領(lǐng)域的數(shù)據(jù)量也預(yù)計(jì)將增長數(shù)十倍以上,達(dá)到千萬小時級別。
為此,今明兩年正是一個關(guān)鍵檢驗(yàn)節(jié)點(diǎn)——當(dāng)數(shù)據(jù)總量的瓶頸被大幅緩解后,若大模型在真實(shí)場景中的任務(wù)成功率與泛化能力依然無法取得實(shí)質(zhì)性突破,整個行業(yè)將面臨嚴(yán)峻的信心重估與生存大考。
而跨越這一節(jié)點(diǎn)的關(guān)鍵,已不再是粗放的數(shù)據(jù)堆砌,而是如何將海量物理記錄真正"編譯"為高效的訓(xùn)練輸入。智域基石將自己定義為這個"編譯器"——具身智能時代的數(shù)據(jù)基礎(chǔ)設(shè)施建造者。
end
end
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.