衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
一個(gè)(暫時(shí))只做具身大腦的公司,拋出了一個(gè)只有2.4B參數(shù)的具身模型。
目前行業(yè)風(fēng)向標(biāo)如Physical Intelligence的π 0總計(jì)約33億參數(shù),π 0.6的參數(shù)量也約莫在50億以上。
在一個(gè)甚至連硬件形態(tài)都還沒定型的行業(yè)里,2.4B參數(shù)到底夠不夠用?
這家公司給出的答案是,夠用。
而且足以支撐它實(shí)時(shí)處理三視角的728x728畫面,推理延遲僅60毫秒;配合強(qiáng)化學(xué)習(xí)機(jī)制,它還能在真機(jī)上不斷試錯(cuò)進(jìn)化。
這就是具身智能創(chuàng)企原力靈機(jī)推出的首個(gè)具身原生模型產(chǎn)品DM0。
2.4B的輕量小蛋糕,RTX 5090就能跑。
![]()
因?yàn)閺牧阌?xùn)練以及對(duì)具身數(shù)采有不同于行業(yè)的看法等原因,該公司稱它為“首個(gè)具身原生大模型”。
與模型同時(shí)發(fā)布的還有開源具身原生框架Dexbotic 2.0,以及具身原生量產(chǎn)工作流DFOL。
這具身軟件三件套背后技術(shù)路線的操盤手,是原力靈機(jī)合伙人、負(fù)責(zé)大模型的周而進(jìn)。
他在AI圈早已名聲在外。
![]()
周而進(jìn)現(xiàn)在才33歲,但這人已經(jīng)在AI領(lǐng)域出名13年了——
早在2013年,深度學(xué)習(xí)和人工智能還是冷門的時(shí)候,大二的曠視實(shí)習(xí)生周而進(jìn)就以一作身份,拿下了ICCV 2013的自然環(huán)境人臉關(guān)鍵點(diǎn)定位比賽(300-W)工業(yè)界組冠軍。
但這個(gè)傳奇人物的出名比這個(gè)時(shí)間線更早。
他是信息學(xué)競賽NOI、IOI金牌選手,初三就“保送”到了清華;作為清華的學(xué)生,他師從電子工程系長聘教授、系主任汪玉。
后來作為曠視12號(hào)員工,他屢屢用算法軟件拿下全球第一。
就是這樣一位從AI 1.0時(shí)代走出來的少年天才,在去年,他和同為曠視同事的范浩強(qiáng)、汪天才,創(chuàng)業(yè)具身智能。
后來前曠視聯(lián)合創(chuàng)始人唐文斌也參與其中,擔(dān)任CEO。
![]()
周而進(jìn)對(duì)我們說,當(dāng)前具身行業(yè)的主流具身模型方案,大多數(shù)是VLM+Action Head思路。
也就是說,大模型負(fù)責(zé)識(shí)別和邏輯推理(比如看到冰箱里有牛奶),動(dòng)作頭負(fù)責(zé)執(zhí)行(去抓取牛奶)。
- 這種方法在目前行之有效,但它是一種外掛式方案。
![]()
原力靈機(jī)想追求一種具身原生路線,強(qiáng)調(diào)從數(shù)據(jù)采集范式、推理方式到控制結(jié)構(gòu),都應(yīng)源自物理世界的反饋,而不是數(shù)字世界的派生模態(tài)。
也確實(shí)這么付諸實(shí)踐了。
剛提到的模型DM0,就“從底層建模上就將感知、推理、控制整合為閉環(huán),然后通過空間推理思維鏈(Spatial CoT),內(nèi)生出具身智能”。
![]()
DM0的核心是通過多源、多任務(wù)、多機(jī)型訓(xùn)練來打通具身智能。
具體的訓(xùn)練過程,分為三個(gè)階段。
第一階段是VLM Train。
團(tuán)隊(duì)從零構(gòu)建具身原生的多模態(tài)模型,將互聯(lián)網(wǎng)、智駕和具身多傳感數(shù)據(jù)融為一體,讓模型天生就理解物理環(huán)境,練就扎實(shí)的感知基本功。
第二階段是VLA Pre-Train,周而進(jìn)稱之為“具身能力涌現(xiàn)的關(guān)鍵”,分為多任務(wù)、多機(jī)型訓(xùn)練和空間推理思維鏈兩條主線。
第三階段是VLA Post-Train。這一步保留了針對(duì)特定應(yīng)用場景的適配能力。
在RoboChallenge大規(guī)模真機(jī)評(píng)測中,DM0拿下了單任務(wù)和多任務(wù)雙料第一。
![]()
這是原力靈機(jī)成立以來第一次成體系地發(fā)布具身技術(shù)產(chǎn)品。
從和周而進(jìn)的對(duì)談里我們發(fā)現(xiàn),原力靈機(jī)從模型、工具鏈、量產(chǎn)工作流,方方面面都不停地在講閉環(huán)、講具身原生。
在我們與周而進(jìn)的這次深度對(duì)話中,他也圍繞這些關(guān)鍵詞給出了更詳細(xì)的解讀:
- 為什么要堅(jiān)持從零訓(xùn)練而不是微調(diào)?
- 空間推理思維鏈?zhǔn)窃趺磶椭P蛻?yīng)對(duì)長程任務(wù)?
- “全身全時(shí)全域”的數(shù)據(jù)采集會(huì)帶來什么變化?
- 機(jī)器人如何逐步走向擁有“社會(huì)身份”?
- 以及,為什么必須7×24小時(shí)跑起來?為什么要從物流開始做具身?
諸如這些問題,在采訪中都得到了回應(yīng)。
(以下為對(duì)話實(shí)錄。在不改變對(duì)談?wù)弑救嗽獾幕A(chǔ)上,我們做了部分刪改,以方便閱讀)
對(duì)話實(shí)錄
關(guān)于“具身原生”
量子位:靈機(jī)把這次發(fā)布的DM0叫做“具身原生大模型”。原生不原生有什么區(qū)別?
周而進(jìn): 具身智能的核心是構(gòu)建感知-決策-執(zhí)行的閉環(huán)智能。
在大語言模型范式下,智能主要停留在信息處理層面,比如識(shí)別冰箱里有牛奶。
但具身智能不僅要看到牛奶,還要拿起牛奶,找到生產(chǎn)日期,從而判斷牛奶是否過期,實(shí)現(xiàn)從數(shù)字智能到物理智能的跨越。
量子位:DM0原生在哪里?
周而進(jìn):有兩個(gè)層面。
第一個(gè)是模型訓(xùn)練本身的起點(diǎn)從零開始。
希望模型從出生的第一天開始,就已經(jīng)充分理解物理世界,而不是在一個(gè)已經(jīng)被大量互聯(lián)網(wǎng)數(shù)據(jù)塑形過的模型上,后天再去補(bǔ)物理世界的東西。
物理世界在模型初始化階段,會(huì)給到非常多非常豐富的反饋,這種反饋如果放到后面再學(xué),本質(zhì)上是很難補(bǔ)回來的。
互聯(lián)網(wǎng)數(shù)據(jù)當(dāng)然很重要,它帶來了大量先驗(yàn),但我們的理念是,希望模型在一開始就見過真實(shí)的空間關(guān)系、交互關(guān)系,理解人與物理世界是如何對(duì)話的。
很多人會(huì)覺得,現(xiàn)在已經(jīng)有很強(qiáng)的通用大模型了,比如直接拿一個(gè)語言模型作為基模,再往后堆一些具身數(shù)據(jù),好像也能訓(xùn)出效果。
從工程上看,這條路是走得通的。但我們會(huì)覺得,這樣的路徑在認(rèn)知順序上是有問題的。無論是動(dòng)物還是人類,最早學(xué)會(huì)的都是動(dòng)作,是對(duì)物理世界的反應(yīng)能力,而語言、抽象思維反而是后天逐漸發(fā)展出來的。
一個(gè)不那么嚴(yán)謹(jǐn)?shù)念惐龋愫茈y想象一個(gè)嬰兒是先學(xué)會(huì)對(duì)話,再學(xué)會(huì)找奶瓶。
所以我們認(rèn)為具身模型也應(yīng)該遵循類似的路徑,從一開始就圍繞物理交互來構(gòu)建,而不是在一個(gè)已經(jīng)在數(shù)字世界訓(xùn)練好的模型上去嫁接動(dòng)作能力。
量子位:第二個(gè)原生的點(diǎn)呢?
周而進(jìn):第二個(gè)是數(shù)據(jù)的理解方式。
今天行業(yè)里關(guān)于具身數(shù)據(jù)怎么采、用仿真還是真機(jī),其實(shí)分歧非常大。
仿真派和真機(jī)派之間爭論了很久,但我們一直覺得用“仿真”還是“真機(jī)”來切分本身意義并不大,更像是在給自己貼標(biāo)簽。
我們的看法是,今天你采集的所有數(shù)據(jù),本質(zhì)上都是合成數(shù)據(jù),只是合成程度不同而已。
在仿真器里,任務(wù)定義、物理反饋、物理規(guī)則,全部是人為構(gòu)造的,這是高度合成的數(shù)據(jù);在真實(shí)世界里采數(shù)據(jù),看起來瓶子是真的、環(huán)境是真的,但任務(wù)是不是你定義的?Task instruction是不是人為設(shè)定的?物流場景里的流水線是不是人設(shè)計(jì)的?
從這個(gè)角度看,它們本質(zhì)上都處在一個(gè)合成光譜上。
我們更關(guān)心的不是用不用仿真,而是應(yīng)該把數(shù)據(jù)和算力投向哪里。
我們內(nèi)部有一個(gè)比較明確的判斷,物理確定性強(qiáng)的部分,用算力和仿真去解決;語義模糊、不確定性高的部分,用真實(shí)數(shù)據(jù)去覆蓋。
這也是我們?yōu)槭裁磿?huì)認(rèn)為從一開始就把“人、數(shù)據(jù)、物理世界的交互形式”放進(jìn)模型設(shè)計(jì)里非常重要。
如果模型最早接觸到的就是這些東西,它在后續(xù)面對(duì)不同硬件、不同形態(tài)機(jī)器人時(shí),學(xué)到的是操作邏輯,而不是某一臺(tái)機(jī)器的電機(jī)參數(shù)。
![]()
量子位:說到不同形態(tài)的機(jī)器人,資料顯示DM0的訓(xùn)練特意擴(kuò)充了不同本體的機(jī)器人數(shù)據(jù),目前是8種機(jī)器人。
周而進(jìn):如果模型只見過少數(shù)幾種機(jī)型,它很容易把“該怎么完成一個(gè)任務(wù)”和“這臺(tái)機(jī)器的關(guān)節(jié)要怎么轉(zhuǎn)”混在一起。
舉個(gè)例子,把水放到某個(gè)位置,模型真正應(yīng)該理解的是伸手、移動(dòng)、放置這個(gè)動(dòng)作序列,而不是某個(gè)關(guān)節(jié)需要轉(zhuǎn)多少度。
就像人開車一樣,一個(gè)合格的司機(jī)不會(huì)因?yàn)閾Q了一輛車就不會(huì)開了。
真正記住的是軌跡和操作邏輯,而不是方向盤的松緊程度。
從這個(gè)角度也很容易能理解具身原生是我們的路徑選擇。
![]()
關(guān)于數(shù)據(jù)和高/低熵場景
量子位:DM0用的數(shù)據(jù)來源有3個(gè),分別是互聯(lián)網(wǎng)數(shù)據(jù)、智能輔助駕駛數(shù)據(jù)和具身智能數(shù)據(jù)。
周而進(jìn):具身模型不是只靠一種數(shù)據(jù)就能訓(xùn)出來的。
如果仿真的物理引擎足夠強(qiáng),能模擬出真實(shí)世界的接觸力、摩擦力和碰撞反饋,那么仿真數(shù)據(jù)的價(jià)值就會(huì)極大提升。
但在目前的階段,特別是涉及到復(fù)雜的觸覺和細(xì)微操作時(shí),真實(shí)交互產(chǎn)生的硬核數(shù)據(jù)依然是不可替代的。
而且互聯(lián)網(wǎng)數(shù)據(jù)、自駕數(shù)據(jù)、具身數(shù)據(jù),這三類數(shù)據(jù)在模型里承擔(dān)的角色是完全不同的。
互聯(lián)網(wǎng)數(shù)據(jù)提供的是語言和概念層面的抽象能力,它讓模型理解“什么是什么”;自駕數(shù)據(jù)提供的是在開放環(huán)境中應(yīng)對(duì)長尾事件的經(jīng)驗(yàn);而具身數(shù)據(jù)填補(bǔ)的是物理交互和接觸這一塊,這是前兩類數(shù)據(jù)完全無法覆蓋的。
![]()
量子位:三者有固定的混合比例嗎?
周而進(jìn):沒有,根據(jù)實(shí)驗(yàn)結(jié)果動(dòng)態(tài)調(diào)整。
現(xiàn)在具身數(shù)據(jù)確實(shí)相對(duì)少,但隨著采集規(guī)模的擴(kuò)大,它的占比一定會(huì)快速上升。
量子位:其中哪種會(huì)是未來訓(xùn)練具身模型的主導(dǎo)類別?
周而進(jìn):我們并不認(rèn)為未來一定是某一種數(shù)據(jù)占絕對(duì)主導(dǎo)。3類數(shù)據(jù)在不同階段承擔(dān)不同權(quán)重。
![]()
量子位:你們提到“熵在哪里,數(shù)據(jù)就投向哪里”,這句話怎么理解?
周而進(jìn):可以理解為決定數(shù)據(jù)采集的關(guān)鍵變量是環(huán)境的可描述性與熵(不確定性)。
最高效的方法一定是“能夠閉環(huán)的方法”。
如果數(shù)據(jù)采回來不能提升模型的泛化能力,或者采回來的全是重復(fù)的、低質(zhì)量的動(dòng)作,那只是在浪費(fèi)算力。
我們現(xiàn)在的策略是,先通過模型發(fā)現(xiàn)哪些任務(wù)是它干不好的,即“熵值高”的地方,然后針對(duì)性地去補(bǔ)那部分?jǐn)?shù)據(jù)。
這就叫以需定采,讓數(shù)據(jù)采集也具備反饋閉環(huán)。
![]()
環(huán)境規(guī)則明確的場景,數(shù)據(jù)就是計(jì)算的產(chǎn)物。我們可以充分發(fā)揮算力可擴(kuò)展的優(yōu)勢(shì),通過算力進(jìn)行狀態(tài)空間的探索。
高熵場景充滿不明的語義,人類偏好,還有開放世界的不確定性。這種情況下數(shù)據(jù)就是經(jīng)驗(yàn)的映射,必須依賴真實(shí)交互,從多樣經(jīng)驗(yàn)中歸納。
簡單說,物理規(guī)則簡潔確定的部分用算力生成數(shù)據(jù),物理模糊或語義模糊的部分用真機(jī)采集,這樣才能解決長尾問題。
關(guān)于數(shù)據(jù)采集方式
量子位:你們的數(shù)據(jù)采集方式好像很獨(dú)特,不只采具身機(jī)器人的雙臂動(dòng)作。
周而進(jìn):我們做的是全身全域全時(shí)的采集。
量子位:什么是“全身全域全時(shí)”?
周而進(jìn):全身,指數(shù)據(jù)采集要包含底盤的移動(dòng)、軀干的協(xié)調(diào)以及所有傳感器的反饋。
具身智能是操作與導(dǎo)航的統(tǒng)一,你不能把路走得好和手干得好拆開來看,數(shù)據(jù)必須包含全身的協(xié)同。
全時(shí)強(qiáng)調(diào)的是數(shù)據(jù)的連續(xù)性和因果鏈。
數(shù)據(jù)采集不能只拍下某個(gè)瞬間,要從意圖產(chǎn)生、路徑規(guī)劃到動(dòng)作執(zhí)行,甚至是中間出錯(cuò)、修正的全過程都記錄下來。
正常人類對(duì)話,我問你“衛(wèi)生間在哪”,你手一指,說“在那”。
這個(gè)過程中你講了一個(gè)方位代詞,又做了一個(gè)肢體語言。這些東西其實(shí)是我們認(rèn)為能夠跟人長時(shí)間,或者說24小時(shí)全時(shí)共處的一個(gè)機(jī)器人他就應(yīng)該具備的能力。
全域是空間域,相對(duì)其他兩個(gè),這個(gè)暫時(shí)還是一個(gè)未來規(guī)劃。
量子位:采集這種數(shù)據(jù)是一開始出發(fā)點(diǎn)就這樣,還是走了其它方式最后選擇了一種最work的?
周而進(jìn):我們從一開始去做數(shù)采的時(shí)候,就奔著要把全身的數(shù)據(jù)、全時(shí)間段的數(shù)據(jù)、全空間場景的數(shù)據(jù)都給覆蓋了,其實(shí)就是奔著一個(gè)更通用的目標(biāo)去做。
都說具身智能具身智能,那人類的全身的數(shù)據(jù)你是不是都應(yīng)該采到?
如果我今天只做桌面的雙臂抓取機(jī)器人,你好像只要用雙臂就行了。
但真實(shí)的人類動(dòng)作不只有雙臂和雙手的動(dòng)作。過程中你可能要彎腰,你可能要蹲下;如果要把東西遞出去,需要伸手……需要各種肢體語言。
具身智能的數(shù)據(jù)不能只關(guān)注手部動(dòng)作,應(yīng)該要用整體性的、連續(xù)的來訓(xùn)。
量子位:這樣煞費(fèi)苦心地采集,能帶來什么效果呢?
周而進(jìn):全身全時(shí)全域的采集是為了應(yīng)對(duì)物理世界的無限長尾。
如果采集不夠全面,模型就會(huì)陷入無限打補(bǔ)丁的困境。
關(guān)于新發(fā)布的具身三件套
![]()
量子位:這次除了DM0,你們還發(fā)布了一個(gè)開源的具身框架Dexbotic2.0,以及解鎖具身應(yīng)用量產(chǎn)工作流的DFOL。動(dòng)作不少。
周而進(jìn):Dexbotic2.0是我們聯(lián)合RLinf一起打造“具身智能領(lǐng)域的PyTorch”。
它采用模塊化架構(gòu),視覺編碼器、LLM模塊、動(dòng)作專家模塊都可以像樂高一樣自由組合。
我們聯(lián)合了清華、無問芯穹共建,目標(biāo)是實(shí)現(xiàn)具身操作與導(dǎo)航、模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的統(tǒng)一。
DFOL則用來解鎖具身應(yīng)用量產(chǎn)工作流。
傳統(tǒng)非標(biāo)自動(dòng)化擁有極快的節(jié)拍和極高的確定性,但靈活性差,難以適應(yīng)頻繁換線;人工則具備極強(qiáng)的通用能力和高超操作技巧,但是效率低、成本高且穩(wěn)定性不足。
DFOL正處于這兩者之間最有價(jià)值的工作區(qū)間,它依托相對(duì)通用的硬件,通過強(qiáng)大的學(xué)習(xí)能力實(shí)現(xiàn)快速換線,以模型定義功能,并對(duì)復(fù)雜多變的輸入具備極強(qiáng)的柔性適應(yīng)能力。
既能保持較高效率與確定性,又擁有接近人類的靈活性和適應(yīng)性
我們用三個(gè)指標(biāo)評(píng)估它:
- 成功率(接近100%的連續(xù)無故障作業(yè))
- 動(dòng)作質(zhì)量(毫米級(jí)甚至更高的定位精度)
- 節(jié)拍(即吞吐率,決定ROI)
![]()
關(guān)于具身模型的記憶
量子位:DM0模型里面用到了空間推理思維鏈(Spatial CoT),這和大語言模型的推理思維鏈(CoT)的本質(zhì)區(qū)別是什么?
周而進(jìn):大語言模型的CoT主要是一維的語義推理,具身智能面臨的挑戰(zhàn)是三維的物理世界。
空間推理的推理核心是“空間”,具備真實(shí)操作場景中的空間理解、時(shí)序組織與運(yùn)動(dòng)控制能力。
面對(duì)“收拾一下桌面”這種模糊指令,模型不是直接輸出動(dòng)作,而是先進(jìn)行子任務(wù)預(yù)測與規(guī)劃,然后完成物體識(shí)別與精確定位。
它必須把視覺特征轉(zhuǎn)化為精確的空間坐標(biāo)和軌跡,這是一種空間維度的推演。
![]()
量子位:在純文本大模型里,推理錯(cuò)了可能只是胡言亂語;但物理世界里的動(dòng)作一旦出錯(cuò),可能造成損壞、危險(xiǎn)或不可逆的后果。
周而進(jìn):對(duì)。所以空間推理思維鏈通過“子任務(wù)-識(shí)別定位-2D軌跡-3D動(dòng)作映射”的閉環(huán),確保每一步推理都與物理現(xiàn)實(shí)對(duì)齊。
它模擬“介入世界”后的物理反饋,從而彌合感知與執(zhí)行之間的斷層。
這類空間推理是DM0模型的設(shè)計(jì)核心。
量子位:空間推理思維鏈能帶來什么效果?
周而進(jìn):結(jié)合高分辨率的輸入,他能讓模型在毫米級(jí)精度的任務(wù)中(如工件擺放)識(shí)別微小的位置差異。
沒有這種層層遞進(jìn)的推理,模型無法學(xué)會(huì)物體左偏移2毫米意味著什么,但通過空間推理后就能計(jì)算并執(zhí)行這種差異。
普通的CoT無法告訴你杯子向左偏移2毫米意味著什么,但Spatial CoT必須能計(jì)算并執(zhí)行這種差異。
關(guān)于7x24運(yùn)行
量子位:關(guān)于數(shù)據(jù)閉環(huán)、物理直覺的形成,還有熵,你都在說“越早越好”。
周而進(jìn): 所有人都知道,機(jī)器人要上崗要運(yùn)行,但什么時(shí)候跑是一個(gè)很現(xiàn)實(shí)的問題。有的團(tuán)隊(duì)是先做demo,先做技術(shù),再考慮落地;我們是反過來。
我們一開始就想,這個(gè)東西必須7×24小時(shí)運(yùn)行,越早跑起來越好。
只有真實(shí)跑起來,才有真實(shí)數(shù)據(jù)。
你的模型再聰明,如果沒有數(shù)據(jù)回流,它永遠(yuǎn)學(xué)不會(huì)真實(shí)場景中的問題;你訓(xùn)練里沒有的東西,只能靠在跑的時(shí)候補(bǔ)回來。
而且越早跑起來,工程的穩(wěn)定性問題越早暴露,你就能越早修。
今天demo做得再好,一旦你要上崗7×24,你就會(huì)發(fā)現(xiàn)電源、網(wǎng)絡(luò)、攝像頭、支架,甚至天氣、光照,都會(huì)出問題。
量子位:原力靈機(jī)的模型已經(jīng)7x24在跑了嗎?
周而進(jìn):我們現(xiàn)在已經(jīng)在多個(gè)場地做部署,不是demo式的部署,是7×24的真實(shí)運(yùn)行。
哪怕剛開始成功率不高,也要跑起來。
關(guān)于精細(xì)操作
量子位:你們把工廠里的物流場景是具身智能應(yīng)用的重要延伸。
周而進(jìn):是的。
量子位:為什么從物流做起?
周而進(jìn):具身現(xiàn)在很難說脫離場景,一定得在一個(gè)比較明確的場景下面來做這件事情。
我們今天做物流有明確的產(chǎn)線,有明確的上下料的邏輯。
在這個(gè)場景上面,先把該干的活干好,然后一步一步去拓展能力。
靈機(jī)在物流場景里做了一個(gè)輪式雙臂機(jī)器人,專門用來做物料分揀。物料分揀實(shí)際上非常復(fù)雜,物料有柔性的,有剛性的,擺放也很亂,就是在物料箱里隨意堆滿。
要把這些物品一個(gè)一個(gè)分揀出來,有很多傳統(tǒng)的方法,比如用吸盤。但問題是吸盤對(duì)于柔性材料,對(duì)于表面不光澤的物體不work,有各種各樣的corner case。
在這樣一個(gè)明確且受限的應(yīng)用場景下,我們的目標(biāo)是探索能否讓機(jī)器人實(shí)現(xiàn)24小時(shí)不間斷運(yùn)行,滿足實(shí)際需求。
量子位:怎么理解“物流場景非常復(fù)雜”?光是聽起來,沒有什么具體的體會(huì)。
周而進(jìn):很多時(shí)候大家會(huì)被一些大動(dòng)作吸引,比如能不能搬箱子、能不能推門、能不能走路。
但真正難的其實(shí)是精細(xì)動(dòng)作。
精細(xì)動(dòng)作不是說動(dòng)作幅度小,而是說對(duì)連續(xù)狀態(tài)變化的控制要求非常高。
比如一個(gè)工件的擺放,你肉眼看可能覺得已經(jīng)放進(jìn)去了,但對(duì)工業(yè)來說,差一兩毫米就是失敗。
這種事情如果只是拍視頻是看不出來的,一旦真的放到產(chǎn)線上,就會(huì)發(fā)現(xiàn)成功率會(huì)非常快地掉下來。
量子位:怎么讓具身機(jī)器人很好地完成這些精細(xì)動(dòng)作?
周而進(jìn):精細(xì)動(dòng)作的前提是精細(xì)感知。
如果你的視覺輸入分辨率不夠,模型看到的世界本身就是模糊的,那后面的推理和控制一定是漂的。很多時(shí)候模型它根本不知道現(xiàn)在這個(gè)工件到底偏了多少。
所以我們?cè)谀P驮O(shè)計(jì)時(shí),會(huì)非常看重高分辨率輸入下的穩(wěn)定性,而不是只追求推理速度或者吞吐。
![]()
這又call back了我們反復(fù)強(qiáng)調(diào)具身原生。其中一個(gè)很重要的原因就是精細(xì)動(dòng)作沒辦法靠后期補(bǔ)。
如果模型在最早的訓(xùn)練階段,從來沒有在高精度、高要求的物理反饋下學(xué)過動(dòng)作,那后面你再加多少規(guī)則、加多少工程約束,都會(huì)非常吃力。
關(guān)于落地場景
量子位:說說你們的落地場景吧。
周而捷:我們挑選的是一個(gè)最標(biāo)準(zhǔn)化的場景,就是物流工人坐在工位上面,在物料箱上面做分揀;也有工人是在做物料箱的搬運(yùn),他要從這邊的一個(gè)AGV把箱子拿起來,然后塞到貨架上面。
也有工人在做打包。比如你買了三瓶可樂,工人要拿一個(gè)快遞箱,里面還要墊一些防震的泡沫紙,最后打包好。
這已經(jīng)涉及到一個(gè)人在工廠里面全身的動(dòng)作:走動(dòng)、蹲起、手部的靈巧操作……覆蓋的場景非常豐富了。
不過事情要一步一步來解決。我們現(xiàn)在先解鎖的還是靈巧抓取的問題。
![]()
量子位:你們?cè)趺纯创煌瑘鼍暗膬?yōu)先級(jí)?為什么先做物流,而不是一上來就做家庭之類的其它場景?
周如進(jìn):家庭場景確實(shí)是讓所有人都非常興奮的終局,但飯得一口一口吃。
我們現(xiàn)在的策略是,首先選一個(gè)能夠比較規(guī)模化、且具備高度可復(fù)制性的場景。
這種可復(fù)制性包含三個(gè)維度。
第一個(gè)是商業(yè)模式的復(fù)制,能不能形成標(biāo)準(zhǔn)化的投入產(chǎn)出比(ROI)?
第二個(gè)是施工難度的控制,環(huán)境要相對(duì)可控,不會(huì)像家庭環(huán)境那樣極端,復(fù)雜多變。
第三個(gè)是數(shù)據(jù)回流量復(fù)制, 這是最重要的——我們需要在一個(gè)場景里快速跑通閉環(huán),讓數(shù)據(jù)能成規(guī)模地回流,用來喂養(yǎng)模型。
量子位:為什么是這三個(gè)維度?
周而進(jìn):通過這些場景,我們可以逐步解鎖三個(gè)核心能力。
第一是模型的通用能力,第二是硬件的可靠性,第三是把供應(yīng)鏈和成本打下來。
如果直接進(jìn)家庭,這三座大山很難同時(shí)翻過去。
量子位:不過你剛才提到,“家庭”是“理想的終局場景”?你們的路線圖是什么樣的?
周而進(jìn):物流不僅有抓取,還有大量的搬運(yùn)和環(huán)境交互。
從物流開始,先做一些專項(xiàng)能力的產(chǎn)品,進(jìn)到倉儲(chǔ)環(huán)境;等能力穩(wěn)定了,再逐步推向ToB靠近ToC的場景,比如門店的導(dǎo)流、導(dǎo)客、導(dǎo)購。
最后,當(dāng)所有的技術(shù)、成本、安全性都經(jīng)過海量驗(yàn)證后,再往最終的To C家庭方向去走。
這就是我們說的先物流、后家庭,步步為營。
![]()
關(guān)于世界模型
量子位:DM0在設(shè)計(jì)中引入了具身空間建模機(jī)制,借鑒了世界模型的范式。你們?cè)趺纯创澜缒P停?/strong>
周而進(jìn):高階世界模型被我們視為提升模型泛化能力和處理復(fù)雜長程任務(wù)的核心技術(shù)支撐。
量子位:你們?cè)趺炊x世界模型?
周而進(jìn):我們對(duì)它的定義跟大家不太一樣。
我們不認(rèn)為世界模型是一個(gè)萬能的、能直接輸出高質(zhì)量策略的現(xiàn)實(shí)仿真器。我們更傾向于它是一種模型內(nèi)的世界理解方式,它的關(guān)鍵點(diǎn)是你有沒有辦法在不執(zhí)行動(dòng)作的前提下,推理出這個(gè)動(dòng)作在當(dāng)前環(huán)境下會(huì)帶來什么結(jié)果。
這個(gè)東西才是核心。
如果你每做一個(gè)動(dòng)作都要試一下、都要采一次反饋,那太慢了。
世界模型的意義是讓你在心中模擬一次結(jié)果,然后挑最優(yōu)的那條路徑去做。
量子位:它不是讓你直接輸出結(jié)果,而是讓你學(xué)會(huì)怎么模擬。
周而進(jìn):對(duì)。
我們現(xiàn)在也在嘗試讓世界模型具備空間和時(shí)間上的腦補(bǔ)能力。
就是說,當(dāng)它看到前幾幀時(shí),它能不能想象出接下來幾幀會(huì)發(fā)生什么。或者說,如果我現(xiàn)在想做一個(gè)動(dòng)作,它能不能在執(zhí)行之前,先預(yù)測這個(gè)動(dòng)作在物理世界中可能發(fā)生的后果。
![]()
我們也會(huì)跟DM0這樣的具身模型做結(jié)合,讓世界模型的輸出能對(duì)動(dòng)作規(guī)劃起到支持作用,但不是說它能獨(dú)立解決所有問題。
更像是一個(gè)幫助你決策的inner loop,而不是一個(gè)萬能planner。
關(guān)于終極目標(biāo)與節(jié)奏判斷
量子位:除了落地家庭外,具身智能機(jī)器人還有更遙遠(yuǎn)的終極目標(biāo)嗎?
周而進(jìn):我覺得具身智能最終一定會(huì)走向擁有廣泛社會(huì)身份的階段。
但這個(gè)過程一定是分階段的。需要成熟可靠的硬件形態(tài),需要模型能用自然語言與人協(xié)作完成任務(wù),也需要用戶在心理上形成信任。
量子位:什么叫擁有廣泛的社會(huì)身份?
周而進(jìn):我們內(nèi)部討論過一個(gè)很有趣的概念,叫“機(jī)器人擁有自己的支付寶”。
機(jī)器人去執(zhí)行一個(gè)任務(wù),比如去超市幫主人買一瓶水,或者在園區(qū)里調(diào)用了另一個(gè)自動(dòng)化設(shè)備的服務(wù)時(shí),它可以具備獨(dú)立的支付和結(jié)算能力。
這種社會(huì)身份的建立,背后需要解決的是機(jī)器人的信用體系、支付體系以及責(zé)任追溯體系。
未來的具身機(jī)器人會(huì)像現(xiàn)在的智能手機(jī)一樣,是一個(gè)社會(huì)化接口。擁有支付能力只是第一步,擁有廣泛的社會(huì)身份才是它成為真正AGI的標(biāo)志。
為什么是原力靈機(jī)來做這件事?
量子位:早前曠視內(nèi)部有問“why me”的文化。現(xiàn)在自己出來再創(chuàng)業(yè),你覺得為什么要來做具身這件事?
周而進(jìn):第一個(gè)我覺得是說,具身這件事,不是你簡單的去踩點(diǎn)數(shù)據(jù),或者把互聯(lián)網(wǎng)上現(xiàn)在各種的數(shù)據(jù)整合一下就能夠做出來的。
它涉及到軟件和硬件,尤其是它涉及到海量的跟物理世界的交互。所以我們覺得首先你要有場景。
對(duì)我們來說的話,物流其實(shí)就是一個(gè)非常好的場景。
舉個(gè)例子,比如說在物流里面,你說分揀物料它能干,但是你真把機(jī)器人搬進(jìn)去,這后面有很多的事情——對(duì)接上層業(yè)務(wù)系統(tǒng)?加入具身機(jī)器人后,你改變了整個(gè)流水線的節(jié)奏節(jié)拍,對(duì)吧?你如果東西掉地上了,你有兜底方案嗎?
所有的這些東西,都是這個(gè)具身到底能不能進(jìn)到這個(gè)場景里,從而帶來所謂的數(shù)據(jù)飛輪的前提。
那如果你搞不定這些東西,那你今天只能去工廠里面擺個(gè)拍個(gè)視頻。
![]()
量子位:那為什么是你們這群人來做這件事?
周而進(jìn):其實(shí)看一家公司能不能成,核心看這幾個(gè)要素:模型能力、硬件能力、行業(yè)認(rèn)知和工程落地。
我們團(tuán)隊(duì)的分工非常明確且閉環(huán)。
唐文斌是CEO,他不僅有極強(qiáng)的商業(yè)敏銳度,更重要的是他能把這幫人聚在一起。
我和汪天才負(fù)責(zé)基模訓(xùn)練,我們對(duì)大規(guī)模參數(shù)、多源數(shù)據(jù)混訓(xùn)有長期的實(shí)戰(zhàn)經(jīng)驗(yàn)。
范浩強(qiáng)負(fù)責(zé)前沿算法探索和軟硬件協(xié)同,這是最難的部分。
我們這個(gè)組合不是臨時(shí)湊的,是經(jīng)過長期驗(yàn)證、有默契的組合。
One More Thing
周而進(jìn)在AI領(lǐng)域真刀真槍做了13年了。
現(xiàn)在遇上新一輪風(fēng)口,他和昔日同伴們一起再戰(zhàn)具身智能。他說,大家老把AI時(shí)代劃分成AI 1.0和AI 2.0時(shí)代,聽起來給人一種割裂感。
但其實(shí)不是這樣的。身處其中,你是能觀察和感覺到技術(shù)的發(fā)展的。
因?yàn)锳I 1.0時(shí)代嶄露頭角的時(shí)候太過年輕,是少年天才,以至于周而進(jìn)和范浩強(qiáng)、汪天才等人,放在這一波AI創(chuàng)業(yè)隊(duì)伍中來,還是非常年輕。
我們問他,你有什么建議給現(xiàn)在的年輕人嗎?不管是搞信奧的還是搞AI的。
周而進(jìn)皺眉頭想了兩秒,突然哈哈大笑:
- 年輕人才不喜歡聽建議呢!干就完了!
![]()
DM0技術(shù)報(bào)告:
https://dexmal.com/DM0_Tech_Report.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.