<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      對(duì)話原力靈機(jī)周而進(jìn):模型2.4B就夠用,關(guān)鍵是“具身原生”

      0
      分享至

      衡宇 發(fā)自 凹非寺
      量子位 | 公眾號(hào) QbitAI

      一個(gè)(暫時(shí))只做具身大腦的公司,拋出了一個(gè)只有2.4B參數(shù)的具身模型。

      目前行業(yè)風(fēng)向標(biāo)如Physical Intelligence的π 0總計(jì)約33億參數(shù),π 0.6的參數(shù)量也約莫在50億以上。

      在一個(gè)甚至連硬件形態(tài)都還沒定型的行業(yè)里,2.4B參數(shù)到底夠不夠用?

      這家公司給出的答案是,夠用。

      而且足以支撐它實(shí)時(shí)處理三視角的728x728畫面,推理延遲僅60毫秒;配合強(qiáng)化學(xué)習(xí)機(jī)制,它還能在真機(jī)上不斷試錯(cuò)進(jìn)化。

      這就是具身智能創(chuàng)企原力靈機(jī)推出的首個(gè)具身原生模型產(chǎn)品DM0。

      2.4B的輕量小蛋糕,RTX 5090就能跑。



      因?yàn)閺牧阌?xùn)練以及對(duì)具身數(shù)采有不同于行業(yè)的看法等原因,該公司稱它為“首個(gè)具身原生大模型”。

      與模型同時(shí)發(fā)布的還有開源具身原生框架Dexbotic 2.0,以及具身原生量產(chǎn)工作流DFOL。

      這具身軟件三件套背后技術(shù)路線的操盤手,是原力靈機(jī)合伙人、負(fù)責(zé)大模型的周而進(jìn)。

      他在AI圈早已名聲在外。



      周而進(jìn)現(xiàn)在才33歲,但這人已經(jīng)在AI領(lǐng)域出名13年了——

      早在2013年,深度學(xué)習(xí)和人工智能還是冷門的時(shí)候,大二的曠視實(shí)習(xí)生周而進(jìn)就以一作身份,拿下了ICCV 2013的自然環(huán)境人臉關(guān)鍵點(diǎn)定位比賽(300-W)工業(yè)界組冠軍。

      但這個(gè)傳奇人物的出名比這個(gè)時(shí)間線更早。

      他是信息學(xué)競賽NOI、IOI金牌選手,初三就“保送”到了清華;作為清華的學(xué)生,他師從電子工程系長聘教授、系主任汪玉。

      后來作為曠視12號(hào)員工,他屢屢用算法軟件拿下全球第一。

      就是這樣一位從AI 1.0時(shí)代走出來的少年天才,在去年,他和同為曠視同事的范浩強(qiáng)、汪天才,創(chuàng)業(yè)具身智能。

      后來前曠視聯(lián)合創(chuàng)始人唐文斌也參與其中,擔(dān)任CEO。



      周而進(jìn)對(duì)我們說,當(dāng)前具身行業(yè)的主流具身模型方案,大多數(shù)是VLM+Action Head思路

      也就是說,大模型負(fù)責(zé)識(shí)別和邏輯推理(比如看到冰箱里有牛奶),動(dòng)作頭負(fù)責(zé)執(zhí)行(去抓取牛奶)。

      • 這種方法在目前行之有效,但它是一種外掛式方案。



      原力靈機(jī)想追求一種具身原生路線,強(qiáng)調(diào)從數(shù)據(jù)采集范式、推理方式到控制結(jié)構(gòu),都應(yīng)源自物理世界的反饋,而不是數(shù)字世界的派生模態(tài)。

      也確實(shí)這么付諸實(shí)踐了。

      剛提到的模型DM0,就“從底層建模上就將感知、推理、控制整合為閉環(huán),然后通過空間推理思維鏈(Spatial CoT),內(nèi)生出具身智能”。



      DM0的核心是通過多源、多任務(wù)、多機(jī)型訓(xùn)練來打通具身智能。

      具體的訓(xùn)練過程,分為三個(gè)階段。

      第一階段是VLM Train。

      團(tuán)隊(duì)從零構(gòu)建具身原生的多模態(tài)模型,將互聯(lián)網(wǎng)、智駕和具身多傳感數(shù)據(jù)融為一體,讓模型天生就理解物理環(huán)境,練就扎實(shí)的感知基本功。

      第二階段是VLA Pre-Train,周而進(jìn)稱之為“具身能力涌現(xiàn)的關(guān)鍵”,分為多任務(wù)、多機(jī)型訓(xùn)練和空間推理思維鏈兩條主線。

      第三階段是VLA Post-Train。這一步保留了針對(duì)特定應(yīng)用場景的適配能力。

      在RoboChallenge大規(guī)模真機(jī)評(píng)測中,DM0拿下了單任務(wù)和多任務(wù)雙料第一。



      這是原力靈機(jī)成立以來第一次成體系地發(fā)布具身技術(shù)產(chǎn)品。

      從和周而進(jìn)的對(duì)談里我們發(fā)現(xiàn),原力靈機(jī)從模型、工具鏈、量產(chǎn)工作流,方方面面都不停地在講閉環(huán)、講具身原生。

      在我們與周而進(jìn)的這次深度對(duì)話中,他也圍繞這些關(guān)鍵詞給出了更詳細(xì)的解讀:

      • 為什么要堅(jiān)持從零訓(xùn)練而不是微調(diào)?
      • 空間推理思維鏈?zhǔn)窃趺磶椭P蛻?yīng)對(duì)長程任務(wù)?
      • “全身全時(shí)全域”的數(shù)據(jù)采集會(huì)帶來什么變化?
      • 機(jī)器人如何逐步走向擁有“社會(huì)身份”?
      • 以及,為什么必須7×24小時(shí)跑起來?為什么要從物流開始做具身?

      諸如這些問題,在采訪中都得到了回應(yīng)。

      (以下為對(duì)話實(shí)錄。在不改變對(duì)談?wù)弑救嗽獾幕A(chǔ)上,我們做了部分刪改,以方便閱讀)

      對(duì)話實(shí)錄
      關(guān)于“具身原生”

      量子位:靈機(jī)把這次發(fā)布的DM0叫做“具身原生大模型”。原生不原生有什么區(qū)別?

      周而進(jìn): 具身智能的核心是構(gòu)建感知-決策-執(zhí)行的閉環(huán)智能。

      在大語言模型范式下,智能主要停留在信息處理層面,比如識(shí)別冰箱里有牛奶。

      但具身智能不僅要看到牛奶,還要拿起牛奶,找到生產(chǎn)日期,從而判斷牛奶是否過期,實(shí)現(xiàn)從數(shù)字智能到物理智能的跨越。

      量子位:DM0原生在哪里?

      周而進(jìn):有兩個(gè)層面。

      第一個(gè)是模型訓(xùn)練本身的起點(diǎn)從零開始。

      希望模型從出生的第一天開始,就已經(jīng)充分理解物理世界,而不是在一個(gè)已經(jīng)被大量互聯(lián)網(wǎng)數(shù)據(jù)塑形過的模型上,后天再去補(bǔ)物理世界的東西。

      物理世界在模型初始化階段,會(huì)給到非常多非常豐富的反饋,這種反饋如果放到后面再學(xué),本質(zhì)上是很難補(bǔ)回來的。

      互聯(lián)網(wǎng)數(shù)據(jù)當(dāng)然很重要,它帶來了大量先驗(yàn),但我們的理念是,希望模型在一開始就見過真實(shí)的空間關(guān)系、交互關(guān)系,理解人與物理世界是如何對(duì)話的。

      很多人會(huì)覺得,現(xiàn)在已經(jīng)有很強(qiáng)的通用大模型了,比如直接拿一個(gè)語言模型作為基模,再往后堆一些具身數(shù)據(jù),好像也能訓(xùn)出效果。

      從工程上看,這條路是走得通的。但我們會(huì)覺得,這樣的路徑在認(rèn)知順序上是有問題的。無論是動(dòng)物還是人類,最早學(xué)會(huì)的都是動(dòng)作,是對(duì)物理世界的反應(yīng)能力,而語言、抽象思維反而是后天逐漸發(fā)展出來的。

      一個(gè)不那么嚴(yán)謹(jǐn)?shù)念惐龋愫茈y想象一個(gè)嬰兒是先學(xué)會(huì)對(duì)話,再學(xué)會(huì)找奶瓶。

      所以我們認(rèn)為具身模型也應(yīng)該遵循類似的路徑,從一開始就圍繞物理交互來構(gòu)建,而不是在一個(gè)已經(jīng)在數(shù)字世界訓(xùn)練好的模型上去嫁接動(dòng)作能力。

      量子位:第二個(gè)原生的點(diǎn)呢?

      周而進(jìn):第二個(gè)是數(shù)據(jù)的理解方式。

      今天行業(yè)里關(guān)于具身數(shù)據(jù)怎么采、用仿真還是真機(jī),其實(shí)分歧非常大。

      仿真派和真機(jī)派之間爭論了很久,但我們一直覺得用“仿真”還是“真機(jī)”來切分本身意義并不大,更像是在給自己貼標(biāo)簽。

      我們的看法是,今天你采集的所有數(shù)據(jù),本質(zhì)上都是合成數(shù)據(jù),只是合成程度不同而已。

      在仿真器里,任務(wù)定義、物理反饋、物理規(guī)則,全部是人為構(gòu)造的,這是高度合成的數(shù)據(jù);在真實(shí)世界里采數(shù)據(jù),看起來瓶子是真的、環(huán)境是真的,但任務(wù)是不是你定義的?Task instruction是不是人為設(shè)定的?物流場景里的流水線是不是人設(shè)計(jì)的?

      從這個(gè)角度看,它們本質(zhì)上都處在一個(gè)合成光譜上。

      我們更關(guān)心的不是用不用仿真,而是應(yīng)該把數(shù)據(jù)和算力投向哪里。

      我們內(nèi)部有一個(gè)比較明確的判斷,物理確定性強(qiáng)的部分,用算力和仿真去解決;語義模糊、不確定性高的部分,用真實(shí)數(shù)據(jù)去覆蓋。

      這也是我們?yōu)槭裁磿?huì)認(rèn)為從一開始就把“人、數(shù)據(jù)、物理世界的交互形式”放進(jìn)模型設(shè)計(jì)里非常重要。

      如果模型最早接觸到的就是這些東西,它在后續(xù)面對(duì)不同硬件、不同形態(tài)機(jī)器人時(shí),學(xué)到的是操作邏輯,而不是某一臺(tái)機(jī)器的電機(jī)參數(shù)。



      量子位:說到不同形態(tài)的機(jī)器人,資料顯示DM0的訓(xùn)練特意擴(kuò)充了不同本體的機(jī)器人數(shù)據(jù),目前是8種機(jī)器人。

      周而進(jìn):如果模型只見過少數(shù)幾種機(jī)型,它很容易把“該怎么完成一個(gè)任務(wù)”和“這臺(tái)機(jī)器的關(guān)節(jié)要怎么轉(zhuǎn)”混在一起。

      舉個(gè)例子,把水放到某個(gè)位置,模型真正應(yīng)該理解的是伸手、移動(dòng)、放置這個(gè)動(dòng)作序列,而不是某個(gè)關(guān)節(jié)需要轉(zhuǎn)多少度。

      就像人開車一樣,一個(gè)合格的司機(jī)不會(huì)因?yàn)閾Q了一輛車就不會(huì)開了。

      真正記住的是軌跡和操作邏輯,而不是方向盤的松緊程度。

      從這個(gè)角度也很容易能理解具身原生是我們的路徑選擇。



      關(guān)于數(shù)據(jù)和高/低熵場景

      量子位:DM0用的數(shù)據(jù)來源有3個(gè),分別是互聯(lián)網(wǎng)數(shù)據(jù)、智能輔助駕駛數(shù)據(jù)和具身智能數(shù)據(jù)。

      周而進(jìn):具身模型不是只靠一種數(shù)據(jù)就能訓(xùn)出來的。

      如果仿真的物理引擎足夠強(qiáng),能模擬出真實(shí)世界的接觸力、摩擦力和碰撞反饋,那么仿真數(shù)據(jù)的價(jià)值就會(huì)極大提升。

      但在目前的階段,特別是涉及到復(fù)雜的觸覺和細(xì)微操作時(shí),真實(shí)交互產(chǎn)生的硬核數(shù)據(jù)依然是不可替代的。

      而且互聯(lián)網(wǎng)數(shù)據(jù)、自駕數(shù)據(jù)、具身數(shù)據(jù),這三類數(shù)據(jù)在模型里承擔(dān)的角色是完全不同的。

      互聯(lián)網(wǎng)數(shù)據(jù)提供的是語言和概念層面的抽象能力,它讓模型理解“什么是什么”;自駕數(shù)據(jù)提供的是在開放環(huán)境中應(yīng)對(duì)長尾事件的經(jīng)驗(yàn);而具身數(shù)據(jù)填補(bǔ)的是物理交互和接觸這一塊,這是前兩類數(shù)據(jù)完全無法覆蓋的。



      量子位:三者有固定的混合比例嗎?

      周而進(jìn):沒有,根據(jù)實(shí)驗(yàn)結(jié)果動(dòng)態(tài)調(diào)整。

      現(xiàn)在具身數(shù)據(jù)確實(shí)相對(duì)少,但隨著采集規(guī)模的擴(kuò)大,它的占比一定會(huì)快速上升。

      量子位:其中哪種會(huì)是未來訓(xùn)練具身模型的主導(dǎo)類別?

      周而進(jìn):我們并不認(rèn)為未來一定是某一種數(shù)據(jù)占絕對(duì)主導(dǎo)。3類數(shù)據(jù)在不同階段承擔(dān)不同權(quán)重。



      量子位:你們提到“熵在哪里,數(shù)據(jù)就投向哪里”,這句話怎么理解?

      周而進(jìn):可以理解為決定數(shù)據(jù)采集的關(guān)鍵變量是環(huán)境的可描述性與熵(不確定性)。

      最高效的方法一定是“能夠閉環(huán)的方法”。

      如果數(shù)據(jù)采回來不能提升模型的泛化能力,或者采回來的全是重復(fù)的、低質(zhì)量的動(dòng)作,那只是在浪費(fèi)算力。

      我們現(xiàn)在的策略是,先通過模型發(fā)現(xiàn)哪些任務(wù)是它干不好的,即“熵值高”的地方,然后針對(duì)性地去補(bǔ)那部分?jǐn)?shù)據(jù)。

      這就叫以需定采,讓數(shù)據(jù)采集也具備反饋閉環(huán)。



      環(huán)境規(guī)則明確的場景,數(shù)據(jù)就是計(jì)算的產(chǎn)物。我們可以充分發(fā)揮算力可擴(kuò)展的優(yōu)勢(shì),通過算力進(jìn)行狀態(tài)空間的探索。

      高熵場景充滿不明的語義,人類偏好,還有開放世界的不確定性。這種情況下數(shù)據(jù)就是經(jīng)驗(yàn)的映射,必須依賴真實(shí)交互,從多樣經(jīng)驗(yàn)中歸納。

      簡單說,物理規(guī)則簡潔確定的部分用算力生成數(shù)據(jù),物理模糊或語義模糊的部分用真機(jī)采集,這樣才能解決長尾問題。

      關(guān)于數(shù)據(jù)采集方式

      量子位:你們的數(shù)據(jù)采集方式好像很獨(dú)特,不只采具身機(jī)器人的雙臂動(dòng)作。

      周而進(jìn):我們做的是全身全域全時(shí)的采集。

      量子位:什么是“全身全域全時(shí)”?

      周而進(jìn):全身,指數(shù)據(jù)采集要包含底盤的移動(dòng)、軀干的協(xié)調(diào)以及所有傳感器的反饋。

      具身智能是操作與導(dǎo)航的統(tǒng)一,你不能把路走得好和手干得好拆開來看,數(shù)據(jù)必須包含全身的協(xié)同。

      全時(shí)強(qiáng)調(diào)的是數(shù)據(jù)的連續(xù)性和因果鏈。

      數(shù)據(jù)采集不能只拍下某個(gè)瞬間,要從意圖產(chǎn)生、路徑規(guī)劃到動(dòng)作執(zhí)行,甚至是中間出錯(cuò)、修正的全過程都記錄下來。

      正常人類對(duì)話,我問你“衛(wèi)生間在哪”,你手一指,說“在那”。

      這個(gè)過程中你講了一個(gè)方位代詞,又做了一個(gè)肢體語言。這些東西其實(shí)是我們認(rèn)為能夠跟人長時(shí)間,或者說24小時(shí)全時(shí)共處的一個(gè)機(jī)器人他就應(yīng)該具備的能力。

      全域是空間域,相對(duì)其他兩個(gè),這個(gè)暫時(shí)還是一個(gè)未來規(guī)劃。

      量子位:采集這種數(shù)據(jù)是一開始出發(fā)點(diǎn)就這樣,還是走了其它方式最后選擇了一種最work的?

      周而進(jìn):我們從一開始去做數(shù)采的時(shí)候,就奔著要把全身的數(shù)據(jù)、全時(shí)間段的數(shù)據(jù)、全空間場景的數(shù)據(jù)都給覆蓋了,其實(shí)就是奔著一個(gè)更通用的目標(biāo)去做。

      都說具身智能具身智能,那人類的全身的數(shù)據(jù)你是不是都應(yīng)該采到?

      如果我今天只做桌面的雙臂抓取機(jī)器人,你好像只要用雙臂就行了。

      但真實(shí)的人類動(dòng)作不只有雙臂和雙手的動(dòng)作。過程中你可能要彎腰,你可能要蹲下;如果要把東西遞出去,需要伸手……需要各種肢體語言。

      具身智能的數(shù)據(jù)不能只關(guān)注手部動(dòng)作,應(yīng)該要用整體性的、連續(xù)的來訓(xùn)。

      量子位:這樣煞費(fèi)苦心地采集,能帶來什么效果呢?

      周而進(jìn):全身全時(shí)全域的采集是為了應(yīng)對(duì)物理世界的無限長尾。

      如果采集不夠全面,模型就會(huì)陷入無限打補(bǔ)丁的困境。

      關(guān)于新發(fā)布的具身三件套



      量子位:這次除了DM0,你們還發(fā)布了一個(gè)開源的具身框架Dexbotic2.0,以及解鎖具身應(yīng)用量產(chǎn)工作流的DFOL。動(dòng)作不少。

      周而進(jìn):Dexbotic2.0是我們聯(lián)合RLinf一起打造“具身智能領(lǐng)域的PyTorch”。

      它采用模塊化架構(gòu),視覺編碼器、LLM模塊、動(dòng)作專家模塊都可以像樂高一樣自由組合。

      我們聯(lián)合了清華、無問芯穹共建,目標(biāo)是實(shí)現(xiàn)具身操作與導(dǎo)航、模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的統(tǒng)一。

      DFOL則用來解鎖具身應(yīng)用量產(chǎn)工作流。

      傳統(tǒng)非標(biāo)自動(dòng)化擁有極快的節(jié)拍和極高的確定性,但靈活性差,難以適應(yīng)頻繁換線;人工則具備極強(qiáng)的通用能力和高超操作技巧,但是效率低、成本高且穩(wěn)定性不足。

      DFOL正處于這兩者之間最有價(jià)值的工作區(qū)間,它依托相對(duì)通用的硬件,通過強(qiáng)大的學(xué)習(xí)能力實(shí)現(xiàn)快速換線,以模型定義功能,并對(duì)復(fù)雜多變的輸入具備極強(qiáng)的柔性適應(yīng)能力。

      既能保持較高效率與確定性,又擁有接近人類的靈活性和適應(yīng)性

      我們用三個(gè)指標(biāo)評(píng)估它:

      • 成功率(接近100%的連續(xù)無故障作業(yè))
      • 動(dòng)作質(zhì)量(毫米級(jí)甚至更高的定位精度)
      • 節(jié)拍(即吞吐率,決定ROI)



      關(guān)于具身模型的記憶

      量子位:DM0模型里面用到了空間推理思維鏈(Spatial CoT),這和大語言模型的推理思維鏈(CoT)的本質(zhì)區(qū)別是什么?

      周而進(jìn):大語言模型的CoT主要是一維的語義推理,具身智能面臨的挑戰(zhàn)是三維的物理世界。

      空間推理的推理核心是“空間”,具備真實(shí)操作場景中的空間理解、時(shí)序組織與運(yùn)動(dòng)控制能力。

      面對(duì)“收拾一下桌面”這種模糊指令,模型不是直接輸出動(dòng)作,而是先進(jìn)行子任務(wù)預(yù)測與規(guī)劃,然后完成物體識(shí)別與精確定位。

      它必須把視覺特征轉(zhuǎn)化為精確的空間坐標(biāo)和軌跡,這是一種空間維度的推演。



      量子位:在純文本大模型里,推理錯(cuò)了可能只是胡言亂語;但物理世界里的動(dòng)作一旦出錯(cuò),可能造成損壞、危險(xiǎn)或不可逆的后果。

      周而進(jìn):對(duì)。所以空間推理思維鏈通過“子任務(wù)-識(shí)別定位-2D軌跡-3D動(dòng)作映射”的閉環(huán),確保每一步推理都與物理現(xiàn)實(shí)對(duì)齊。

      它模擬“介入世界”后的物理反饋,從而彌合感知與執(zhí)行之間的斷層。

      這類空間推理是DM0模型的設(shè)計(jì)核心。

      量子位:空間推理思維鏈能帶來什么效果?

      周而進(jìn):結(jié)合高分辨率的輸入,他能讓模型在毫米級(jí)精度的任務(wù)中(如工件擺放)識(shí)別微小的位置差異。

      沒有這種層層遞進(jìn)的推理,模型無法學(xué)會(huì)物體左偏移2毫米意味著什么,但通過空間推理后就能計(jì)算并執(zhí)行這種差異。

      普通的CoT無法告訴你杯子向左偏移2毫米意味著什么,但Spatial CoT必須能計(jì)算并執(zhí)行這種差異。

      關(guān)于7x24運(yùn)行

      量子位:關(guān)于數(shù)據(jù)閉環(huán)、物理直覺的形成,還有熵,你都在說“越早越好”。

      周而進(jìn): 所有人都知道,機(jī)器人要上崗要運(yùn)行,但什么時(shí)候跑是一個(gè)很現(xiàn)實(shí)的問題。有的團(tuán)隊(duì)是先做demo,先做技術(shù),再考慮落地;我們是反過來。

      我們一開始就想,這個(gè)東西必須7×24小時(shí)運(yùn)行,越早跑起來越好。

      只有真實(shí)跑起來,才有真實(shí)數(shù)據(jù)。

      你的模型再聰明,如果沒有數(shù)據(jù)回流,它永遠(yuǎn)學(xué)不會(huì)真實(shí)場景中的問題;你訓(xùn)練里沒有的東西,只能靠在跑的時(shí)候補(bǔ)回來。

      而且越早跑起來,工程的穩(wěn)定性問題越早暴露,你就能越早修。

      今天demo做得再好,一旦你要上崗7×24,你就會(huì)發(fā)現(xiàn)電源、網(wǎng)絡(luò)、攝像頭、支架,甚至天氣、光照,都會(huì)出問題。

      量子位:原力靈機(jī)的模型已經(jīng)7x24在跑了嗎?

      周而進(jìn):我們現(xiàn)在已經(jīng)在多個(gè)場地做部署,不是demo式的部署,是7×24的真實(shí)運(yùn)行。

      哪怕剛開始成功率不高,也要跑起來。

      關(guān)于精細(xì)操作

      量子位:你們把工廠里的物流場景是具身智能應(yīng)用的重要延伸。

      周而進(jìn):是的。

      量子位:為什么從物流做起?

      周而進(jìn):具身現(xiàn)在很難說脫離場景,一定得在一個(gè)比較明確的場景下面來做這件事情。

      我們今天做物流有明確的產(chǎn)線,有明確的上下料的邏輯。

      在這個(gè)場景上面,先把該干的活干好,然后一步一步去拓展能力。

      靈機(jī)在物流場景里做了一個(gè)輪式雙臂機(jī)器人,專門用來做物料分揀。物料分揀實(shí)際上非常復(fù)雜,物料有柔性的,有剛性的,擺放也很亂,就是在物料箱里隨意堆滿。

      要把這些物品一個(gè)一個(gè)分揀出來,有很多傳統(tǒng)的方法,比如用吸盤。但問題是吸盤對(duì)于柔性材料,對(duì)于表面不光澤的物體不work,有各種各樣的corner case。

      在這樣一個(gè)明確且受限的應(yīng)用場景下,我們的目標(biāo)是探索能否讓機(jī)器人實(shí)現(xiàn)24小時(shí)不間斷運(yùn)行,滿足實(shí)際需求。

      量子位:怎么理解“物流場景非常復(fù)雜”?光是聽起來,沒有什么具體的體會(huì)。

      周而進(jìn):很多時(shí)候大家會(huì)被一些大動(dòng)作吸引,比如能不能搬箱子、能不能推門、能不能走路。

      但真正難的其實(shí)是精細(xì)動(dòng)作。

      精細(xì)動(dòng)作不是說動(dòng)作幅度小,而是說對(duì)連續(xù)狀態(tài)變化的控制要求非常高。

      比如一個(gè)工件的擺放,你肉眼看可能覺得已經(jīng)放進(jìn)去了,但對(duì)工業(yè)來說,差一兩毫米就是失敗。

      這種事情如果只是拍視頻是看不出來的,一旦真的放到產(chǎn)線上,就會(huì)發(fā)現(xiàn)成功率會(huì)非常快地掉下來。

      量子位:怎么讓具身機(jī)器人很好地完成這些精細(xì)動(dòng)作?

      周而進(jìn):精細(xì)動(dòng)作的前提是精細(xì)感知。

      如果你的視覺輸入分辨率不夠,模型看到的世界本身就是模糊的,那后面的推理和控制一定是漂的。很多時(shí)候模型它根本不知道現(xiàn)在這個(gè)工件到底偏了多少。

      所以我們?cè)谀P驮O(shè)計(jì)時(shí),會(huì)非常看重高分辨率輸入下的穩(wěn)定性,而不是只追求推理速度或者吞吐。



      這又call back了我們反復(fù)強(qiáng)調(diào)具身原生。其中一個(gè)很重要的原因就是精細(xì)動(dòng)作沒辦法靠后期補(bǔ)。

      如果模型在最早的訓(xùn)練階段,從來沒有在高精度、高要求的物理反饋下學(xué)過動(dòng)作,那后面你再加多少規(guī)則、加多少工程約束,都會(huì)非常吃力。

      關(guān)于落地場景

      量子位:說說你們的落地場景吧。

      周而捷:我們挑選的是一個(gè)最標(biāo)準(zhǔn)化的場景,就是物流工人坐在工位上面,在物料箱上面做分揀;也有工人是在做物料箱的搬運(yùn),他要從這邊的一個(gè)AGV把箱子拿起來,然后塞到貨架上面。

      也有工人在做打包。比如你買了三瓶可樂,工人要拿一個(gè)快遞箱,里面還要墊一些防震的泡沫紙,最后打包好。

      這已經(jīng)涉及到一個(gè)人在工廠里面全身的動(dòng)作:走動(dòng)、蹲起、手部的靈巧操作……覆蓋的場景非常豐富了。

      不過事情要一步一步來解決。我們現(xiàn)在先解鎖的還是靈巧抓取的問題。



      量子位:你們?cè)趺纯创煌瑘鼍暗膬?yōu)先級(jí)?為什么先做物流,而不是一上來就做家庭之類的其它場景?

      周如進(jìn):家庭場景確實(shí)是讓所有人都非常興奮的終局,但飯得一口一口吃。

      我們現(xiàn)在的策略是,首先選一個(gè)能夠比較規(guī)模化、且具備高度可復(fù)制性的場景。

      這種可復(fù)制性包含三個(gè)維度。

      第一個(gè)是商業(yè)模式的復(fù)制,能不能形成標(biāo)準(zhǔn)化的投入產(chǎn)出比(ROI)?

      第二個(gè)是施工難度的控制,環(huán)境要相對(duì)可控,不會(huì)像家庭環(huán)境那樣極端,復(fù)雜多變。

      第三個(gè)是數(shù)據(jù)回流量復(fù)制, 這是最重要的——我們需要在一個(gè)場景里快速跑通閉環(huán),讓數(shù)據(jù)能成規(guī)模地回流,用來喂養(yǎng)模型。

      量子位:為什么是這三個(gè)維度?

      周而進(jìn):通過這些場景,我們可以逐步解鎖三個(gè)核心能力。

      第一是模型的通用能力,第二是硬件的可靠性,第三是把供應(yīng)鏈和成本打下來。

      如果直接進(jìn)家庭,這三座大山很難同時(shí)翻過去。

      量子位:不過你剛才提到,“家庭”是“理想的終局場景”?你們的路線圖是什么樣的?

      周而進(jìn):物流不僅有抓取,還有大量的搬運(yùn)和環(huán)境交互。

      從物流開始,先做一些專項(xiàng)能力的產(chǎn)品,進(jìn)到倉儲(chǔ)環(huán)境;等能力穩(wěn)定了,再逐步推向ToB靠近ToC的場景,比如門店的導(dǎo)流、導(dǎo)客、導(dǎo)購。

      最后,當(dāng)所有的技術(shù)、成本、安全性都經(jīng)過海量驗(yàn)證后,再往最終的To C家庭方向去走。

      這就是我們說的先物流、后家庭,步步為營。



      關(guān)于世界模型

      量子位:DM0在設(shè)計(jì)中引入了具身空間建模機(jī)制,借鑒了世界模型的范式。你們?cè)趺纯创澜缒P停?/strong>

      周而進(jìn):高階世界模型被我們視為提升模型泛化能力和處理復(fù)雜長程任務(wù)的核心技術(shù)支撐。

      量子位:你們?cè)趺炊x世界模型?

      周而進(jìn):我們對(duì)它的定義跟大家不太一樣。

      我們不認(rèn)為世界模型是一個(gè)萬能的、能直接輸出高質(zhì)量策略的現(xiàn)實(shí)仿真器。我們更傾向于它是一種模型內(nèi)的世界理解方式,它的關(guān)鍵點(diǎn)是你有沒有辦法在不執(zhí)行動(dòng)作的前提下,推理出這個(gè)動(dòng)作在當(dāng)前環(huán)境下會(huì)帶來什么結(jié)果。

      這個(gè)東西才是核心。

      如果你每做一個(gè)動(dòng)作都要試一下、都要采一次反饋,那太慢了。

      世界模型的意義是讓你在心中模擬一次結(jié)果,然后挑最優(yōu)的那條路徑去做。

      量子位:它不是讓你直接輸出結(jié)果,而是讓你學(xué)會(huì)怎么模擬。

      周而進(jìn):對(duì)。

      我們現(xiàn)在也在嘗試讓世界模型具備空間和時(shí)間上的腦補(bǔ)能力。

      就是說,當(dāng)它看到前幾幀時(shí),它能不能想象出接下來幾幀會(huì)發(fā)生什么。或者說,如果我現(xiàn)在想做一個(gè)動(dòng)作,它能不能在執(zhí)行之前,先預(yù)測這個(gè)動(dòng)作在物理世界中可能發(fā)生的后果。



      我們也會(huì)跟DM0這樣的具身模型做結(jié)合,讓世界模型的輸出能對(duì)動(dòng)作規(guī)劃起到支持作用,但不是說它能獨(dú)立解決所有問題。

      更像是一個(gè)幫助你決策的inner loop,而不是一個(gè)萬能planner。

      關(guān)于終極目標(biāo)與節(jié)奏判斷

      量子位:除了落地家庭外,具身智能機(jī)器人還有更遙遠(yuǎn)的終極目標(biāo)嗎?

      周而進(jìn):我覺得具身智能最終一定會(huì)走向擁有廣泛社會(huì)身份的階段。

      但這個(gè)過程一定是分階段的。需要成熟可靠的硬件形態(tài),需要模型能用自然語言與人協(xié)作完成任務(wù),也需要用戶在心理上形成信任。

      量子位:什么叫擁有廣泛的社會(huì)身份?

      周而進(jìn):我們內(nèi)部討論過一個(gè)很有趣的概念,叫“機(jī)器人擁有自己的支付寶”。

      機(jī)器人去執(zhí)行一個(gè)任務(wù),比如去超市幫主人買一瓶水,或者在園區(qū)里調(diào)用了另一個(gè)自動(dòng)化設(shè)備的服務(wù)時(shí),它可以具備獨(dú)立的支付和結(jié)算能力。

      這種社會(huì)身份的建立,背后需要解決的是機(jī)器人的信用體系、支付體系以及責(zé)任追溯體系。

      未來的具身機(jī)器人會(huì)像現(xiàn)在的智能手機(jī)一樣,是一個(gè)社會(huì)化接口。擁有支付能力只是第一步,擁有廣泛的社會(huì)身份才是它成為真正AGI的標(biāo)志。

      為什么是原力靈機(jī)來做這件事?

      量子位:早前曠視內(nèi)部有問“why me”的文化。現(xiàn)在自己出來再創(chuàng)業(yè),你覺得為什么要來做具身這件事?

      周而進(jìn):第一個(gè)我覺得是說,具身這件事,不是你簡單的去踩點(diǎn)數(shù)據(jù),或者把互聯(lián)網(wǎng)上現(xiàn)在各種的數(shù)據(jù)整合一下就能夠做出來的。

      它涉及到軟件和硬件,尤其是它涉及到海量的跟物理世界的交互。所以我們覺得首先你要有場景。

      對(duì)我們來說的話,物流其實(shí)就是一個(gè)非常好的場景。

      舉個(gè)例子,比如說在物流里面,你說分揀物料它能干,但是你真把機(jī)器人搬進(jìn)去,這后面有很多的事情——對(duì)接上層業(yè)務(wù)系統(tǒng)?加入具身機(jī)器人后,你改變了整個(gè)流水線的節(jié)奏節(jié)拍,對(duì)吧?你如果東西掉地上了,你有兜底方案嗎?

      所有的這些東西,都是這個(gè)具身到底能不能進(jìn)到這個(gè)場景里,從而帶來所謂的數(shù)據(jù)飛輪的前提。

      那如果你搞不定這些東西,那你今天只能去工廠里面擺個(gè)拍個(gè)視頻。



      量子位:那為什么是你們這群人來做這件事?

      周而進(jìn):其實(shí)看一家公司能不能成,核心看這幾個(gè)要素:模型能力、硬件能力、行業(yè)認(rèn)知和工程落地。

      我們團(tuán)隊(duì)的分工非常明確且閉環(huán)。

      唐文斌是CEO,他不僅有極強(qiáng)的商業(yè)敏銳度,更重要的是他能把這幫人聚在一起。

      我和汪天才負(fù)責(zé)基模訓(xùn)練,我們對(duì)大規(guī)模參數(shù)、多源數(shù)據(jù)混訓(xùn)有長期的實(shí)戰(zhàn)經(jīng)驗(yàn)。

      范浩強(qiáng)負(fù)責(zé)前沿算法探索和軟硬件協(xié)同,這是最難的部分。

      我們這個(gè)組合不是臨時(shí)湊的,是經(jīng)過長期驗(yàn)證、有默契的組合。

      One More Thing

      周而進(jìn)在AI領(lǐng)域真刀真槍做了13年了。

      現(xiàn)在遇上新一輪風(fēng)口,他和昔日同伴們一起再戰(zhàn)具身智能。他說,大家老把AI時(shí)代劃分成AI 1.0和AI 2.0時(shí)代,聽起來給人一種割裂感。

      但其實(shí)不是這樣的。身處其中,你是能觀察和感覺到技術(shù)的發(fā)展的。

      因?yàn)锳I 1.0時(shí)代嶄露頭角的時(shí)候太過年輕,是少年天才,以至于周而進(jìn)和范浩強(qiáng)、汪天才等人,放在這一波AI創(chuàng)業(yè)隊(duì)伍中來,還是非常年輕。

      我們問他,你有什么建議給現(xiàn)在的年輕人嗎?不管是搞信奧的還是搞AI的。

      周而進(jìn)皺眉頭想了兩秒,突然哈哈大笑:

      • 年輕人才不喜歡聽建議呢!干就完了!



      DM0技術(shù)報(bào)告:

      https://dexmal.com/DM0_Tech_Report.pdf

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      最近幾天大家看到西方開始公然搶劫我們?cè)诤M獾馁Y產(chǎn)了

      最近幾天大家看到西方開始公然搶劫我們?cè)诤M獾馁Y產(chǎn)了

      百態(tài)人間
      2026-02-13 15:09:39
      9場進(jìn)11球+絕殺!中國足球16歲1米87鋒霸崛起:名嘴預(yù)言成真

      9場進(jìn)11球+絕殺!中國足球16歲1米87鋒霸崛起:名嘴預(yù)言成真

      李喜林籃球絕殺
      2026-02-12 16:40:35
      2023年,聯(lián)邦法院裁定——李昌鈺偽造證據(jù)罪名成立。

      2023年,聯(lián)邦法院裁定——李昌鈺偽造證據(jù)罪名成立。

      百態(tài)人間
      2026-02-07 15:38:20
      馬龍迪拜度假,夏露小腹隆起被疑懷二胎,高價(jià)麻布袋吸睛

      馬龍迪拜度假,夏露小腹隆起被疑懷二胎,高價(jià)麻布袋吸睛

      悅君兮君不知
      2026-02-12 15:32:45
      連續(xù)跌停!又一超級(jí)大妖股崩了?

      連續(xù)跌停!又一超級(jí)大妖股崩了?

      財(cái)經(jīng)銳眼
      2026-02-12 16:35:08
      兩股冷空氣!廣東最低3℃!汕頭晴冷模式!最低14℃!

      兩股冷空氣!廣東最低3℃!汕頭晴冷模式!最低14℃!

      ilove汕頭
      2026-02-13 14:40:55
      希拉里助手曾披露:為報(bào)復(fù)克林頓,希拉里私生活很混亂,依賴藥物

      希拉里助手曾披露:為報(bào)復(fù)克林頓,希拉里私生活很混亂,依賴藥物

      老范談史
      2026-01-07 14:53:22
      向太一家去新加坡過年!5歲女兒像洋娃娃,郭碧婷拎包跪地像保姆

      向太一家去新加坡過年!5歲女兒像洋娃娃,郭碧婷拎包跪地像保姆

      動(dòng)物奇奇怪怪
      2026-02-13 14:34:13
      就在今天!2月13日中午,國乒傳來樊振東、陳夢(mèng)、孫穎莎的消息

      就在今天!2月13日中午,國乒傳來樊振東、陳夢(mèng)、孫穎莎的消息

      皮皮觀天下
      2026-02-13 12:33:50
      廣東清遠(yuǎn)電子廠突然發(fā)400元以上年終獎(jiǎng),留廠過春節(jié)安排娛樂活動(dòng)

      廣東清遠(yuǎn)電子廠突然發(fā)400元以上年終獎(jiǎng),留廠過春節(jié)安排娛樂活動(dòng)

      搗蛋窩
      2026-02-12 06:09:57
      中國公廁里的賣片小廣告,如何讓老外瘋狂?

      中國公廁里的賣片小廣告,如何讓老外瘋狂?

      酷玩實(shí)驗(yàn)室
      2026-02-12 14:35:01
      33歲失業(yè)男子開特斯拉跑貨拉拉

      33歲失業(yè)男子開特斯拉跑貨拉拉

      閃電新聞
      2026-02-12 17:50:31
      一百年前,日本預(yù)言家王仁三郎預(yù)言:2030年內(nèi)日本將會(huì)徹底毀滅!

      一百年前,日本預(yù)言家王仁三郎預(yù)言:2030年內(nèi)日本將會(huì)徹底毀滅!

      今日搞笑分享
      2026-02-11 13:04:16
      郭臺(tái)銘捐出千億身家,到底是怎么回事?

      郭臺(tái)銘捐出千億身家,到底是怎么回事?

      林小明商業(yè)評(píng)說
      2026-01-30 23:52:01
      銀行員工:若你60-80歲了,一定要停止存款,原因讓人意想不到

      銀行員工:若你60-80歲了,一定要停止存款,原因讓人意想不到

      王二哥老搞笑
      2026-02-12 11:18:57
      是時(shí)候說出真相!對(duì)越反擊損失多大?光看犧牲名將之后,觸目驚心

      是時(shí)候說出真相!對(duì)越反擊損失多大?光看犧牲名將之后,觸目驚心

      今夜繁星墜落
      2026-02-10 03:20:25
      看蔣萬安給兒子們起的名字,就知道他骨子里的中國人身份,藏不住

      看蔣萬安給兒子們起的名字,就知道他骨子里的中國人身份,藏不住

      來科點(diǎn)譜
      2026-02-12 07:19:46
      曾經(jīng)的三兄弟,后來兵戎相見,三大巨頭只活下TCL,歷史令人唏噓

      曾經(jīng)的三兄弟,后來兵戎相見,三大巨頭只活下TCL,歷史令人唏噓

      牛牛叨史
      2026-01-29 02:25:01
      海歸光環(huán)已經(jīng)消失?49.5萬留學(xué)生涌回國,殘酷真相:企業(yè)只認(rèn)這個(gè)

      海歸光環(huán)已經(jīng)消失?49.5萬留學(xué)生涌回國,殘酷真相:企業(yè)只認(rèn)這個(gè)

      南宗歷史
      2026-01-24 22:48:56
      女星自曝炒股虧百萬,從800平別墅搬到80平破屋,巔峰期隱婚退圈

      女星自曝炒股虧百萬,從800平別墅搬到80平破屋,巔峰期隱婚退圈

      瘋說時(shí)尚
      2026-02-12 14:17:31
      2026-02-13 16:19:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12162文章數(shù) 176383關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek更新后被吐槽變冷變傻?

      頭條要聞

      雙航母壓境美國"王牌"裝備盡出 伊朗被指可能很難抵御

      頭條要聞

      雙航母壓境美國"王牌"裝備盡出 伊朗被指可能很難抵御

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      米蘭冬奧摘銀 谷愛凌再遭美國網(wǎng)友網(wǎng)暴

      財(cái)經(jīng)要聞

      華萊士母公司退市 瘋狂擴(kuò)張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個(gè)畫風(fēng)!

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      親子
      藝術(shù)
      軍事航空

      數(shù)碼要聞

      GAMEMAX新品機(jī)箱來襲,性價(jià)比爆棚!

      教育要聞

      矩形折疊,直角三角形中建立方程,初中中考幾何壓軸題必考題型

      親子要聞

      萌娃擂鼓,情滿中華——長江新區(qū)倉埠中心幼兒園舞蹈《中華情》

      藝術(shù)要聞

      書法大師的神作現(xiàn)身,引發(fā)網(wǎng)友熱議!

      軍事要聞

      多次成功應(yīng)對(duì)外艦、外機(jī)挑釁 太原艦展示052D硬核實(shí)力

      無障礙瀏覽 進(jìn)入關(guān)懷版