網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

它石智航用“吉尼斯紀(jì)錄”交卷真干活的具身大腦

2026-03-26 10:54:37　來源: 量子位

北京舉報

分享至

Jay 李根發(fā)自凹非寺
量子位 | 公眾號 QbitAI

天使輪拿下2.42億美元后，它石智航到底干啥去了？

2025年年初，這家公司是資本市場毫無疑問的寵兒。天使輪融資額刷新紀(jì)錄，明星創(chuàng)始團(tuán)隊，讓它石自創(chuàng)立之初，便一躍成為具身智能賽道炙手可熱的名字。

然而接下來的一年里，它石智航選擇了一條截然不同的路：沒有參加各種行業(yè)大會，沒有頻繁對外發(fā)聲，沒有出現(xiàn)在春晚或各類展示活動中，一直踏實干活。

一年后，這家以技術(shù)工程和產(chǎn)業(yè)落地集結(jié)的明星團(tuán)隊，交出了答卷——

利刃出鞘，一鳴驚人。

它石A1機(jī)器人，1小時內(nèi)完成亞毫米級柔性線束完整裝配任務(wù)百余次，創(chuàng)下全新吉尼斯世界紀(jì)錄。

一系列成果讓它石首次在線下亮相，便吸引了央視、新華網(wǎng)等頭部官媒的組團(tuán)報道。

線束裝配，是地獄級的工業(yè)場景。

長程操作、柔性操作、亞毫米精度，不可能三角全部集齊，被喻為工業(yè)自動化界的「哥德巴赫猜想」。

時隔一年，高調(diào)亮相的它石，直接打爆了這個場景，如期兌現(xiàn)了對投資人的承諾。

而同樣是時隔一年，量子位也再次來到了上海——

從它石智航聯(lián)合創(chuàng)始人、首席科學(xué)家丁文超這里，獲得了關(guān)于這家公司更多的技術(shù)進(jìn)展和背后的具身洞察。

真干活的具身大腦

當(dāng)圈內(nèi)還在爭論機(jī)器人何時能真正干活時，它石智航已用硬核技術(shù)，交出了答卷。

專攻干活，而且要干就干最難的。這是它石從創(chuàng)立之初就確立的技術(shù)路線。

它石為A1機(jī)器人選擇的挑戰(zhàn)，叫作亞毫米級線束裝配任務(wù)。

這是具身智能最兇險的試金石。

首先是精度。

線束的孔位極小，容錯空間幾乎為零。

機(jī)器稍有偏差，插不進(jìn)去；力道稍大也不行，會損壞插接孔位。

其次，線是軟的。

這和玻璃杯不一樣，你一碰，線會變形。

因此，模型每走一步，面對的都是一個和上一秒截然不同的物理世界，傳統(tǒng)預(yù)先設(shè)計好軌跡的模式，在這里完全失靈。

而就是這樣難度的任務(wù)，還不是插接一根就能完事。

線束少則十幾根，多則幾十根，每一根的插接狀態(tài)都會影響下一根的空間和角度。

丁文超把這類任務(wù)概括為具身智能的不可能三角。傳統(tǒng)工業(yè)自動化精度高但柔性弱，具身方案能做長程任務(wù)但精度差。

想要三者同時兼顧，難如登天。

而如今，它石不僅經(jīng)受住了這一考驗，還將其徹底打穿，裝配效率創(chuàng)下吉尼斯世界紀(jì)錄。

甚至還保留了極高的「活人味」。

在他們發(fā)布的一次線束裝配「圖靈測試」中，超過50%的投票者都分不清到底哪個才是機(jī)器人，誤把選項A認(rèn)作真人。

既能干活，又保證了動作的絲滑程度，這就是它石潛心鉆研一年所打造的具身大腦——

AWE 3.0。

這個名字，有兩處值得細(xì)細(xì)琢磨。

第一，AWE，全稱AI World Engine，AI世界引擎。

不是VLA，也不是3D資產(chǎn)生成模型，而是一個真正意義上，能夠作為具身大腦的世界模型。

依托超十萬小時Human Centric數(shù)據(jù)訓(xùn)練。

第二，3.0，對標(biāo)GPT-3。

采訪中，丁文超拿GPT的發(fā)展脈絡(luò)來做參照。

GPT-3做了兩件事：把聊天場景打磨到極致，同時指明了這條Scaling曲線的走向。GPT-3出現(xiàn)之后，已經(jīng)沒人再懷疑LLM這條路。只不過GPT-3.5把它徹底引爆了。

AWE 3.0想做的，是同一個邏輯。

用線束裝配對標(biāo)聊天場景，把它打爆，同時驗證模型在其他干活任務(wù)中的泛化能力。

丁文超坦言，做之前就清楚這是塊硬骨頭，但真正上手才發(fā)現(xiàn)，還是低估了難度。用傳統(tǒng)方法，幾乎不可能完成。

但也正是這座珠穆朗瑪峰般的里程碑，催生出突破，最終匯聚成AWE 3.0。

這個世界模型最核心的特點(diǎn)，叫隱空間。

關(guān)鍵在于「隱」這個字。這是一個經(jīng)過壓縮和抽象的中間世界，肉眼無法直接看到，對于具身智能來說卻是更本質(zhì)的學(xué)習(xí)環(huán)境。

面對柔性操作中層出不窮的突發(fā)狀況，模型不再簡單模仿動作軌跡，而是在隱空間里持續(xù)推演未來的多種可能，再據(jù)此做出決策。

這和GPT-o1有幾分相似：在正式輸出答案之前，先在思維鏈里推理一遍。

丁文超把這個過程叫作「未動先想」。

這當(dāng)然能提高整個系統(tǒng)的魯棒性，但出乎意料的是，在隱空間里思考的過程中，模型竟然涌現(xiàn)出一項全新的技能：自我糾錯（Failure Recovery）。

當(dāng)插接力度或角度出現(xiàn)異常，機(jī)器人會把線拔出來，換個角度再試一次。

對于真實工業(yè)場景而言，這是一個象征著成熟度的關(guān)鍵信號：機(jī)器人會反思了。

不再需要人手把手教，即便遇到超出訓(xùn)練范圍的場景，機(jī)器人也能自己在嘗試中找到解法。

而這一切的實現(xiàn)，沒有用到一秒鐘的遙操數(shù)據(jù)。

全部是基于真人在真實場景中的實際操作，人類和機(jī)器人共享同一套感知體系。

長期以來，關(guān)于具身訓(xùn)練數(shù)據(jù)，行業(yè)有個共識：遙操數(shù)據(jù)精度最高。

丁文超卻說，在亞毫米級精度的任務(wù)上，這個結(jié)論完全站不住腳。

遙操作根本干不了亞毫米級的事，操作過程中會猶豫、抖動，反而變成了訓(xùn)練數(shù)據(jù)中的「噪聲」。

的確，線束這個場景，要求太恐怖了。孔位極窄，對絲滑度的要求非常高。

但人能完成這個任務(wù)。

雖然不能百分百零偏差，但人的糾錯能力極強(qiáng)，可以在操作中感受阻力，并據(jù)此迅速調(diào)整角度和力度。

從第一性原理出發(fā)，丁文超指出，想要習(xí)得這種局部微調(diào)的能力，唯一方式，就是從真人身上采集數(shù)據(jù)。

這也是他在去年采訪中反復(fù)強(qiáng)調(diào)的Human Centric。

一年過去，這一理念沒有發(fā)生變化，并且已經(jīng)成功落地。

這就是它石今年的第二項成果，SenseHub數(shù)采套件。

這是一套以人為中心的一體化數(shù)采套件。

非常輕便，一雙手套，一個能夠固定在胸部或頭部的第一視角攝像頭，完全無需像遙操那樣進(jìn)行專業(yè)培訓(xùn)，哪怕是清潔工、超市員工，佩戴上就能成為采集員，也不會影響工作。勞動者在日常工作過程中，順手就能把數(shù)據(jù)采了，完全是“被動式”采集。

與此同時，它石發(fā)起具身數(shù)據(jù)星火計劃，邀請生態(tài)伙伴加入，基于Human Centric推進(jìn)具身數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)、共建Human Centric數(shù)據(jù)集，構(gòu)建產(chǎn)業(yè)級數(shù)據(jù)共享生態(tài)。該計劃初期將匯聚超過1000萬小時的標(biāo)準(zhǔn)化優(yōu)質(zhì)數(shù)據(jù)，目標(biāo)推動實現(xiàn)1億小時級別的數(shù)據(jù)共享。

2026年，Human Centric正在從它石率先驗證的技術(shù)路線，快速演變?yōu)檎麄€行業(yè)的共識。

具身智能的數(shù)據(jù)Scaling，這才剛剛拉開帷幕。

采訪結(jié)束，已是夜里十一點(diǎn)，其中一間小會議室里，董事長李震宇和CEO陳亦倫也在熱烈討論。

寒暄中，李震宇說這是創(chuàng)業(yè)后的常態(tài)。陳亦倫則幽默補(bǔ)充：一般這個點(diǎn)才剛開始，具身智能的征程，往往越聊越興奮。

剛剛亮相的技術(shù)和成果，無疑是它石智航「日新月異」的新起點(diǎn)。而負(fù)責(zé)技術(shù)研發(fā)推進(jìn)的丁文超，給出了更多細(xì)節(jié)和實踐認(rèn)知。

對話原文

量子位：A1刷新線束裝配吉尼斯世界紀(jì)錄令人印象深刻，研發(fā)過程中有什么挑戰(zhàn)？哪些環(huán)節(jié)比預(yù)想的要難？

丁文超：硬件遠(yuǎn)比我們想象的要重要。

你可以把它理解成兩頭往中間靠的過程：

一方面，通過合理的數(shù)據(jù)組織、網(wǎng)絡(luò)訓(xùn)練、網(wǎng)絡(luò)架構(gòu)和任務(wù)設(shè)計，讓模型能人機(jī)通吃；

另一方面，機(jī)器人自身也得往人的方向去靠，自由度、靈活度，還有響應(yīng)的及時性。

最開始我們采購了很多市售關(guān)節(jié)回來測，結(jié)果發(fā)現(xiàn)，要么響應(yīng)延時有問題，要么扭矩脈動太大。這些都會導(dǎo)致機(jī)器人沒辦法像人一樣靈活。

于是我們做了一個決定：從5月份開始，全棧硬件自研。

核心是兩塊。

第一是關(guān)節(jié)完全自己做，非常低的減速比、高精度、GAP極小的行星關(guān)節(jié)，這在市面上非常少見。

第二是靈巧手。很多手套數(shù)據(jù)用夾爪去映射，信息損失太大。所以我們在去年開始研發(fā)21自由度靈巧手，和人手完全匹配。

原本我們覺得，具身領(lǐng)域做硬件的公司那么多，產(chǎn)業(yè)鏈應(yīng)該是成熟的。結(jié)果發(fā)現(xiàn)這個行業(yè)跟汽車工業(yè)相比，差距太大了。

品控、標(biāo)準(zhǔn)化、流程化，很多地方還處在草臺班子的狀態(tài)。

量子位：有沒有什么是以前覺得很難，但實際下來，相對比自己預(yù)期、認(rèn)知要容易一些的？

丁文超：我覺得有三方面。

第一個，剛才講過了，跨本體映射其實沒想象中那么難。

這對業(yè)界是個反常識。直到今天，很多人還覺得人到機(jī)器人的跨本體映射是個大問題，但我們解決得還不錯。

第二，端到端網(wǎng)絡(luò)到底能做到什么精度？之前我們心里的答案是毫米級，但最近有了新突破，我們能做到亞毫米級。

這也是個反常識。大家一直覺得端到端網(wǎng)絡(luò)特別依賴數(shù)據(jù)驅(qū)動，精度上是不是不如傳統(tǒng)方法？事實證明不是。

還有第三點(diǎn)，以人為中心的生態(tài)擴(kuò)展，比我預(yù)想的快得多。

現(xiàn)在各家在追這種采集方式，投入都特別大。很多人在深入研究我們的數(shù)據(jù)采集套件。

本以為大家轉(zhuǎn)彎還需要時間。沒想到2026年，已經(jīng)快成為以人為中心的數(shù)據(jù)采集元年了。

量子位：亞毫米級這個目標(biāo)，是你們在實踐中發(fā)現(xiàn)可以做到，還是場景本身倒逼出來的？

丁文超：兩者都有，但倒逼的成分很大。

線束插接場景本身就需要達(dá)到亞毫米級精度，逼著我們?nèi)ハ朐趺醋尵W(wǎng)絡(luò)動作更連續(xù)、更絲滑，怎么實現(xiàn)failure recovery，插錯了也能局部微調(diào)重試。

這些能力，如果我們一開始選的是疊毛巾，可能永遠(yuǎn)不會被逼出來。

量子位：那現(xiàn)在已經(jīng)實現(xiàn)了亞毫米級操作，如果讓模型去疊毛巾，需要重新學(xué)習(xí)嗎？

丁文超：真正的泛化，不只是模型本身的泛化，數(shù)據(jù)和模型的覆蓋范圍也要泛化。

對外聚焦線束，是因為我們想先把這個場景徹底打穿。但其實從第一天起，我們就同步在工廠、物流、倉儲、洗衣房、酒店等多個場景采集數(shù)據(jù)，全部用于訓(xùn)練。

那時很多投資人還有所保留，覺得把一個場景做深、完成商業(yè)化就夠了。但我們的判斷是：方法論層面的過擬合才是最致命的，模型的過擬合反而相對容易消解。

現(xiàn)在我們內(nèi)部已經(jīng)有N個可落地場景在并發(fā)推進(jìn)，節(jié)奏比我自己預(yù)期的還要快。

量子位：具身智能的GPT時刻，怎么定義？

丁文超：去年聊這個詞的時候，大家還定義不清楚。現(xiàn)在我可以給一個更具體的描述：準(zhǔn)Zero-shot時代。

不是說推到一個新場景完全零基礎(chǔ)就能上，而是你已有的核心skills，在新場景里基本都能遷移、都能用。

對標(biāo)語言模型，大概相當(dāng)于GPT-3的水平；如果某些任務(wù)徹底打穿，可能就到GPT-3.5了。

這個時間點(diǎn)比大家預(yù)想的早，說實話，也比我自己的預(yù)期快。我們規(guī)劃的模型節(jié)奏是2.0、3.0、3.5、4.0，但我現(xiàn)在判斷3.5到4.0這段還會進(jìn)一步加速。

兩個趨勢已經(jīng)肉眼可見：一是泛化數(shù)據(jù)的持續(xù)積累，二是有限數(shù)據(jù)下模型能力的快速提升。

一旦準(zhǔn)Zero-shot成立，機(jī)器人就不只能進(jìn)工廠、做一個工序，而是可能同時覆蓋多個工序。C端機(jī)會也會更早涌現(xiàn)。

量子位：AWE2.0意味著什么？

丁文超：1.0是內(nèi)部版本。2.0我們有點(diǎn)參考GPT-2的意味。

GPT-2代表早期Scaling Law成立，并且在一些任務(wù)上已經(jīng)能蓋過Bert這類小模型。對我們來說，2.0意味著我們真正完成了跨本體部署，從Human Centric數(shù)據(jù)到模型訓(xùn)練，再到機(jī)器人上的部署，這條鏈路跑通了。

3.0則不僅能夠看到線束場景打穿，還看到了其他若干場景的涌現(xiàn)；3.5是我們在其中幾個場景徹底打爆。

4.0就是去年跟大家講的世界引擎。為什么要同時預(yù)測環(huán)境和動作？最終是為了服務(wù)強(qiáng)化學(xué)習(xí)。模型充當(dāng)自己的仿真器，自己預(yù)測環(huán)境、預(yù)測動作，做長程思考、高并發(fā)多場景并發(fā)推演。

量子位：AWE 3.0類比GPT系列的話，3.0相當(dāng)于什么階段？

丁文超：GPT-3出來之后，已經(jīng)沒有人懷疑這條路能不能走通，只是3.5才把它徹底引爆到終端用戶。

我們現(xiàn)在也處于類似的位置。AWE 3.0出來，加上接下來會發(fā)布的泛化任務(wù)，大家應(yīng)該不再懷疑具身還會有Scaling的瓶頸，不再懷疑泛化能不能實現(xiàn)。

GPT-3最大的貢獻(xiàn)，就是把這條Scaling曲線的方向指明了。春江水暖鴨先知，真正關(guān)注GPT-3的人，那時候就已經(jīng)開始投身大模型創(chuàng)業(yè)。

具身現(xiàn)在也到了這個時刻。

量子位：3.0出來之后，有沒有做同行評測或benchmark跑分？

丁文超：具身的benchmark現(xiàn)在說實話比較混亂，非常像早期的自動駕駛。

各家都說自己最牛，學(xué)術(shù)榜單持續(xù)存在，八仙過海各顯神通，每家都曾經(jīng)拿過某個榜單的第一。但后來大家發(fā)現(xiàn)，榜單的第一第二根本沒意義。

具身現(xiàn)在正處于從第一階段邁向第二階段的節(jié)點(diǎn)。第一階段就是現(xiàn)在，大家在吹各種benchmark，但你仔細(xì)深挖評測指標(biāo)和評測環(huán)境，會發(fā)現(xiàn)偏差非常嚴(yán)重。

我們內(nèi)部有自己的benchmark體系，用in-house數(shù)據(jù)集和公開數(shù)據(jù)集，跟業(yè)界各個SOTA模型對比，包括閉環(huán)實驗。

從我們內(nèi)部的橫向比較看，現(xiàn)在能公開接觸的模型，距離真正能干活的通用模型還有非常遠(yuǎn)的距離。

隨著具身從垂直場景走向多場景、走向更C端，橫評時代很快就會來臨。

量子位：具身智能的Scaling Law，好像跟當(dāng)年GPT引發(fā)的風(fēng)潮不太一樣。GPT時代越做越大，但具身領(lǐng)域卻出現(xiàn)了做得更小更精的方向，你怎么看？

丁文超：Scaling Law要拆成三個階段：數(shù)據(jù)Scaling、參數(shù)Scaling，以及推理Scaling。

對具身來說，數(shù)據(jù)Scaling Law的紅利遠(yuǎn)遠(yuǎn)還沒吃完。

現(xiàn)在大家覺得具身模型的方差比較大，小模型有時候反而好，大模型反而差，根本原因是第一波紅利沒吃完。

數(shù)據(jù)Scaling沒做扎實的時候，模型Scaling就處于一種不穩(wěn)固的狀態(tài)，很容易掉進(jìn)局部最優(yōu)，導(dǎo)致各種noise和方差。

但只要把數(shù)據(jù)Scaling做得足夠扎實，大模型能力強(qiáng)于小模型，這是毫無疑問的。

如果2026、2027年大家解決了數(shù)據(jù)Scaling Law的問題，大家一定會想方設(shè)法擴(kuò)張模型。

量子位：那如今數(shù)據(jù)Scaling Law的瓶頸在哪？

丁文超：最大的問題是量級。

遙操作有一個致命問題：它不會激勵你去解決跨本體的問題。硬件一升級，之前的遙操作數(shù)據(jù)不能復(fù)用。所以想靠遙操達(dá)到千萬小時級別，根本不可能。

真正的鑰匙，是Human Centric。

我們內(nèi)部的數(shù)據(jù)量確實漲得很快，我們也發(fā)起了星火聯(lián)盟數(shù)據(jù)生態(tài)計劃，讓更多人參與進(jìn)來一起迭代。

現(xiàn)在我們在沖刺的目標(biāo)就是千萬小時級別，我們想要的收益，就是把模型推到一個新任務(wù)、新地方，能以準(zhǔn)專業(yè)的狀態(tài)把任務(wù)基本完成。

量子位：所以數(shù)據(jù)Scaling Law沒有兌現(xiàn)，也就證明了仿真合成數(shù)據(jù)、遙操作數(shù)據(jù)這條路走不通？

丁文超：是的，我非常有信心表達(dá)這個觀點(diǎn)。

今天我可以直接告訴大家：真實場景里無處不在的Human Centric數(shù)據(jù)，一定會帶來第一波巨大的數(shù)據(jù)紅利。

全球首個能干活的具身超級大腦AWE3.0誕生

量子位：AWE 3.0這個模型，參數(shù)量和主要特點(diǎn)是什么？

丁文超：第一，模型size和數(shù)據(jù)量之間有一個對應(yīng)關(guān)系。30B能吸收接近百萬小時，100B以上才能吸收千萬小時級別。

數(shù)據(jù)節(jié)奏、模型節(jié)奏，兩者必須齊頭并進(jìn)。

第二，這個模型應(yīng)該是目前市面上推理速度最快的同規(guī)模模型，通過隱空間內(nèi)異步動作輸出的方式，輸出效率可以做到十倍以上。

這一點(diǎn)非常反常識。大家以前覺得要實現(xiàn)絲滑運(yùn)行，必須靠大小腦雙系統(tǒng)，大腦低頻推理，小腦高頻執(zhí)行，兩者割裂配合。

但我們是一個模型，橋梁是隱空間里的隱變量。

量子位：隱空間內(nèi)的動作輸出，是一開始就設(shè)計好的，還是實踐中摸索出來的？

丁文超：完全是實踐中的認(rèn)知。

最初我們只是想到模型要同時預(yù)測環(huán)境和動作，但線束任務(wù)對絲滑度的要求極高，倒逼我們?nèi)ハ耄?strong>模型這么大，怎么還能做到這么流暢？

從第一性原理看，雙系統(tǒng)大小腦本質(zhì)上還是兩個不相干的東西湊在一起。我們還是想在統(tǒng)一的模型架構(gòu)里解決這個問題，最終就催生了在隱空間這條路。

量子位：去年聊的時候還沒那么篤定要all-in-one，現(xiàn)在已經(jīng)是確定的方向了？

丁文超：把所有東西集成在一個模型里，肯定是大趨勢。大小腦的融合也是必然方向。

我甚至覺得，具身領(lǐng)域?qū)頃楷F(xiàn)出自己的原生基礎(chǔ)模型。

你看現(xiàn)在業(yè)界所有模型，本質(zhì)上都是外來戶。VLA是把VLM搬過來加一個action頭；world action model、video action model是把視頻預(yù)測模型搬過來，再拼一個動作輸出。

這些“外來和尚”在具身領(lǐng)域遇到的問題都很類似。

VLA的問題是泛化，到一個新場景，action需要大量新場景數(shù)據(jù)才能變好。

video action model大家現(xiàn)在討論得還不多，但我可以預(yù)告一下：第一，視頻預(yù)測的幻覺會影響動作質(zhì)量；第二，視頻預(yù)測很難維護(hù)精細(xì)的空間結(jié)構(gòu)，導(dǎo)致模型最終還是在記動作。

原生模型可以完全避開這兩個問題。我們所有數(shù)據(jù)天然就是視覺、語言、動作三種模態(tài)對齊的，訓(xùn)練時可以在任意模態(tài)之間互相轉(zhuǎn)換。

vision to vision是視頻預(yù)測，vision+language to action是端到端，vision+language to vision+action就是世界模型。

現(xiàn)有的所有范式，在這套框架下得到了大一統(tǒng)，也沒有VLM強(qiáng)行加action head帶來的那種割裂感。

量子位：你說VLM、video action model會遇到這些問題，是思想實驗，還是你們真的踩過坑？

丁文超：兩者結(jié)合。

第一，我從第一性原理判斷它必然會有這些問題。

第二，我們有一個不小的research team，會持續(xù)跟蹤業(yè)界所有SOTA方法，包括VLA、視頻動作模型、世界動作模型，全部納入我們自己的benchmark。

我們每發(fā)一版模型，都會在N個任務(wù)上跟現(xiàn)有SOTA做比較。

另外我想補(bǔ)充一點(diǎn)：談原生模型，前提是你有沒有足夠的數(shù)據(jù)。原生模型玩的就是數(shù)據(jù)，追求的是三種模態(tài)完美對齊。

量子位：當(dāng)前的模型規(guī)模，是數(shù)據(jù)量決定了它，還是先定了規(guī)模再去配數(shù)據(jù)？

丁文超：是在實操中摸出來的。我們的數(shù)據(jù)量和模型規(guī)模都是一點(diǎn)點(diǎn)往上漲，慢慢發(fā)現(xiàn)數(shù)據(jù)漲到一定規(guī)模，模型size就需要提升到下一個level才能繼續(xù)吸收。

這個對應(yīng)關(guān)系，是從自動駕駛時代積累的經(jīng)驗，加上具身這邊數(shù)據(jù)量快速增長的實踐，綜合感受出來的。

量子位：你們內(nèi)部評價模型好壞的標(biāo)準(zhǔn)是什么？

丁文超：三個維度。

第一是成功率，這是一切的基準(zhǔn)。

第二是完成效率，因為我們第一個場景是要真正落地工廠的。

第三是類人性，賞心悅目也是指標(biāo)。

有意思的是，我們在線束插接這個子任務(wù)上，效率已經(jīng)超過人了。

這里面有個trick：人沒法左手畫圓右手畫方，但機(jī)器人可以，通過對數(shù)據(jù)合理的組織，我們讓機(jī)器人做到了雙手并行，這樣自然就比人快。

量子位：類人性這個維度很有意思，你加這個指標(biāo)是為了讓動作更絲滑，還是有更深的考量？

丁文超：第一性原理上，你追求絲滑，追求看起來像人，最終都是為了讓機(jī)器人真正進(jìn)入人類社會。

去年你也問過我機(jī)器人最終的形態(tài)會是什么，我當(dāng)時說擬人形是大趨勢。

哪怕在垂直場景有特制形態(tài)，完成動作的方式也應(yīng)該貼近人，這種親和性是人類社會的一種剛需。

你看現(xiàn)在大家為什么喜歡看機(jī)器人跳舞？因為它給人的感覺像自己。

展會上我們的雙足機(jī)器人只要出來，現(xiàn)場就圍得人山人海。

哪怕是從貨架上抓一個水瓶，這個動作可以很機(jī)械，也可以很絲滑，給人的感官完全不同，人想要使用它、信賴它的欲望也完全不同。

所以類人性這個指標(biāo)，一方面是在評價模型能力，另一方面，對于人和機(jī)器人將來真正共生，也是非常關(guān)鍵的一點(diǎn)。

量子位：訓(xùn)練成本對一家創(chuàng)業(yè)公司來說，壓力大嗎？

丁文超：好鋼用在刀刃上。我們沒有一口氣鋪幾千張卡漫無目的地訓(xùn)，而是隨著數(shù)據(jù)量上升，看到模型吃不住了再加參數(shù)，每一個實驗都仔細(xì)評估價值。

我們的目標(biāo)是打經(jīng)濟(jì)仗，在有限投入下拿最大ROI。

具身的生命周期可能比自動駕駛還要長，上面可能有若干次決戰(zhàn)，所以彈藥和糧草必須存夠，每一次決戰(zhàn)都要有主動出擊的能力。

支撐具身智能的基石，超級數(shù)據(jù)范式Human Centric

量子位：數(shù)據(jù)質(zhì)量的把控，你們是怎么做的？

丁文超：這件事比很多人想象的要難得多。

Human Centric意味著采集主體是人，不像設(shè)備那么可控。我們早期就遇到過，現(xiàn)場工作人員被動式采集，結(jié)果在現(xiàn)場玩了15分鐘手機(jī)。

后來，我們在采前、采中做了工作。

采前是約法三章，現(xiàn)場培訓(xùn)，明確哪些行為不允許。

采中是在APP上做監(jiān)測，檢測到異常狀態(tài)就報警。

這樣基本上能把八九成的問題篩掉，后端數(shù)據(jù)產(chǎn)線的利用率會非常高。

量子位：AWE 3.0的訓(xùn)練數(shù)據(jù)，全部是Human Centric采集的嗎？還是有一些配比？

丁文超：這里有個反常識的結(jié)論。

大家一直認(rèn)為遙操作數(shù)據(jù)精度最高，Human Centric數(shù)據(jù)精度上是短板。但在亞毫米級任務(wù)上，結(jié)論完全相反。

遙操作根本干不了亞毫米級的事，操作過程中會猶豫、抖動，反而變成了噪聲。我們亞毫米級的模型，完全是用Human Centric數(shù)據(jù)訓(xùn)練的。

隨著我們把更多場景擴(kuò)展開，靠Human Centric數(shù)據(jù)支撐整個模型訓(xùn)練到部署，完全可以做到。

量子位：所以后續(xù)模型迭代，核心就是數(shù)據(jù)量級的持續(xù)擴(kuò)展？

丁文超：對，以前大家總想著數(shù)據(jù)有一座金字塔，高質(zhì)量數(shù)據(jù)、中等數(shù)據(jù)、大規(guī)模數(shù)據(jù)各種配比，搞得很復(fù)雜。

但我覺得未來可能根本沒有什么數(shù)據(jù)金字塔。你把一種數(shù)據(jù)打磨到極致，把所有細(xì)節(jié)做好，質(zhì)量可能比配比來的數(shù)據(jù)要高。

量子位：那為什么此前行業(yè)里會形成數(shù)據(jù)金字塔這樣的共識？

丁文超：任何一個細(xì)節(jié)沒做好，都會給你帶來錯誤的結(jié)論。

Human Centric數(shù)據(jù)要做到亞毫米級精度，門檻極高。

佩戴在人身上，要把動作完整恢復(fù)出來，傳感器同步、標(biāo)定、云端自動化標(biāo)注算法，每一個環(huán)節(jié)都不能出問題。

現(xiàn)在業(yè)界大多都還沒搞清楚怎么把Human Centric數(shù)據(jù)做到很高精度，更不用談后面部署到機(jī)器人上完成閉環(huán)任務(wù)。

量子位：遙操作數(shù)據(jù)的成本應(yīng)該比Human Centric低吧？

丁文超：恰恰相反，遙操作數(shù)據(jù)的成本遠(yuǎn)高于Human Centric。

你算一下遙操作的成本：得買一臺機(jī)器人，得有數(shù)采中心或者把機(jī)器人推到現(xiàn)場，還得有專業(yè)遙操員。

遙操員這個行業(yè)現(xiàn)在慢慢興起，但流失率很高，工作枯燥，培訓(xùn)一個新遙操員又要一兩個月。

Human Centric完全不同。

采集者可以是清潔阿姨、超市工作人員。他們戴上數(shù)采手套就能在日常工作中順帶完成數(shù)據(jù)采集。

量子位：你們選擇了開放這個生態(tài)，如果有更大體量的玩家來懟數(shù)據(jù)，會削弱你們的護(hù)城河嗎？

丁文超：正確的方法論，別人終究會擠進(jìn)來。與其守住硬件設(shè)備，不如把門檻真正建立在AI上。

就像大模型訓(xùn)練一樣，大家都知道怎么訓(xùn)，但最終訓(xùn)出來的模型差異還是會體現(xiàn)出來，這就是不傳之秘。

量子位：線束這個模型，大概學(xué)習(xí)了多久？

丁文超：與其說訓(xùn)練了多久，不如說是隨著數(shù)據(jù)量級持續(xù)提升的一個過程。

大概時間線是這樣：AWE 2.0從去年年中開始，那時候Human Centric的采集、訓(xùn)練、部署已經(jīng)走通了。

從AWE 2.0到AWE 3.0明顯加快了，數(shù)據(jù)運(yùn)轉(zhuǎn)更順，模型上也有很多新感覺涌現(xiàn)出來，年后沒多久就在3月發(fā)布了AWE 3.0。

這也是為什么我判斷后面節(jié)奏會進(jìn)一步加速，隨著數(shù)據(jù)量越來越大、模型越來越成熟，智能涌現(xiàn)的時間也會縮短。

量子位：Sergey那篇關(guān)于叉勺（Spork）的博客你看了是什么感受？

丁文超：有些觀點(diǎn)我同意。

仿真數(shù)據(jù)沒用。Sergey自己也采了幾千小時數(shù)據(jù)，是真正走過這個過程的人，他知道機(jī)器人部署到真實世界需要多少數(shù)據(jù)、怎么才能泛化。

他說仿真是叉勺，勺子能喝湯、叉子能插牛排，但集成為叉勺，又什么都干不好，這個比喻我覺得很恰當(dāng)。

分歧在于：有了真實數(shù)據(jù)之后，怎么高效利用？

他的路徑是遙操作獲取基礎(chǔ)數(shù)據(jù)，加上大規(guī)模真機(jī)強(qiáng)化學(xué)習(xí)，我對這條路是有疑問的。

所以答案就是，大的方向上有共鳴：真實世界的數(shù)據(jù)才是走向泛化的金鑰匙。

但怎么把數(shù)據(jù)閉環(huán)魯棒性提升、真正走向規(guī)模化商業(yè)落地，路徑是不同的。

量子位：這種路徑差異，會不會有中國與硅谷環(huán)境不同的原因？中國有更豐富的人力資源，所以可以做Human Centric采集。

丁文超：有這個因素，但不是全部原因。

早期Generalist這類公司還在宣傳幾十萬小時數(shù)據(jù)，現(xiàn)在有些硅谷公司開始說我只需要10小時、20小時數(shù)據(jù)就夠了。26、27年這個分歧會越來越明顯。

但讓我比較驚訝的是Generalist，作為在硅谷的公司同樣堅定走Human Centric路線，而且scale在10萬小時級別以上。所以環(huán)境不是決定性因素，更深層的原因可能是慣性。

量子位：達(dá)到什么樣的數(shù)據(jù)量級，才能支撐到你們說的4.0水平？

丁文超：具身比自駕復(fù)雜得多，本體自由度更高，是復(fù)雜3D環(huán)境，還有大量密集的contact操作，場景豐富度也更高。根據(jù)我們現(xiàn)在的實踐經(jīng)驗，具身所需的數(shù)據(jù)量至少是自動駕駛數(shù)據(jù)量級的10倍。

具身可能有三個坎：

10萬小時是模型能力不錯；100萬小時是準(zhǔn)產(chǎn)品級，可以deliver給各種用戶；1000萬小時之后，數(shù)據(jù)Scaling law的討論會變少，大家開始討論模型架構(gòu)，前沿公司開始做強(qiáng)化學(xué)習(xí)。

量子位：具身的數(shù)據(jù)采集比自動駕駛復(fù)雜得多，你們怎么保證采集質(zhì)量和覆蓋度？

丁文超：我們有一套自動化調(diào)度系統(tǒng)，每天匯總返回來的數(shù)據(jù)，check場景覆蓋了哪些、任務(wù)做了哪些、動作pattern的分布，然后第二天針對性補(bǔ)缺，再去采。

這套系統(tǒng)保證我們不會偏科，不會在一個場景過度采集，那樣重復(fù)度太高，變成同質(zhì)化數(shù)據(jù)，不是有效的scale。

量子位：采集過程中有沒有讓你意外的地方？

丁文超：人的行為實在太豐富了。越采集，越對人的行為產(chǎn)生敬畏。

遙操作相當(dāng)于帶著義肢去操作，很多人的本能行為在那個狀態(tài)下都會變形。但如果直接從人身上采，你會發(fā)現(xiàn)人很多日常動作里藏著大量自己都沒意識到的操作智慧。

最讓我印象深的是failure recovery。人的精度并不是絕對的，移了1厘米還是1.5厘米其實自己不一定知道。但人的局部微調(diào)能力極強(qiáng)，出了問題能自然地調(diào)整修正。

這也是為什么我們一定要把人的行為原原本本全量記錄，所以我們做了五指采集手套；執(zhí)行器也必須能原原本本還原人的行為，所以要做21自由度靈巧手。

超級本體，為AI而生

量子位：手套和靈巧手之間是什么關(guān)系？

丁文超：完全鏡像。手套捕捉人手的完整自由度，有兩個核心優(yōu)勢：一是能采集末端觸覺，二是無懼遮擋。

用VR眼鏡采集，手一擋就丟失數(shù)據(jù)。手套不存在這個問題。

靈巧手這邊，人手大概20到21個自由度，做到這個數(shù)字基本就能描繪人手所有運(yùn)動，這就是為什么大家都在追求20自由度以上。

我舉個例子。我們展示的刺繡任務(wù)里有個頂針動作，夾爪很難做。縫紉工人為什么戴扳指？就是為了捏住針之后用指頭把它頂過去。

夾爪只能夾，沒法頂，所以用夾爪做刺繡就要繞很多彎路。這就是手的價值。

量子位：靈巧手研發(fā)難度怎么樣？

丁文超：挺有挑戰(zhàn)的。在這么小的空間內(nèi)實現(xiàn)這么高的自由度，技術(shù)路徑本身就有爭議，準(zhǔn)直驅(qū)還是繩驅(qū)，電機(jī)設(shè)計、減速器設(shè)計……都是一點(diǎn)點(diǎn)摸索出來的。

線束場景倒逼我們把Human Centric逼到亞毫米級，而靈巧手，倒逼我們把電機(jī)和減速器的設(shè)計制造能力逼到極限。

我們應(yīng)該是目前世界上屈指可數(shù)可以做到準(zhǔn)直驅(qū)、高自由度、還能集成到人手尺寸的公司。今年ICRA（機(jī)器人國際頂會）我們會對外展示。

量子位：靈巧手解決之后，會解鎖哪些場景？

丁文超：線束場景里我們現(xiàn)在用夾爪完成的工序大概覆蓋70%的任務(wù)，剩下的比如纏膠、理線，手會方便很多。

如果真的想做通用工業(yè)解決方案，繞不開靈巧手。

量子位：為什么機(jī)器人手都做五根手指，不做六根七根？

丁文超：六根手指，數(shù)據(jù)就對不上了。你從人身上采不到六指數(shù)據(jù)，還得自己造數(shù)據(jù)，邊際效應(yīng)馬上就顯現(xiàn)。

所以機(jī)器人手的自由度大概率是小于等于人手，這樣才能最大化利用Human Centric數(shù)據(jù)。

量子位：手的終極目標(biāo)是什么？

丁文超：人手能做的任何動作，靈巧手都能做出來。全身人形其實現(xiàn)在已經(jīng)基本可以做到動作模仿，手也在朝這個目標(biāo)走。剩下的問題就是手腦協(xié)同。

量子位：你們有A和T兩個系列，各自的優(yōu)勢是什么？

丁文超：T是雙足，A是輪式雙臂。

本體層面，各家整機(jī)設(shè)計現(xiàn)在其實收斂了，差異沒那么大。我們比較有特色的是關(guān)節(jié)。

以前大家設(shè)計關(guān)節(jié)，電機(jī)扭矩、減速比都是越大越好。但我們發(fā)現(xiàn)本質(zhì)上是一個distribution match（分布匹配）的過程：你要讓機(jī)器人執(zhí)行動作的空間和流暢度，盡可能貼近人的數(shù)據(jù)分布。

把這個目標(biāo)拆解，整機(jī)構(gòu)型大家都差不多是擬人型，真正關(guān)鍵的就是關(guān)節(jié)，包括末端靈巧手關(guān)節(jié)到核心關(guān)節(jié)。

機(jī)器人本體你可以理解成以關(guān)節(jié)為核心的一堆連接件，關(guān)節(jié)才是一切。

遙操作會天然把你降速，你感受不到機(jī)器人還需要變得更好。

但一旦你采集的是人的數(shù)據(jù)，你就會永遠(yuǎn)想讓機(jī)器人去匹配人的動作分布，這個驅(qū)動力就會持續(xù)逼著你把關(guān)節(jié)做得更好。

量子位：本體為AI而生，怎么理解？

丁文超：傳統(tǒng)的本體設(shè)計是正向的，關(guān)節(jié)要出多大扭矩、減速比定多少，憑感覺來。

為AI而生是反向推導(dǎo)。我們采集了大量人的數(shù)據(jù)，知道人在完成各種任務(wù)時末端需要多大力度、多快速度，這形成了一個distribution A。

我們設(shè)計本體，就是讓機(jī)器人的工作空間、力輸出、運(yùn)動速度形成的distribution B，盡可能去匹配distribution A。這樣AI模型在上面適配，遷移會更順滑。

這本質(zhì)上是個雙向奔赴的過程。一邊是模型通過空間預(yù)訓(xùn)練、全身端到端、各種技巧讓遷移更魯棒；另一邊是硬件朝人靠攏。兩者同時收緊，中間的gap才能消掉。

量子位：當(dāng)初為什么選線束這么難的場景？

丁文超：真正觸動我們的，是親眼在線束工廠看到的那一幕：密密麻麻全是人，空氣里彌漫著汗味，工人非常忙碌。

我們也訪談了工人，他們自己干得很痛苦。插線的錯誤率大約是千分之三，但只要一根線插錯，整條線束就要重做。

工人壓力很大，流失率極高，幾個月就換一批人，管理成本也居高不下。

我們當(dāng)時調(diào)研了很多場景，判斷標(biāo)準(zhǔn)很簡單：有沒有大量的人在干這件事？線束完全符合，這是真需求。

第一步是從需求出發(fā)，第二步才分析這個任務(wù)有沒有門檻，發(fā)現(xiàn)它兼具長程、柔性、高精度，確實很難。但我們對自己這個團(tuán)隊有信心，決定去磕它。

早期有很多人不看好，覺得太精細(xì)了。但畢竟之前沒有人展示過具身能在這么精細(xì)的任務(wù)上持續(xù)穩(wěn)定工作，有這個反應(yīng)也很正常。

量子位：你們有沒有Plan B，一個比線束更容易的場景？

丁文超：選了線束之后，我們沒有給自己想過退路。

我覺得這一代具身智能的價值就在這兒：解決柔性、長程、高精度三者兼具的問題。

任何不滿足這三個特質(zhì)的場景，傳統(tǒng)自動化都能解決，不需要具身智能。你可以沿著這個邏輯去審視市面上各家具身的落地場景。

線束通了，其他場景是能力外溢的問題。成功率、精度、柔性外溢出去，很多裝配場景雖然沒有線束那么極端，但也有毫米級子動作、多工序要求，我們的能力是夠用的。

量子位：批量化落地的核心挑戰(zhàn)是什么？

丁文超：大腦的量產(chǎn)。

以前機(jī)器人公司有量產(chǎn)經(jīng)驗的都集中在小腦，解決本體一致性、產(chǎn)線問題，這些路已經(jīng)探得差不多了。

大腦的量產(chǎn)是新問題，不僅是硬件量產(chǎn)，還包括模型能力的量產(chǎn)。

比如硬件之間稍有差異，模型還得能泛化。還有一個更少人想過的問題：生命周期內(nèi)的泛化。

機(jī)器人在客戶現(xiàn)場用久了會有損耗，響應(yīng)特性會變化，你的模型隨著機(jī)器狀態(tài)的改變，還能不能穩(wěn)定工作？這個維度，現(xiàn)在很多人都還沒考慮過。

量子位：你們做了數(shù)據(jù)、模型、本體、關(guān)節(jié)、靈巧手，每一塊拆開都能做一家獨(dú)角獸，你們怎么定位自己？

丁文超：我們不是一家生態(tài)公司，初衷完全不同。

如果是為了做生態(tài)而做生態(tài)，你每一塊都不會追求極致。但我們是真的想解決問題，還是第一性原理出發(fā)，這才驅(qū)動我們把每件事做到極限。

如果我們把自己定位成生態(tài)公司，我們沒必要把減速比、自由度這些東西推到極致，能賣出去滿足基本需求就行了。但這兩種做法，差異性很大。

量子位：隨著規(guī)模變大，你們怎么平衡敏捷和復(fù)雜度？

丁文超：我對具身行業(yè)有個3+3+3的判斷。前三年是認(rèn)知收斂期，現(xiàn)在到接下來三年是打硬仗期，再往后三年是淘汰賽。

現(xiàn)在這個階段，技術(shù)路徑逐漸收斂，會催生硬件平臺的標(biāo)準(zhǔn)化。我們現(xiàn)在做關(guān)節(jié)、做手，某種程度上是在牽引這個標(biāo)準(zhǔn)的制定。

但這些標(biāo)準(zhǔn)在兩三年內(nèi)會慢慢固化，固化之后各個子部件會有更多能力外溢。

大廠下場也會加速這個過程，他們的標(biāo)準(zhǔn)化經(jīng)驗會推動行業(yè)收斂更快。

當(dāng)前最關(guān)鍵的還是兩件事：第一，在工廠里證明真的能干活；第二，對未來有想象力。

大腦時代開啟，它石已讓具身智能真干活

量子位：過去一年有什么讓你興奮的進(jìn)展？

丁文超：具身大腦上的競爭激烈度會上升得很快，這讓我興奮也讓我警惕。

說實話，中國整體的大腦進(jìn)展是慢于硅谷的。

中國最成熟的是本體和小腦，在大腦上有原創(chuàng)性創(chuàng)新的公司非常稀缺。

硅谷陸續(xù)涌現(xiàn)一些公司，不追求本體硬件能力，專注刷大腦，Generalist這類進(jìn)展很快。

過去一年我們絕大多數(shù)精力都投入在大腦上，就是因為意識到大腦能力的決定性作用。

量子位：春晚上機(jī)器人那么熱鬧，你怎么看？

丁文超：兩點(diǎn)感受。

第一，友商的表現(xiàn)讓我覺得，本體和小腦的競賽基本上已經(jīng)結(jié)束了。再給其他公司6到12個月，大家都能達(dá)到類似水平。

雖然還有很多公司在往里沖，但問題已經(jīng)收斂，只不過各家時間上滯后幾個月而已。

第二，大腦時代開始了。這對行業(yè)是好事，因為人們一直低估了具身的行業(yè)價值。

以前大家的估值邏輯很粗，就是能賣多少臺機(jī)器人。但一旦具身大腦真的能批量轉(zhuǎn)換生產(chǎn)力，整個估值邏輯要重寫。

我覺得大腦的引擎完全可以接住第二波增長，整體價值還會繼續(xù)往上走。3+3+3，淘汰賽最終還是會來。

量子位：你們希望外界給你們貼什么標(biāo)簽？

丁文超：能干活的具身通用大腦。

具身的本質(zhì)是把AI賦予物理實體，讓它在生產(chǎn)生活中發(fā)揮價值。我們想做的是智能程度高、有自主能力、能真正幫助人的大腦公司。

加上能干活這三個字，是因為現(xiàn)在說自己是具身大腦公司的太多了，得有個金標(biāo)準(zhǔn)。能不能穩(wěn)定、可靠、高效地干活，就是這個金標(biāo)準(zhǔn)。

現(xiàn)在很多是披著干活外衣的表演，我們想和這類劃清界限。

量子位：家庭機(jī)器人還有多遠(yuǎn)？

丁文超：我覺得快的話有可能小于3年，是因為我真實感知到了技術(shù)發(fā)展的加速，這個事情是會實現(xiàn)的。

量子位：物理AI要達(dá)到現(xiàn)在信息AI那個水平，需要多少數(shù)據(jù)？

丁文超：千萬小時。

不是重復(fù)性的數(shù)據(jù)，是按場景和工序控制過多樣性的千萬小時。

量子位：遙操作數(shù)據(jù)重復(fù)性太高，這是行業(yè)里另一層泡沫嗎？

丁文超：對，遙操作深受其害。遙操作數(shù)據(jù)大部分來自數(shù)采中心，數(shù)據(jù)多樣性取決于數(shù)采中心的裝修頻率，現(xiàn)在裝修最快的也就一個月一次。

量子位：自由度軍備競賽，你們會卷嗎？

丁文超：自由度能匹配人就夠了，不是越多越好。

軀干大概20多個自由度，單手也是20多個，把機(jī)器人末端送到三維空間某個姿態(tài)，現(xiàn)在大多數(shù)機(jī)器人都具備這個能力。

真正的問題是末端到了之后，能不能靈巧地和物體交互完成任務(wù)。所以末端自由度才是關(guān)鍵，現(xiàn)在很多人在全身自由度上卷，有點(diǎn)舍本逐末。

量子位：你們從一開始就站世界模型這個方向，原因是什么？

丁文超：是被Human Centric逼出來的。

我當(dāng)時在思考，什么樣的模型才能吸收這么多Human Centric數(shù)據(jù)？

單純的動作模仿很難學(xué)到人運(yùn)動的精髓，泛化性和跨環(huán)境遷移都很弱。我們測評了各種VLA，發(fā)現(xiàn)過擬合太嚴(yán)重。

現(xiàn)在大家說世界模型，定義本身還很模糊。

很多人問我：李飛飛那種算不算世界模型？我覺得李飛飛推出的世界模型，更多是基于空間的維度做生成及渲染，而具身則需要落實到我們所處時空的具體動作上。

Marble只是對空間有預(yù)測能力，但具身最終要落到動作上，這是很大的差異。即便對未來假想得很好，但動作很可能還是不行。

最新的學(xué)術(shù)工作中，雖然說指標(biāo)上會有提升，但視頻預(yù)測的幻覺影響動作這個問題，業(yè)界還沒人去解決。

視頻預(yù)測不等于世界模型，真正的世界模型必須最終回歸到動作，而且要解決環(huán)境預(yù)測和三維空間內(nèi)動作的一致性問題。

量子位：具身領(lǐng)域有沒有類似信息AI那樣的AGI目標(biāo)？

丁文超：我最近也一直在思考這個問題。

現(xiàn)在有兩種AGI敘事。第一種是大水漫灌，模型能力慢慢提升，最后變成無所不能的通才。

但語言模型的實際形態(tài)告訴我們，它更像是個天才國度（a country of genius），在若干個子任務(wù)上有峰值很高，但落到縫隙里其實也就普通人水平。

我實驗下來的感覺，具身很可能也是這種形態(tài)，更像一片竹林，竹子越來越多、越來越密。但竹子之間的縫隙還是存在的，那些低谷部分，可能只能勉強(qiáng)達(dá)到人類水平，甚至略低。

有時我也會想，追求大水漫灌式的具身AGI，是不是我們未來十年的使命？

答案將留給實踐和時間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.