2025年行將結(jié)束,具身智能一定是今年的科技年度熱詞。
但與熱度并存的,是具身領(lǐng)域從未停止的爭(zhēng)論:Demo外機(jī)器人的真實(shí)干活水平如何?除了表演,它們還能做到什么?具身模型的進(jìn)展如何?數(shù)據(jù)問題如何解決?...
站在2025年的尾巴上審視,這些問題的答案不算明朗。
在這個(gè)時(shí)點(diǎn),清華大學(xué)姚班助理教授、伯克利歸國(guó)四子之一的許華哲,也在社交媒體上發(fā)表了他對(duì)具身領(lǐng)域的2025年回望。
![]()
*許華哲社媒
在這篇名為《具身智能,2025回望》的文章中,許華哲認(rèn)為,當(dāng)下具身領(lǐng)域或許存在三個(gè)“不協(xié)調(diào)”:
中國(guó)具身公司花更多力氣搞量產(chǎn)、美國(guó)公司展示AI技術(shù)上限。
在美國(guó),Gen0 的精細(xì)操作,Sunday 的長(zhǎng)程任務(wù)能力,pi 0.6 的持續(xù)工作能力讓人震感,中國(guó)則強(qiáng)調(diào)量產(chǎn)。量產(chǎn)和商業(yè)化固然重要,但機(jī)器人需要AI能力來(lái)領(lǐng)跑,如果由此引發(fā)“技術(shù)落后”,得不償失。
對(duì)很多場(chǎng)景來(lái)說(shuō),目前沒有自動(dòng)化的事情,往往要么單價(jià)不高,要么重復(fù)度不高。
因此,具身智能相比于傳統(tǒng)的工業(yè)機(jī)器人更像是大模型。就像大模型不應(yīng)該花時(shí)間在“情感理解”,“文章摘要”這樣的任務(wù)上一樣,具身智能不應(yīng)該做這些簡(jiǎn)單地任務(wù),而應(yīng)該去挑戰(zhàn)“強(qiáng)操作”、“高泛化”的事情。
足夠好的具身智能和世界模型不可能從已有的數(shù)據(jù)中訓(xùn)練出來(lái),機(jī)器人和模型需要“螺旋上升”,邊用邊訓(xùn)。
以下是許華哲發(fā)布在個(gè)人社交媒體上的全文。
具身智能:2025回望
北京下雪了。
我在搜狐大廈星巴克剛送走朋友,目送他一段。我當(dāng)然不是愛上了他,而是想看看他在剛落雪又融化的地面上如何保持平衡。我想結(jié)論很簡(jiǎn)單:不如 G1 機(jī)器人,但好在他很聰明。
回想起幾年前,我們還在討論機(jī)器人什么時(shí)候能全地形走路,后來(lái)發(fā)現(xiàn)這個(gè)話題變成了“跑酷”、“跳舞”、“籃球”。這個(gè)變化速率讓我知道這個(gè)事兒已經(jīng)成了,如果明年可以攀巖我并不吃驚。
但這極快的變化速率又顯得格外不協(xié)調(diào),因?yàn)槲覜]在任何地方看到人形機(jī)器人真正服務(wù)人類。快遞分揀平均速率是1800件每小時(shí),汽車工廠要萬(wàn)分之一甚至十萬(wàn)分之一的失誤率。達(dá)成的那一天似乎一直在一個(gè)不遠(yuǎn)不近的地方招手——隔三差五有人宣稱任務(wù)已經(jīng)解決,但和跳舞的同行不同,我們只能在視頻里見到它。
就像前面說(shuō)的速率上的不協(xié)調(diào),回望2025的具身智能,我發(fā)現(xiàn)了好幾個(gè)這樣不協(xié)調(diào)的相互映照的“對(duì)子”。當(dāng)然我對(duì)它們也有個(gè)人的主觀臆斷,所以也請(qǐng)讀者擔(dān)待冒失的地方。
一. 兩個(gè)世界的機(jī)器人夢(mèng)
從22年、23年同步出發(fā),我們和大洋彼岸幾乎同步啟航了具身智能的事業(yè)。但是到了2025年,我們看到了一個(gè)比較明顯的分野,中國(guó)的公司花更多的力氣搞量產(chǎn)、美國(guó)公司則展示AI技術(shù)上限。
我看到 Generalist 的 Gen0 精細(xì)的操作,看到 Sunday 的長(zhǎng)程任務(wù)能力,看到 pi 0.6 的持續(xù)工作能力,內(nèi)心是有焦慮的。我有一個(gè)不好的直覺,我們要評(píng)估我們的技術(shù)是不是落后,但我想這里,我有責(zé)任,@李弘揚(yáng) @趙行 @王鶴 @高陽(yáng) @龐江森 @穆堯 @周博宇 @陳源培 @... 也都有責(zé)任。量產(chǎn)重不重要,非常重要,但是機(jī)器人不是汽車,需要AI能力來(lái)領(lǐng)跑。
我覺得我們要適應(yīng)一件事,就是時(shí)代變了。在過往的技術(shù)上,我們采用跟隨策略;在大模型上我們已經(jīng)產(chǎn)生了 DeepSeek 這樣的原始創(chuàng)新;在具身智能上,我們應(yīng)該有信心也有概率,最大的那件事兒發(fā)生在中國(guó)。
我之前在破乎中也有討論過:“簡(jiǎn)單說(shuō)你用修長(zhǎng)城的場(chǎng),不管給多少人、多少機(jī)器、多少錢該干不出來(lái)還是干不出來(lái),該攆不上就是攆不上”。我理解努力做確定性有收益的事情的那種爽感:我努力、我成長(zhǎng)、我收獲。但是我想我們真正缺乏的還是:我努力、我失敗了99次、但我吸取教訓(xùn)并且期待第100次也許會(huì)成功。在一些人“成功地”蒸餾別人的模型時(shí),另一些人在“失敗地”研制新的算法。
我認(rèn)為商業(yè)化很重要,也深知量產(chǎn)的嚴(yán)肅性,我只是怕我們錯(cuò)過了最大的那個(gè)西瓜。
二. 落地簡(jiǎn)單場(chǎng)景還是挑戰(zhàn)困難場(chǎng)景
這陣子也有看過一些場(chǎng)景,各種各樣的工廠。我有一個(gè)稍有一點(diǎn)悲觀的暫時(shí)性結(jié)論:高價(jià)值高重復(fù)的場(chǎng)景,總會(huì)出現(xiàn)一個(gè)深圳或者無(wú)錫的聰明人,造出一套自動(dòng)化設(shè)備解決90%的問題。這個(gè)結(jié)論的反面是——目前沒有自動(dòng)化的事情,往往要么單價(jià)不高,要么重復(fù)度不高。因此,我反而覺得具身智能相比于傳統(tǒng)的工業(yè)機(jī)器人更像是大模型。
讓我們沿著這一類比去想,就像大模型不應(yīng)該花時(shí)間在“情感理解”,“文章摘要”這樣的任務(wù)上一樣,具身智能就不應(yīng)該做這些簡(jiǎn)單地任務(wù),而是應(yīng)該去挑戰(zhàn)“強(qiáng)操作”、“高泛化”的事情。這樣我們也更能期待一個(gè)高質(zhì)量的模型,通用地解決許多事情。
當(dāng)然我們不能否定現(xiàn)有落地的價(jià)值,因?yàn)楹芏嘞蚓唧w場(chǎng)景的落地,無(wú)論未來(lái)的智能模型有多強(qiáng),都還是需要比較高的遷移成本的,這個(gè)路早趟過去也是好的。
三. “預(yù)訓(xùn)練” 配合 “先驗(yàn)學(xué)習(xí)”
具身智能的數(shù)據(jù)瓶頸天然存在,仿真數(shù)據(jù)不足、真機(jī)數(shù)據(jù)的缺乏,會(huì)逐漸解決但也會(huì)持續(xù)存在。因此,具身智能恐怕不能先窮盡預(yù)訓(xùn)練數(shù)據(jù),再走向模型探索,而是需要螺旋上升式地進(jìn)行探索。
未來(lái)我們可能會(huì)看到,一個(gè)預(yù)訓(xùn)練好的模型,用強(qiáng)化學(xué)習(xí)在一些任務(wù)上變得擁有超越人類的能力;而這個(gè)模型可能又會(huì)在未來(lái)更多的數(shù)據(jù)上——包括增采的和真機(jī)探索的——訓(xùn)練得更好。
同樣的邏輯,也適用于世界模型,我從不相信我們能夠從人類采集好的數(shù)據(jù)里面訓(xùn)練出一個(gè)足夠好的世界模型,相反,我們需要機(jī)器人真正地自主與世界交互,才能找到真正屬于自己的世界模型。我還一直有一個(gè)很感興趣的話題,用一套強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)來(lái)完成預(yù)訓(xùn)練和后訓(xùn)練,但這是來(lái)年的事情了。
所有的成長(zhǎng),都是掙扎著向上。
具身智能的2025年,沒有一步登天,但是確實(shí)越來(lái)越強(qiáng)烈地感受到一種未來(lái)在召喚。突然想起了前陣子和小龍的一次閑聊。“但也沒感覺很遙遠(yuǎn)了” “確實(shí),不算太遠(yuǎn)了” “It’s an exciting time. Just needs execution.” 是我們對(duì)話的結(jié)束。
![]()
最后想送給所有夢(mèng)想著讓機(jī)器人幫助所有人的朋友,一句《馬大帥》里的話:“讓我們抓緊時(shí)間慢慢等吧”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.