![]()
在人工智能的眾多賽道中,具身智能(Embodied AI)正處于爆發的前夜。它被視為連接數字世界與物理世界的“最后一公里”,也是人類文明向前邁進的重要里程碑。
從清華大學的強化學習,到香港大學的機器人控制,再到如今在上海交通大學帶領團隊攻堅通用具身智能系統,他站在了計算機視覺(CV)、自然語言處理(NLP)和機器人學(Robotics)的十字路口。
幾年前,這還是一個冷門、艱難的領域,沒有標準數據集,沒有 Benchmark(基準測試),甚至被視為一個費力不討好的領域。如今,隨著大模型技術的溢出,具身智能迎來了日新月異的變革。穆堯也在這個時候成為了上海交通大學的一名年輕的助理教授。他的主頁上寫著一句話:“Shape the intelligence and spirit the machine”(為智慧塑形,為機器注靈)。他相信,真正的創新往往來自那些不設限的年輕人,來自那些敢于在未知中尋找“北極星”的時刻。
在這次對話中,我們試圖還原一位青年學者眼中的具身智能全景圖。從微觀的技術路線選擇,到宏觀的中外產業對比,再到對年輕一代科研者的期許。
以下是對話全文。
圖 | 穆堯課題組(來源:受訪者提供)
![]()
這是一個得天獨厚的交匯點
DeepTech:回看你的經歷,從清華到港大,再到如今的上交大,你似乎很早就鎖定了具身智能這個方向。當初是如何在眾多 AI 領域中選中這條路并長期投入的?
穆堯:我認為具身智能對我來說是一個特別合適的領域:它其實是 CV、NLP 和 Robotics 的一個完美交匯點,這與我的經歷和知識儲備非常吻合。我的本科背景涵蓋了跟機器人硬件相關的知識,博士期間在香港大學羅平老師門下,又接觸了比較高端的視覺算法。而具身智能為了理解人類意圖,還會融入 NLP(自然語言處理)的部分。盡管在 2021 年、2022 年這還是一個比較冷門的方向。當時更火的是純 CV 和 NLP,具身智能連標準的數據集和 Benchmark 都沒有。那是一段比較艱難的時期,我們只能一點點去打地基,自己造數據集,自己造 Benchmark,自己去探索方法。
DeepTech:在它還不是風口的時候,你有動搖過嗎?有沒有想過換個更容易出成果的方向?
穆堯:我是比較堅定的。當然,很多同輩的同學會迷茫、會有困惑,我也經常給他們做疏導。具身這條路確實難。它發文章的難度比正常做視覺要大很多,因為你需要在物理世界里做各種硬件的調整,真機實驗可能就得比別人多做半個月。
但我認為它的 ROI(投資回報率)是非常高的。因為這是一個藍海領域,你做的工作其實更具影響力。這是人工智能真正走進物理世界、與物理世界交互、進而改變物理世界的最后一個里程碑式的進程。當它被攻克時,整個人類文明、社會結構都會被重構。這是一個非常偉大的事業,所以我自己義無反顧。
DeepTech:你在主頁上寫著一句話:“Shape the intelligence and spirit the machine”。這背后蘊含著怎樣的研究理念?
穆堯:這兩句話是對我對具身智能核心的解釋。
前半句“為智慧塑形”(Shape the intelligence)指的是我們希望從物理交互的層面給大模型一個身體。現在如 ChatGPT 一樣的大語言模型在虛擬世界中非常發達,但它們欠缺一個物理的身體。它可以幫你寫一封郵件,但不可能給你端來一杯水。我們希望教會它如何控制身體,如何擰開瓶蓋,如何施力。
后半句“為機器注靈”(Spirit the machine),則是具身智能與傳統機器人的區別。傳統機器人面向單一場景、單一任務,追求百分之百的精準。而具身智能是大模型賦予了機器人“靈魂”,讓它能理解人類的意圖,甚至觀察人類的狀態。比如覺得你疲憊了,主動為你做些什么。
簡單來說,前面是相對于互聯網 AI,后面是相對于傳統機器人。具身智能正好是那個完美的交叉點,擁有強大的泛化性、與人溝通的能力,以及一個能走進物理世界的身體。
VLA 已進決賽圈,核心戰役在數據
DeepTech:你在多篇論文中涉及將 Diffusion Model(擴散模型)應用于機器人規劃。為什么選擇這條技術路線?
穆堯:Diffusion Model是一個非常強大的生成器。既然它能生成復雜的視頻,生成機器人軌跡自然不在話下。
更重要的是,具身數據源于人類示教,而人類行為具有極高的多樣性。因此,在同樣觀測下,動作分布會有多個峰值,Diffusion Model 在擬合這種多峰分布上表現極佳。此外,它逐步去噪的過程,允許對整條軌跡進行迭代式優化,“這修修,那補補”,這成為了目前學術界對 Action 建模的主流方式。
DeepTech:現在大家經常討論具身智能的“不可能三角”——通用性、性能和自主性很難兼得。在你的工作中,如何平衡泛化能力和精確性?
穆堯:我覺得隨著技術的演進,“不可能三角”正在被逐漸淡化和模糊。比如最新的 Pi0 等成果,泛化性很好,效果也很好。之前之所以存在“不可能三角”,本質是因為數據不夠。這就像之前的 NLP 模型,針對單一對話做得好,但通用不行。現在 ChatGPT 證明了,只要 Scale up(規模化)上來,這些問題都能解決。目前像國外的谷歌 Generalist. AI 等和國內各大數采場都在快速積累數據,大家也逐漸意識到收集多樣化數據的重要性,隨著真機數據、人類數據、仿真數據的不斷“力大磚飛”,“不可能三角”會被不斷稀釋
DeepTech:既然提到 Scale up,你認為在具身智能中,數據、模型、算力的 Scaling 優先級是怎樣的?
穆堯:優先級最高的絕對是數據。
其實數據的 Scaling 一直做得不夠好。數據分為四個維度:場景、物體、任務、行為。目前場景和物體的多樣性,通過仿真合成數據已經做得相對較好。但任務多樣性很欠缺,不管是真機還是仿真,大多是一幫人拍腦袋定的任務清單,跟人類日常生活的豐富度有巨大鴻溝。
最難的是人類行為的多樣性。即使是真機遙操作采集數據,操作員為了賺快錢,往往傾向于用最快、最單一的方式完成任務。隨著疲勞,他們的行為會越來越單一。而模型訓練恰恰需要多樣化的行為數據。相對而言,模型結構的 Scaling 已經很成熟了,改改結構漲一兩個點意義不大,核心還是數據的 Scaling。
DeepTech:面對數據難題,你們團隊目前具體在推行什么樣的技術方案?
穆堯:我們正在推進一套“人-數字人-機器人”三元融合驅動的數據和模型Scaling up 方案。核心還是以人為本。我們不能只靠死板的仿真,而是要先學一個人類的 Foundation Model,把它作為先驗嵌入到我們仿真合成數據的管線中,把人的行為多樣性遷移過去。
具體而言,整個流程是:第一步,直接從海量的人類視頻數據中進行大規模預訓練,解決數據量的問題;第二步,利用我們構建的管線生成高質量的機器人仿真數據,將人類的行為域遷移到機器人上,進行第二階段的預訓練;第三步,再加入機器人的真機數據進行微調。這可能是目前解決數據瓶頸最有效的路徑。
DeepTech:除了數據,Benchmark(基準測試)也是行業痛點。你認為目前的測評體系存在什么問題?
穆堯:目前缺乏統一的 Benchmark,大家各做各的,沒有一個能讓所有人信服。
比如常用的 LIEBRO,大部分算法都能刷到 90 多分的成功率,再漲一兩個點沒什么意義,而且它用的機器人型號在中國都不賣。再比如 RoboTwin,它主打泛化性,對不同場景,不同桌面的雜亂度,目標物體的形狀、初始位姿等的泛化性能要求較高,但沒有和真實的物理場景做完美的對齊。還有一個最大的問題是真機評測的不可復現性。所有人的真機實驗都是自己設計任務、自己搭場景、用自己的機器人,資產也不一樣。
DeepTech:這有解法嗎?
穆堯:我覺得未來的評價體系應該分三部分:第一,建立一套與真機完全孿生的仿真測試,保證極高的可信度;第二,像 RoboTwin 一樣測策略在廣泛場景下的泛化性;第三,也是目前最糟糕的,真機評測。
我們團隊正在做這件事,推動真機評測的標準化。我們提供標準的硬件清單、場景布置參數,甚至每一個資產的淘寶鏈接,讓大家能購買相應的資產,搭建出一模一樣的平臺。
國內有得天獨厚的優勢,也有不敢冒險的差距
DeepTech:畢業后你選擇了進入高校,而不是去業界一線的研發團隊。這個選擇的緣由是什么?
穆堯:進入產業界,總是容易“受制于人”。企業的安全閾值比較低,它一定要做短期內有收益的事情。但具身智能目前還不是一個特別成熟的產業,它需要我們有更冒險的想法、更年輕的思路。而學術界則相對自由,而且上交大提供了非常好的平臺。在高校,我們是連接各個企業的橋梁,而如果加入某一家企業,可能就很難與其他企業深度合作了。
DeepTech:對比 Stanford 或 MIT等頂尖實驗室,你認為國內在具身智能賽道上有哪些優勢和差距?
穆堯:國內最核心的優勢是硬件本體。我們的機器人產業太發達了,實驗室機器人壞了,廠家第二天就能來修好,這在國外是不可想象的,他們可能得漂洋過海去返修。
差距方面,總體沒有質的技術代差。但國外在冒險精神上確實走在前面。比如 UMI 方案收集了 27 萬小時數據,我們很震驚這是怎么做到的,這需要非常大的 Infrastructure 和資本投入。國內在這方面往往是“不見兔子不撒鷹”,看到別人路跑通了再去 Follow。這很大程度上是因為我們不敢冒險。
DeepTech:在你的觀察中,具身智能是初創公司更有機會,還是會被大廠主導?
穆堯:目前來看,除了 Google、Meta 這種巨頭,國內大部分最前沿的技術發布、開源貢獻,其實都是由初創公司完成的。無論是算法、數據集還是硬件,初創公司展現出了更強的活力。
DeepTech:你對未來 5 到 10 年的技術演進有什么判斷?
穆堯:商業閉環會先在 B 端實現。我看到一些公司的方案在工業端已經具備了 80% 的落地能力,比如物流場景、疊衣服場景。
特別是一些具體場景,比如商超零售,或者家庭中“掃地機器人+機械臂”的組合,去處理吸塵器處理不了的紙團、臟襪子。這些在 1-2 年內會很快落地。但如果你說“通用具身智能”,像保姆一樣什么都能干,那可能還需要 5 到 10 年。
不要被單一的投稿周期束縛
DeepTech:你今年的科研產出非常高效。能否分享一下你的科研時間管理經驗?
穆堯:我認為文章產出是整個團隊的努力。不過關于管理,我覺得第一點是不要只盯著自己的“一畝三分地”。要時刻關注 CV、NLP 領域最前沿的技術。比如 Meta 發布的 SAM 3D,直接顛覆了我們之前仿真合成數據的管線。如果不看那個圈子,你還在用傳統方法死磕,效率就很低。
第二,不要以文章投稿周期來管理時間,而應該采用項目管理的方式。我們不應該只盯著投稿,而是要規劃這個工作什么時候開源、什么時候宣傳、什么時候修復 Bug。這會給之前的布局帶來更大的緊迫感,也能倒逼時間管理。
DeepTech:作為導師,你在帶學生和團隊管理上有什么心得?
穆堯:我最看重學生的主人翁意識。我告訴學生,這個課題分給你,你就是第一負責人,甚至不需要跟我匯報就可以做決策。通過一兩個項目的歷練,他們會形成很強的責任心。我只需要在最開始的構想階段,以及他們遇到真正解決不了的困難時,幫他們捋順關鍵節點。
DeepTech:你的實驗室招生說明中提到“人工智能是年輕人的事業”。為什么這么強調“年輕”這個特質?
穆堯:這和我在回答中美差距時提到過,資深的人往往安全閾值過高,不愿意去嘗試那些“不一定帶來巨大增益”的想法——之前有一些學生提出的我覺得“不靠譜”的想法,最初本想斃掉,但后來想想,實驗室剛建,讓他們試試錯也沒關系。結果反而是一些我沒太看好的項目,做出了很好的效果。這給了我很大的改觀。
我也參加了深圳的具身智能機器人大會,給我的感覺是“天下英雄,如過江之鯽”。新一代博士生蓬勃的生命力和最新想法都非常好。所以,雷軍的那句話說得特別好:“不要聽別人這個建議、那個建議,敢想敢干就完了。” 現在,我也在努力改變自己。
DeepTech:如果給行業里的年輕研究者一個建議,你會說什么?
穆堯:首先要找到自己心目中的“北極星”——那個你愿意投入巨大精力去做的目標。
找到北極星之后,就堅定的往前走。不要因為別人發了一篇 Blog 說仿真數據不如真機數據,你就猶豫仿真的意義;也不要因為別人發了 Simulation 的大工作,你做真機數據的就動搖。只要你的北極星不是特別離譜,在解決問題的過程中,一定能形成一系列成果。
從工具到伙伴
DeepTech:現在資本市場對具身智能的態度,你覺得是過熱還是合理?
穆堯:有一段時間確實過熱,但現在的資本已經很理性了。有些投資人對行業的理解甚至比我還深刻(笑)。
大家覺得過熱,往往是因為宣傳上的過熱。但我們看到,僅僅從 2024 年到 2025 年,技術就發生了翻天覆地的變化。24 年初,很多機器人走路都不利索,我們還無法想象機器人能夠疊衣服,能夠端到端 24 小時連軸轉,但現在正在被逐漸攻克。技術的演進非常快,所以資本多一些投入是合理的,只是行業里確實存在借噱頭過度營銷的現象。
DeepTech:最后,請描述一下你心中理想的具身智能系統,它是什么狀態?
穆堯:最理想的狀態,是成為人類的“伙伴”。
它不僅是有應用價值的工具,比如在養老場景中發揮作用;更會在社會心理學層面帶來改變。隨著具身智能的急速發展,社會結構會發生快速變化。終極形態下,機器人將成為我們非常好的朋友。
結語
具身智能從“冷門賽道”到“風口前夜”,其發展軌跡印證了技術演進的非線性特征。數據瓶頸、評測標準的缺失、真機實驗的高成本,這些問題至今懸而未決,但資本與人才的涌入正在加速尋找答案的進程。
至于這場“為機器注靈”的冒險最終將通向何處,答案仍在時間的另一端。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.