![]()
在技術早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復雜性正在提醒行業,具身智能不是從一條路徑長出來,而是從無數次試錯、沖突與調和中被“雕刻”出來。模型不完美,數據不完整,架構不統一,這聽上去像缺陷,卻恰恰是具身智能最真實的生命力所在。
作者:彭堃方
編輯:呂鑫燚
出品:具身研習社
意料之內的是具身智能在2025年末依然保持高昂姿態前行。
更在意料之內的是,具身智能依然沒有共識。
2025智源具身OpenDay圓桌論壇上,國內最頂尖的具身從業者來了一場“各執一詞的真心話”,無論是模型架構的選擇,還是數據的使用都未能在圓桌對話上找到統一的發展方向。
一時間不少人對于具身智能仍無共識這事兒,抱有遺憾。
但具身研習社認為,“無共識”的另一層意思是具身智能仍值得期待,技術還會在不經意間“偷襲”。畢竟,有明確風向了反倒是略顯無聊。當我們不再訴諸“確定性”,其實能夠看出一些趨勢。或許“無共識”本身就是一種共識。
![]()
圖片來源:智源研究院
從產業視角來看,共識的缺失有三重利好意義:
其一,無共識本質上打破了單一技術路線的壟斷性話語權,避免行業陷入“路徑依賴”的創新陷阱。在具身智能領域,從“分層架構 vs 端到端”的技術路線分歧,到“通用人形機器人vs場景化具身智能”的落地選擇,無共識狀態讓不同技術理念、學科背景的團隊獲得平等試錯空間;
其二,成熟行業的共識往往伴隨著高準入壁壘,而具身智能的“無共識”狀態,為中小企業、初創團隊乃至跨界玩家提供了彎道超車的機會。無需遵循既有的技術標準或商業規則,新入局者可憑借差異化優勢切入賽道。
其三,具身智能作為交叉學科賽道,其技術基礎仍在快速迭代,過早形成共識反而可能固化技術路徑,限制行業向更高維度突破。無共識狀態的核心價值,在于為技術迭代預留了“彈性空間”。
在智源具身OpenDay圓桌論壇上,講述了太多“無共識”,也折射出更多可能性。具身研習社基于在場嘉賓的回答,洞察出具身智能五大信號,未來發展的方向或許就藏在信號中。
![]()
模型還不夠好
有人要另起爐灶
- 信號1:世界模型暫時扛不起大梁
在具身智能的模型討論中,“當紅炸子雞”世界模型是繞不開的話題。
它的核心價值在于“預測”。讓機器人像人類一樣,根據當前時空狀態預判下一步變化,進而規劃動作,這一點得到了圓桌嘉賓的普遍認可。北京大學助理教授、銀河通用創始人王鶴以機器人運控為例,指出無論是人形機器人的足式行走、跳舞,還是靈巧手的精細操作,其底層控制邏輯都需要對物理交互的預測能力,而世界模型恰好能提供這種支撐,但要讓世界模型真正服務于機器人,它的訓練數據中必須包含更多機器人本身的數據。
但世界模型的短板同樣突出,難以單獨成為具身智能的“萬能方案”。王鶴強調,當前很多世界模型依賴人類行為視頻訓練,可機器人的身體結構(如輪式底盤、多自由度機械臂)與人類差異巨大,這些數據對機器人實際操作的幫助有限。加速進化創始人兼CEO程昊也提到,在做飯、復雜裝配等真實場景中,世界模型的預測精度仍不足,只能先通過分層模型解決簡單任務,再逐步迭代升級。
- 信號2:模型要“另起爐灶”
既然現有模型難以滿足需求,“打造具身專屬模型”成為不少企業的共識。
清華大學交叉信息學院助理教授、星海圖CTO 趙行表示,具身智能需要平行于大語言模型的“Large Action Model”,這類模型要以“動作”為核心,而非語言。他解釋道,人類智能的進化是“先有動作、再有視覺、最后有語言”,機器人要適應物理世界,也應該遵循類似邏輯——比如開車時,人類靠視覺觀察路況、靠動作操控方向盤,語言并未參與核心操作,具身模型也應優先打通“視覺-動作”的閉環。
自變量創始人兼CEO王潛的觀點更為具體,他認為具身智能需要一套“物理世界基礎模型”,既能控制機器人動作,又能作為世界模型預測物理規律。虛擬世界的多模態模型靠文字、圖片訓練,但物理世界的摩擦、碰撞、力反饋等精細過程,卻是無法用語言準確描述的。當一個機器人抓取雞蛋時,它需要感知蛋殼的脆弱度、調整握力,這種對物理屬性的理解,必須依賴專門針對物理世界訓練的模型。
- 信號3:從底層架構開始革新
過去幾年,Transformer架構憑借跨模態處理能力,撐起了ChatGPT等大語言模型的爆發,但在具身智能領域,它的適用性正受到質疑。招商局集團AI首席科學家張家興是這一觀點的代表,他直言“具身智能不能走LLM到VLM的老路”。
在他看來,Transformer架構是以語言為核心,將視覺、動作等模態向語言映射,這與物理世界的操作邏輯相悖——人類做動作時,視覺感知直接指導肌肉運動,無需經過語言“翻譯”。他透露,硅谷頭部團隊已在探索“Vision First”或“Vision Action First”的新架構,讓視覺和動作直接交互,減少語言中介的損耗。
王鶴也補充道,Transformer作為一個跨模態的Attention機制,是很通用的。比如你發現它吞吐文模態、視頻模態、聲音模態都是可以的。但“今天具身的問題是,我們人有眼、耳、口、鼻、舌,這么多‘覺’,雖然從Attention的角度,把這些‘覺’Token化以后都能放到Transformer里,但是它在輸出上好像不是那么的理想,根本挑戰是數據問題以及與之對應的學習范式”。
王鶴提出,短期來看,仿真模擬與合成數據是突破探索速度的核心手段;長期來看,現實世界中人形機器人的規模必須持續快速擴張,只有足夠大的“機器人人口”與能力提升相互推動,才能催生真正強大的具身大模型。
這種底層架構的不匹配,讓行業意識到:要實現具身智能的突破,或許需要從架構根源上革新,而非在現有框架內修修補補。
![]()
數據依舊是卡點
且胃口越來越大
- 信號4:沒有完美數據,只有適配選擇
“數據是具身智能的燃料”,這是圓桌論壇的共識,但“用什么數據”卻沒有統一答案。由于不同數據類型各有優劣,企業普遍采取“多源融合、按需選擇”的策略,根據任務場景匹配最合適的數據來源。
真機數據是最“保真”的選擇,能直接反映真實物理世界的交互規律,因此成為精細操作場景的首選。趙行所在的星海圖團隊,就堅持深入真實場景采集數據,他們把真實性、質量看作真實機器人的數采起點。
智元機器人合伙人、首席科學家羅劍嵐也強調,智元機器人也堅持真實數據,并且在數據采集中堅持真實場景而非單靠數采工廠,摸索一條通過機器人自主地去產生數據,構建起數據飛輪的道路。
而仿真數據則憑借“低成本、可規模化”的優勢,成為底層控制訓練的主力。王鶴認為,在強化學習中,很多極端場景(如機器人摔倒、機械臂過載)難以在真機上反復測試,而仿真器可以快速生成大量類似數據,幫助模型學習應對策略。在他看來,模擬器并不是對真實世界的否定,而是以模擬器為始,它能夠給具身企業一個很好的Base Controller,讓我們能在真實世界里能把數據飛輪轉起來。
程昊的加速進化團隊也采取類似策略,先用仿真數據讓機器人掌握基本運控能力,再用真機數據微調適配真實場景。“我們用仿真數據訓練的一個目標,是讓機器人接下來能獲得更多真實數據,有了真實數據,整體能力才能再提升。”在程昊看來這很可能是一個螺旋上升的過程。
視頻數據則成為基座模型訓練的重要補充。智源研究院院長王仲遠認為“視頻數據訓練基座模型”這一套邏輯其實跟現在小朋友刷手機來認識世界是一個原理——先通過視頻學習到這個世界,再通過真實的交互體驗來提升他們的技能。這些視頻數據包含時空、因果、意圖等多維度信息,且能大規模獲取,是當前缺乏海量真機數據時的“折中最優解”。
但在具身研習社追問“從視頻中學習如何解決觸覺跟力控精細化數據?”時王仲遠也承認,視頻中確實缺乏力反饋、觸覺等信息,但這并不影響其價值。現在智源研究院具身智能實驗室里也備有帶力反饋數據的采集設備。視頻數據更多用于“打基礎”,還需結合其他數據做針對性優化、微調。
- 信號5:“數量”“質量”“種類”,具身企業全方位要數據
隨著具身智能向復雜場景滲透,行業對數據的需求正不斷升級,不僅“量”要大,“質”要高,“種類”也要更豐富,形成了越來越大的“數據胃口”。
首先是“量”的渴求,“互聯網級別”數據成為行業共同的期待。如趙行認為,數據的規模化,能夠反向的驅動模型的進化和智能的實現。王仲遠也表示“更好的具身大模型,可能要等大量機器人在真實場景中解決具體問題、累積出‘具身智能互聯網’級別的數據之后,才會出現”。換句話說,沒有足夠的數據,模型就像沒吃飽的孩子,跑不快也長不壯。
當業內在為Generalist構建的27萬小時真機數據集,疑似觸碰到所謂規模化法則而歡呼時,王仲遠對具身研習社坦言,“幾十萬小時的數據依然不能叫海量數據,還遠沒到ChatGPT時刻”。
![]()
圖片來源:智源研究院
在“量”之外,是“質”的追求,“高質量數據比海量低質數據更有價值”的觀點逐漸成為主流。王潛認為,數據雖然很重要,但不是簡單的“越多越好”。
事實上,語言模型已經驗證過,單純堆數據規模未必帶來最好效果,高質量、高效率的數據才是決定性因素。他認為在具身場景里,數據質量比數據總量更能拉開一個量級上的差距。在這里,站在金字塔頂尖的真機數據或許可以少,但很可能是打地基的那一層或者說是針對仿真、視頻數據之外,扶大廈之將傾的存在。
最后是“種類”的豐富,多模態數據的需求日益迫切。隨著機器人應用場景擴展,單一類型的數據已無法滿足需求。比如在家庭服務場景中,機器人需要同時處理視覺(識別物體)、聽覺(理解指令)、觸覺(感知物體軟硬)、力反饋(控制動作力度)等多維度信息。
當前業內所說的多模態更能力,多是承襲基座大模型的視覺、語言能力,在真正物理交互中的觸覺、力反饋等模態少之又少。
這種對數據種類的豐富需求,也讓行業意識到:未來的數據采集,不僅要記錄“機器人做了什么”,還要記錄“環境發生了什么”“交互有何反饋”“人類需要什么”,才能讓模型更懂物理世界、更懂人類需求。
在技術的早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復雜性正在提醒行業:真正的智能不是從一條路徑長出來,而是從無數次試錯、沖突與調和中被“雕刻”出來。模型不完美,數據不完整,架構不統一,這聽上去像缺陷,卻恰恰是具身智能最真實的生命力所在。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.