網易首頁 > 網易號 > 正文申請入駐

具身智能無共識，就是最好的共識

2025-11-25 20:11:45　來源: 具身研習社

北京舉報

分享至

在技術早期，總有人試圖尋找唯一正確的路線，希望通過一次性押注來穿越迷霧。但具身智能的復雜性正在提醒行業，具身智能不是從一條路徑長出來，而是從無數次試錯、沖突與調和中被“雕刻”出來。模型不完美，數據不完整，架構不統一，這聽上去像缺陷，卻恰恰是具身智能最真實的生命力所在。

作者：彭堃方

編輯：呂鑫燚

出品：具身研習社

意料之內的是具身智能在2025年末依然保持高昂姿態前行。

更在意料之內的是，具身智能依然沒有共識。

2025智源具身OpenDay圓桌論壇上，國內最頂尖的具身從業者來了一場“各執一詞的真心話”，無論是模型架構的選擇，還是數據的使用都未能在圓桌對話上找到統一的發展方向。
一時間不少人對于具身智能仍無共識這事兒，抱有遺憾。

但具身研習社認為，“無共識”的另一層意思是具身智能仍值得期待，技術還會在不經意間“偷襲”。畢竟，有明確風向了反倒是略顯無聊。當我們不再訴諸“確定性”，其實能夠看出一些趨勢。或許“無共識”本身就是一種共識。

圖片來源：智源研究院

從產業視角來看，共識的缺失有三重利好意義：

其一，無共識本質上打破了單一技術路線的壟斷性話語權，避免行業陷入“路徑依賴”的創新陷阱。在具身智能領域，從“分層架構 vs 端到端”的技術路線分歧，到“通用人形機器人vs場景化具身智能”的落地選擇，無共識狀態讓不同技術理念、學科背景的團隊獲得平等試錯空間；

其二，成熟行業的共識往往伴隨著高準入壁壘，而具身智能的“無共識”狀態，為中小企業、初創團隊乃至跨界玩家提供了彎道超車的機會。無需遵循既有的技術標準或商業規則，新入局者可憑借差異化優勢切入賽道。

其三，具身智能作為交叉學科賽道，其技術基礎仍在快速迭代，過早形成共識反而可能固化技術路徑，限制行業向更高維度突破。無共識狀態的核心價值，在于為技術迭代預留了“彈性空間”。

在智源具身OpenDay圓桌論壇上，講述了太多“無共識”，也折射出更多可能性。具身研習社基于在場嘉賓的回答，洞察出具身智能五大信號，未來發展的方向或許就藏在信號中。

模型還不夠好

有人要另起爐灶

信號1:世界模型暫時扛不起大梁

在具身智能的模型討論中，“當紅炸子雞”世界模型是繞不開的話題。

它的核心價值在于“預測”。讓機器人像人類一樣，根據當前時空狀態預判下一步變化，進而規劃動作，這一點得到了圓桌嘉賓的普遍認可。北京大學助理教授、銀河通用創始人王鶴以機器人運控為例，指出無論是人形機器人的足式行走、跳舞，還是靈巧手的精細操作，其底層控制邏輯都需要對物理交互的預測能力，而世界模型恰好能提供這種支撐，但要讓世界模型真正服務于機器人，它的訓練數據中必須包含更多機器人本身的數據。

但世界模型的短板同樣突出，難以單獨成為具身智能的“萬能方案”。王鶴強調，當前很多世界模型依賴人類行為視頻訓練，可機器人的身體結構（如輪式底盤、多自由度機械臂）與人類差異巨大，這些數據對機器人實際操作的幫助有限。加速進化創始人兼CEO程昊也提到，在做飯、復雜裝配等真實場景中，世界模型的預測精度仍不足，只能先通過分層模型解決簡單任務，再逐步迭代升級。

信號2:模型要“另起爐灶”

既然現有模型難以滿足需求，“打造具身專屬模型”成為不少企業的共識。

清華大學交叉信息學院助理教授、星海圖CTO 趙行表示，具身智能需要平行于大語言模型的“Large Action Model”，這類模型要以“動作”為核心，而非語言。他解釋道，人類智能的進化是“先有動作、再有視覺、最后有語言”，機器人要適應物理世界，也應該遵循類似邏輯——比如開車時，人類靠視覺觀察路況、靠動作操控方向盤，語言并未參與核心操作，具身模型也應優先打通“視覺-動作”的閉環。

自變量創始人兼CEO王潛的觀點更為具體，他認為具身智能需要一套“物理世界基礎模型”，既能控制機器人動作，又能作為世界模型預測物理規律。虛擬世界的多模態模型靠文字、圖片訓練，但物理世界的摩擦、碰撞、力反饋等精細過程，卻是無法用語言準確描述的。當一個機器人抓取雞蛋時，它需要感知蛋殼的脆弱度、調整握力，這種對物理屬性的理解，必須依賴專門針對物理世界訓練的模型。

信號3:從底層架構開始革新

過去幾年，Transformer架構憑借跨模態處理能力，撐起了ChatGPT等大語言模型的爆發，但在具身智能領域，它的適用性正受到質疑。招商局集團AI首席科學家張家興是這一觀點的代表，他直言“具身智能不能走LLM到VLM的老路”。

在他看來，Transformer架構是以語言為核心，將視覺、動作等模態向語言映射，這與物理世界的操作邏輯相悖——人類做動作時，視覺感知直接指導肌肉運動，無需經過語言“翻譯”。他透露，硅谷頭部團隊已在探索“Vision First”或“Vision Action First”的新架構，讓視覺和動作直接交互，減少語言中介的損耗。

王鶴也補充道，Transformer作為一個跨模態的Attention機制，是很通用的。比如你發現它吞吐文模態、視頻模態、聲音模態都是可以的。但“今天具身的問題是，我們人有眼、耳、口、鼻、舌，這么多‘覺’，雖然從Attention的角度，把這些‘覺’Token化以后都能放到Transformer里，但是它在輸出上好像不是那么的理想，根本挑戰是數據問題以及與之對應的學習范式”。

王鶴提出，短期來看，仿真模擬與合成數據是突破探索速度的核心手段；長期來看，現實世界中人形機器人的規模必須持續快速擴張，只有足夠大的“機器人人口”與能力提升相互推動，才能催生真正強大的具身大模型。

這種底層架構的不匹配，讓行業意識到：要實現具身智能的突破，或許需要從架構根源上革新，而非在現有框架內修修補補。

數據依舊是卡點

且胃口越來越大

信號4:沒有完美數據，只有適配選擇

“數據是具身智能的燃料”，這是圓桌論壇的共識，但“用什么數據”卻沒有統一答案。由于不同數據類型各有優劣，企業普遍采取“多源融合、按需選擇”的策略，根據任務場景匹配最合適的數據來源。
真機數據是最“保真”的選擇，能直接反映真實物理世界的交互規律，因此成為精細操作場景的首選。趙行所在的星海圖團隊，就堅持深入真實場景采集數據，他們把真實性、質量看作真實機器人的數采起點。
智元機器人合伙人、首席科學家羅劍嵐也強調，智元機器人也堅持真實數據，并且在數據采集中堅持真實場景而非單靠數采工廠，摸索一條通過機器人自主地去產生數據，構建起數據飛輪的道路。
而仿真數據則憑借“低成本、可規模化”的優勢，成為底層控制訓練的主力。王鶴認為，在強化學習中，很多極端場景（如機器人摔倒、機械臂過載）難以在真機上反復測試，而仿真器可以快速生成大量類似數據，幫助模型學習應對策略。在他看來，模擬器并不是對真實世界的否定，而是以模擬器為始，它能夠給具身企業一個很好的Base Controller，讓我們能在真實世界里能把數據飛輪轉起來。

程昊的加速進化團隊也采取類似策略，先用仿真數據讓機器人掌握基本運控能力，再用真機數據微調適配真實場景。“我們用仿真數據訓練的一個目標，是讓機器人接下來能獲得更多真實數據，有了真實數據，整體能力才能再提升。”在程昊看來這很可能是一個螺旋上升的過程。

視頻數據則成為基座模型訓練的重要補充。智源研究院院長王仲遠認為“視頻數據訓練基座模型”這一套邏輯其實跟現在小朋友刷手機來認識世界是一個原理——先通過視頻學習到這個世界，再通過真實的交互體驗來提升他們的技能。這些視頻數據包含時空、因果、意圖等多維度信息，且能大規模獲取，是當前缺乏海量真機數據時的“折中最優解”。
但在具身研習社追問“從視頻中學習如何解決觸覺跟力控精細化數據？”時王仲遠也承認，視頻中確實缺乏力反饋、觸覺等信息，但這并不影響其價值。現在智源研究院具身智能實驗室里也備有帶力反饋數據的采集設備。視頻數據更多用于“打基礎”，還需結合其他數據做針對性優化、微調。

信號5:“數量”“質量”“種類”，具身企業全方位要數據

隨著具身智能向復雜場景滲透，行業對數據的需求正不斷升級，不僅“量”要大，“質”要高，“種類”也要更豐富，形成了越來越大的“數據胃口”。

首先是“量”的渴求，“互聯網級別”數據成為行業共同的期待。如趙行認為，數據的規模化，能夠反向的驅動模型的進化和智能的實現。王仲遠也表示“更好的具身大模型，可能要等大量機器人在真實場景中解決具體問題、累積出‘具身智能互聯網’級別的數據之后，才會出現”。換句話說，沒有足夠的數據，模型就像沒吃飽的孩子，跑不快也長不壯。

當業內在為Generalist構建的27萬小時真機數據集，疑似觸碰到所謂規模化法則而歡呼時，王仲遠對具身研習社坦言，“幾十萬小時的數據依然不能叫海量數據，還遠沒到ChatGPT時刻”。

圖片來源：智源研究院

在“量”之外，是“質”的追求，“高質量數據比海量低質數據更有價值”的觀點逐漸成為主流。王潛認為，數據雖然很重要，但不是簡單的“越多越好”。

事實上，語言模型已經驗證過，單純堆數據規模未必帶來最好效果，高質量、高效率的數據才是決定性因素。他認為在具身場景里，數據質量比數據總量更能拉開一個量級上的差距。在這里，站在金字塔頂尖的真機數據或許可以少，但很可能是打地基的那一層或者說是針對仿真、視頻數據之外，扶大廈之將傾的存在。

最后是“種類”的豐富，多模態數據的需求日益迫切。隨著機器人應用場景擴展，單一類型的數據已無法滿足需求。比如在家庭服務場景中，機器人需要同時處理視覺（識別物體）、聽覺（理解指令）、觸覺（感知物體軟硬）、力反饋（控制動作力度）等多維度信息。
當前業內所說的多模態更能力，多是承襲基座大模型的視覺、語言能力，在真正物理交互中的觸覺、力反饋等模態少之又少。

這種對數據種類的豐富需求，也讓行業意識到：未來的數據采集，不僅要記錄“機器人做了什么”，還要記錄“環境發生了什么”“交互有何反饋”“人類需要什么”，才能讓模型更懂物理世界、更懂人類需求。
在技術的早期，總有人試圖尋找唯一正確的路線，希望通過一次性押注來穿越迷霧。但具身智能的復雜性正在提醒行業：真正的智能不是從一條路徑長出來，而是從無數次試錯、沖突與調和中被“雕刻”出來。模型不完美，數據不完整，架構不統一，這聽上去像缺陷，卻恰恰是具身智能最真實的生命力所在。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.