網易首頁 > 網易號 > 正文申請入駐

機器人濃度最高的一屆春晚后，具身智能離走進千家萬戶還有多遠？

2026-03-18 16:35:16　來源: AI前線

北京舉報

分享至

作者 | QCon 全球軟件開發大會

策劃 | Kitty

編輯 | 宇琪

具身智能作為 AI 從數字世界邁向物理現實的核心躍遷，是通往 AGI 的關鍵路徑，卻依然受困于模型泛化性不足、數據采集難、閉環難以實現等深層難題，真正的產業落地仍舉步維艱。那么，具身智能究竟卡在哪兒了？

近日 InfoQ《極客有約》X QCon 直播欄目特別邀請地瓜機器人算法副總裁隋偉博士擔任主持人，和地瓜機器人具身智能負責人何泳澔博士、樂享科技 CTO 李元慶、北京科技大學副教授彭君然博士一起，在2026 年 QCon全球軟件開發大會（北京站）即將召開之際，共同探討具身智能落地實戰中的卡點。

部分精彩觀點如下：

工業場景并不需要追求通用性，如果能將某個高價值工位的任務做到穩定、可靠、高效，這本身就足以支撐一家公司達到百億估值。
如果想讓 AI 實現可控生成，就必須保證每一個環節都是可控的，全鏈路可控才能實現整體可控。無人駕駛是這樣做的，從實驗室走向落地同樣應該如此。
這么多年做機器學習，我一直認為保證數據質量是第一位的，模型反而是第二位的。
現階段不應該一股腦上具身，很多具身公司在做的事情，明顯有更低成本的自動化替代方案?！?/p>

在 4 月 16-18 日將于北京舉辦的 QCon 全球軟件開發大會（北京站）上，我們特別設置了【具身智能與物理世界交互】專題。該專題將深度拆解具身智能技術鏈路，探討模型現狀、核心挑戰與機會，加速具身智能技術研發轉化與產業規模化落地。查看大會日程解鎖更多精彩內容：https://qcon.infoq.cn/2026/beijing/schedule

以下內容基于直播速記整理（經 InfoQ 刪減）。

完整直播回放可查看：http://gk.link/a/12HKJ

隋偉：我們今天談“卡”，有一種聲音認為“技術發展需要時間，不算卡”；另一種聲音認為“商業化不及預期，就是卡住了”。在老師們看來，我們現在的狀態，是“在爬坡”還是“被卡住”？

何泳澔：具身智能從邊緣領域逐步成為主流焦點的根本驅動力在于大模型的突破性進展，直接激發了整個賽道的想象空間。此前大模型能力局限于數字空間，無法與物理世界交互；彼時的具身也還是基于傳統模塊化能力構建的。大模型出現之后，業界迅速捕捉到一個方向：將大模型與硬件結合，或許能讓硬件能力實現跨越式發展。有了硬件加持，高級智能便得以與物理世界交互，想象空間巨大。

與物理世界交互，意味著需要大量傳感器，視覺類傳感器是主流，力覺類也在逐步成為重要組成部分。傳感器增多，數據維度與模態隨之增加，學習難度呈指數級上升。因此我們現在的體感是：時不時出現引人矚目的成果，隨后沉寂相當長一段時間，令人心生疑慮，而后又突然出現突破性進展，重新振奮信心。我認為任何創業方向都是在樂觀與悲觀并存的狀態下推進的，遭遇卡點或商業化不及預期都是可以理解的。許多人提到，這一波 AI 技術浪潮有可能成為人類歷史上最后一波技術創新。一旦這些問題真正解決，人類將進入高速發展期，奇點也將隨之到來。

李元慶：從現狀來說，機器人走進千家萬戶、滲透工業各行各業確實尚未實現，從資本和企業的視角看確實存在卡點。但以無人駕駛為參照，耦合度和復雜度較高的系統通常需要經歷約五年的成長期、穩定期和成熟期。具身智能這一概念大約在 2023 年前后才開始廣泛傳播，才剛剛起步。三年前，市面上大多還是小舵機機器人、小型人形機器人乃至四足機器狗，甚至不太敢出現在展臺上。但今年春晚，宇樹的機器人在臺上做跑酷，跳躍高度令人震驚。

從另一個角度看，耦合度和復雜度較高的系統在中國市場發展，通常需要 400 到 500 家企業持續攻關才能推動市場化運營，目前具身智能領域的企業數量尚未達到這一規模。待到那個階段，或許會經歷一輪對過高預期的祛魅，但也必然留存下扎實可靠的技術。

總體而言，ToB 方向各家已在用各種策略推進落地，雖還無法直接替代各行各業，但已能解決部分問題。ToC 方向，承載情緒價值的會說話的玩具已十分典型。導航與人機交互已初具雛形，具備小型記憶與推理能力，若能在靈巧操作和長鏈條任務復雜推理上進一步突破，具身智能其實離大眾并不遙遠。

彭君然：ToB 層面目前并非卡住了，而是處于磨合期，涉及幾個層面：第一是需求，機器人能做導航、能做運動控制，但工廠真正的需求是什么？目前頭部企業中估值百億以上的約有 50 家，基本都在做 ToB，各家都在與垂直領域工廠對接，探討如何用自身方案解決客戶需求。第二是痛點顆粒度，哪些問題必須用具身解決，哪些用工業自動化更合適？

第三是經濟賬，政府補貼之后，需要達到多高的良品率或提升多少效率才能盈利？這為行業提供了一個過渡期，給出了明確的成本導向?，F在一臺機器人賣 50 萬、70 萬尚屬高位，但市場可能只能接受 20 萬左右。我也聽說過一個案例：頭部企業報價 400 萬，一家規模僅其十分之一的團隊報價 200 萬，工廠最終選擇了后者，可見 ToB 市場成本敏感程度極高。

ToC 方面，目前尚未真正進入磨合期。當前率先走進家庭的主要是以情緒價值為主的產品，機器人尚不了解家庭環境，需要先找到進入家庭的途徑，即便此時其他功能幾乎全依賴大模型或視頻通話等非具身能力。但一旦進入家庭，機器人便能對用戶和環境建立更深入的了解，C 端用戶的購買傾向與產品價值也在雙向磨合中逐步匹配。所以我認為目前完全沒有卡點，整體發展相當順暢。

隋偉：何博，您在演講中提出“VA 比 VLA 更適配工業”，這個判斷本身就隱含了一個“卡點”——大模型進不了產線。想先請您用一分鐘概括：那個最根本的“不適配”到底在哪？

何泳澔：VLA 全稱 Vision-Language-Action，以視覺與語言模態共同作為輸入來生成動作；VA 則僅以視覺作為輸入來預測動作，兩者之差正是中間的 L——語言。在工業場景中，整體環境高度結構化，流程基本確定，不需要通過自然語言來引導機器人。

語言本質上是一種交互手段，更像 UI 層，面向 C 端時 L 或許是核心，但在工廠中它不僅作用有限，還帶來額外的計算開銷和訓練數據復雜度?；究梢岳斫鉃?，工業場景與 C 端通用場景之間的本質差異，是專用與通用的區別。

隋偉：元慶老師，您在演講中明確提出，“具身 Agent 是破解瓶頸、銜接 VLA/VA 與物理世界的核心載體”。您所說的這個“Agent”，和業界常說的“大模型”、“機器人軟件系統”，最本質的區別是什么？它為什么是“核心”？

李元慶：在做端到端的過程中，我發現從指令到最終動作軌跡，往往無法完整執行任務，成功率低、節拍慢、效果差。核心問題在于：要讓模型指揮任務，必須將所有關鍵信息完整提供給它。舉個例子：讓機器人幫我把水杯拿來，它立刻面臨一系列問題：去哪拿？兩個水杯哪個是你的？要不要加水？加什么？人的指令高度壓縮，而完成任務所需的信息嚴重缺失。

端到端在現階段無法落地，因為無論從視覺、指令還是語義地圖中，都無法提取完整信息，人類自然語言壓縮了太多內容。因此我堅信這一階段率先落地的應該是 modularl-based 方案，而 Agent 正是這一路線下的典型策略。Agent 涵蓋 perception、decision-making、memory 與 action 的完整閉環，與強化學習范式高度相似，且各單點目前都已有可落地的解法。

我相信未來存在 model as a product 的形態，一個 AI 模型解決一切問題，這非常接近 AGI。但在此之前，AI 外部還需要大量工程化的殼來輔助，通過更好的 prompt 和不斷補充的信息來構建 Agent。

此外，機器人軟件系統很像操作系統，目前基于 AI 架構設計的軟件系統還未得到充分應用。我們還看到，硬件開發過程中底層軟件和嵌入式驅動仍在大量重復開發，根源在于技術路徑尚未定型、產品導向尚不清晰，相關標準與協議仍不夠成熟。如果有一個軟件系統天然適配 AI 所需的高帶寬、高實時響應、高并行 GPU 運算及異步計算，同時能輕量化運行在機器人本體上，將是極為值得期待的產品。

隋偉：彭老師，從高校研究者的視角，您覺得產業界現在對“空間智能”最大的誤解是什么？這個誤解本身，是不是一個“卡點”？

彭君然：我認為并不存在誤解，因為空間智能這個詞本身太寬泛了，場景重建、位姿估計、SLAM、三維生成、資產生成乃至世界模型，都在其范疇之內。問題不在于誤解，而在于討論時術語未能統一，各說各的，實際上都是在談某一個具體技術方向，卻用了寬泛的表述，這倒不構成卡點。

算法之卡

隋偉：何博您在演講提綱中提到“注意力放在 VA 上，潛臺詞是沒考慮通用性”。那我想追問：工業場景真的不需要通用性嗎？一條產線今天擰螺絲、明天裝手機，這不就是通用性需求嗎？“工業通用性”和“AGI 通用性”的區別到底在哪？

何泳澔：我為工業方案歸納了三個依次遞進的關鍵詞：穩定（機器不能宕機）、可靠（功能成功率接近 100%）、高效（在前兩者基礎上追求），這三個關鍵詞與通用性關聯不大。工業場景中硬件首先無法通用，尤其是操作類任務，不同工位的末端執行器大概率不同。但通用性可以體現在模型層面：任務不同，底層模型架構可以相同，針對不同任務采集數據訓練出不同能力的模型，模型結構保持一致。因此工業場景并不需要追求通用性，如果能將某個高價值工位的任務做到穩定、可靠、高效，這本身就足以支撐一家公司達到百億估值。

隋偉：那 VLA 和 VA 目前能達到這個程度嗎？工業操作有些需要毫米級乃至亞毫米級的精度，現有模型能直接解決嗎？

何泳澔：解決不了。即便 VA 類模型更適配工業，若要完成高精度任務并保證高成功率，單靠模型肯定不夠。需要從整體架構設計入手，可能采用模塊化方案，其中某些環節引入 VA 算法，還需要配套的數據采集方案和仿真能力。解決工業問題是極其綜合的工程，絕非單一模型所能勝任。

隋偉：所以未來工業智能不會是一個模型通吃，而更可能是模型超市，不同模型解決不同任務。

何泳澔：是的，不同場景、不同任務，組合方式都會不一樣。

隋偉：隨著技術發展和數據積累，這些模型有沒有可能走向大一統？

何泳澔：投入足夠大也許有可能，但過程中隨時會出現 ROI 層面的變化。當某個節點 ROI 已經最優，就沒必要繼續推進通用性了。對工業場景而言，追求通用性可能是一種執念，而這種執念并無必要。

隋偉：工業場景本身就是相對專業化的領域。

何泳澔：正是如此，而且正因為有難度，反而可以推動工廠配合進行場景改造。這件事歸根結底由投入產出來定義，而非純粹出于“希望它變得通用”的技術愿景。

隋偉：元慶老師，您提出要“避免實驗室好用、現場失效”。從 Agent 架構設計的角度看，導致“現場失效”的最主要的技術原因是什么？是感知層對環境變化不適應，還是決策層規劃太慢，或是執行層的指令翻譯出錯？

李元慶：如果先不談算法，我認為從實驗室走向落地最典型的挑戰就是信號問題。邊端協同場景下，一旦網絡帶寬不足或出現丟包，機器人就會直接宕機。

以 Agent 各層次來看：perception 層面，實驗室里 7B 左右的模型基本什么都能識別，但真實場景中物體大量重疊、顏色色差、傳感器跳變、光照影響，紅色可能被識別成橙色，底層感知整個就亂了。決策層面，只要存在一點時延或誤差，甚至中間有動態陰影經過，判斷就會完全失準。

執行層面，硬件精度、執行準確度與策略推理之間哪怕存在微小誤差，影響都會非常顯著。整體來看，這是一個極其復雜的系統。AI 的可控生成，其實一定程度上就是保證每一個環節都是可控的，全鏈路可控才能實現整體可控。無人駕駛是這樣做的，從實驗室走向落地的產品同樣應該如此。

隋偉：兩者對場景的要求確實不同。實驗室更多是解決創新性問題，而真正到現場就得應對各種 corner case。

李元慶：而且具身智能從一開始就在解決 scaling 和通用性的問題，從來沒有進入過能用 SOP 去測試的成熟階段。我可以負責任地說，我們的實驗室在場景和落地細節不清晰的情況下，很多性能指標就沒怎么評估準確過。

隋偉：您也提到“多智能體協同、長期記憶幾乎沒有成熟方案”。這個問題在工業場景下是不是特別突出？比如一條產線上多個機器人協作，或者一個機器人需要記住昨天沒干完的活。Agent 框架能怎么解決這個問題？還是說，這超出了當前 Agent 的能力范圍？

李元慶：能走向落地的記憶系統應該是分層的、多模態的，具備時空關聯，支持可檢索與可推理。以往實現記憶大致有三種方式：內隱記憶（將內容訓入模型）、外顯式記憶（結構化寫入文件后檢索）、embedding 索引檢索。

工廠場景中如果多機需要協作共享日志，不如直接用成熟的通信工具解決，而不必強行套用 AI 方案。用合適的技術解決合適的問題，這正是 Agent 的魅力：它并非 all-in AI，而是將以往自動化領域積累的結構化信息，以更巧妙的方式整合進來。從黑盒外部看到的是完整結果，打開內部會發現是拼湊起來的模塊，這完全沒有問題。

隋偉：元慶老師提到的 Agent 架構中，有一個“基于 World Model 的意圖預判與規劃”層。何博，在您的工業操作實踐中，您覺得引入這種“預判”能力，對于提升操作的柔性和成功率，是必需的嗎？它的計算開銷會不會成為新的瓶頸？

李元慶：關鍵在于要不要用。字節在 Flamingo 之后就開始做 imagination，特斯拉 FSD 也將其納入。在算力充裕的前提下使用沒有問題，收益也很明確：在動態環境下能更快響應，提高成功率。至于開銷，取決于產品定義，如果產品需要在這樣的工況下運行，就應該承擔相應的算力開銷。

以前學 MPC 時，它用短規程動力學模型做規劃，加入預測來做滾動誤差迭代。自動化領域其實早就存在解決類似問題的思路，world model 與之非常相似，只不過處理的是更長規程、多模態的問題。

何泳澔：我們最近正在研究 world model 與操作任務的結合，初步結論是肯定能起到正向作用。主流 world model 大致有兩種形態。第一類在像素空間預測未來，通過預測未來幀來理解物理規律和事件演化，視頻生成模型就可以視為這一類，具身領域知名的如 World Labs 的 Marble 即屬此類。

第二類是 LeCun 提出的 JEPA 路線，不在像素空間預測，因為其中干擾和噪聲太多，而是在隱空間預測特征的演化。兩種路線都已獲得資本的大額押注。world model 對操作之所以有用，在于以往基于簡單視覺基礎模型描述觀測，只能整合當前和歷史信息；而在 world model 范式下預訓練的基礎模型，有可能融入對未來信息的感知，觀測表達能力更強。學術界已有工作證明這一方向有效。此外，world model 在具身領域未來必然走向多模態集成，力覺等模態都將被納入，最終有可能發展為多模態大模型的終極方案。

隋偉：彭老師在 world model 方向深耕多年，您認為它對具身會有哪些幫助？

彭君然：目前資本投入最大、落地最好的是大模型 Agent。以頭部大模型訓練代碼能力為例，他們早已超越 SFT 階段，同時起 5000 個 Docker 節點，每個節點做數百輪對話，在 post-training RL 階段對是否報錯、是否通過單元測試、顯存和效率等分別給予 reward。類比到 world model：最前沿的方案就是把 world model 作為 reward 來源，在 post-training 階段為 VLA 提供評估信號，思路與語言模型訓練 code Agent 高度相似。

從這個角度出發，world model 最關鍵的作用是充當評估器和 reward 來源。涉及兩件事：VLA 輸入多模態信息、輸出 action；world model 根據 action 預測未來的 observation，再對不同 observation 的好壞做出評價，將評價反饋回來。我比較認同的定義是：world model 就是從 action 到 observation 的預測，加上對 observation 給出評價的能力。

隋偉：從空間智能角度看，無論是 VA 還是 VLA，它們所依賴的視覺輸入，目前是否本身就“先天不足”？比如，模型是否只看到了物體的“樣子”（RGB），而看不到對物理交互至關重要的“材質”（摩擦力、反射率）和“功能”？

彭君然：我認為確實需要更多信息，但不代表必須包含材質標注，材質其實可以從視覺中獲取。我們為游戲公司做 AIGC 時發現，建模師給資產賦予材質完全靠視覺認知，《荒野大鏢客》的高度逼真材質正是這樣實現的。閉上一只眼睛看眼前的環境，你也能分辨混凝土、光滑木頭和粗糙木頭。因此摩擦力等信息，純視覺是可以獲取的。

但力覺依然關鍵。很多情況下不同力作用下的觀測結果可能完全相同，只有到達臨界點時視覺才會出現微小變化，一旦力再加大、觀測產生顯著變化，往往已經無法挽回。對安全性要求高或涉及特殊操作的場景，單靠視覺是不夠的。

何泳澔：單純做 next frame 預測，能否讓模型學到物理規律影響下的運動行為？我感覺有一派認為純從視頻就能搞定物理問題，但這套方式歸根結底是統計學習，必然有處理不了的情況。

彭君然：確實有局限性，畢竟不是數值解。但關鍵問題在于：在非數值解的條件下，是否足以為 VLA 提供合適的 reward？這是另一個層面的問題。

李元慶：流形嵌入理論有一個核心觀點：運動細節在采集的數據里根本沒有被模擬到，大量視頻只有杯子靜置和碎裂兩個狀態，中間物理動態變化的過程完全缺失。我以前做 GPU 時，compute shader 基于物理引擎做圖形擬合，效果看起來像那么一回事，但實際上不是。物理引擎如今應用相當廣泛，為什么在視頻生成里反而跑得更快？這里面還有些問題沒有厘清。

何泳澔：我有一個直覺：既然已有成熟的物理引擎，以數學公式的方式顯式地納入了物理規律，那么如何將它與 world model 結合，讓模型在統一的物理規律下實現泛化？

隋偉：物理引擎是規則化的方式，world model 還是希望通過 learning 來學習更復雜的物理規律。

何泳澔：對，這正是兩類 world model 的區別：一類執著于在像素空間完美還原；LeCun 的思路是認為這沒有意義，直接在 latent space 預測，從而直達最關鍵的信息，其中也有可能包含物理規律。能否真正做到還需要觀察，他們已有相關論文，結果看上去比較 promising。

數據之卡

隋偉：元慶老師，您把“數據極度稀缺”列為第二大痛點。但您也提到 Agent 能實現“反饋層：數據閉環優化”。能不能具體解釋一下，一個設計良好的 Agent，是如何在真實物理交互的過程中，自動采集、篩選、并利用數據來優化自身，從而部分緩解“數據饑渴”的？

李元慶：OpenVLA 很典型，它把數據和操作流程做成了閉環并實現無限迭代。我們做 VLA 時用到過 HIL-SERL 算法：先由人工示教 20 到 30 條數據，基于 reward 構建 RL 緩沖區，再用 RLPD 策略訓練。目前已有團隊將這一思路作為重點方向，真機可靠性也有了顯著提升，但目前數據量肯定還是不夠的。

此前業界猜測具身基礎模型約在 14B 左右，需要百萬小時量級的視頻數據。但我現在感覺，如果能找到與自身高度匹配的開放數據集，合理構建數據配比，解決策略比以前便宜很多了。

自閉環、OpenVLA 架構、RLPD，這三種方式或許能在這個階段更新很多模型公司的數據獲取方式。

隋偉：那真機強化學習在實際場景中具有可行性嗎？

李元慶：以前覺得讓 VLA 插 USB 極其困難，但 SERL 做到了，這是工程事實。不過從黑盒角度看，強化學習這條路的上限相對有限。我當年走 MPC，一直卡在 reward 難以收斂的問題上。但大模型具備世界常識，如果能讓 reward 基于世界常識定義并快速迭代，以前很多走不通的路或許能再走一走。

隋偉：用 world model 給 reward，是提供量化數據來指導訓練嗎？

李元慶：以前的 reward 就是定義一套固定的 constraints 和 rules，不停地往里 overfit。如果能引入 world model，reward 就可以在訓練過程中持續迭代優化，把 overfit 到具體指標的問題轉變為趨勢性引導，很多以前丟失精度的地方也許可以再提回來。

隋偉：何博，您提出“軌跡數據標準化”來降低模型訓練震蕩。這個思路很有意思，有點像給數據“消毒”。能不能透露一下，這個“標準化”處理，是會損失一些數據的多樣性，還是能去蕪存菁？

何泳澔：背景是這樣的：遙操作采集數據時，操作者控制主臂帶動從臂，采集到的軌跡不可避免地含有噪聲，比如停頓、無意義片段、手部抖動導致的不平滑軌跡。

不同操作者習慣不同，軌跡差異更大。VLA 和 VA 的策略預測大多基于擴散模型或 flow matching，強行擬合含噪數據，模型也會把噪聲學進去。我們的思路是：對所有采集軌跡進行處理，使其干凈且流暢度一致，讓后續策略學習更簡單高效。

第一階段目標是在末端軌跡層面，讓運動學與動力學特征高度一致。具體做法是構造相關項建立 cost function 優化軌跡，剔除質量較差的點，只保留優質軌跡點訓練，本質是一個采樣過程。相比均勻采樣，這種方式在我們的實驗中精度提升了 20 個百分點。這是數據預處理流程，不修改模型本身，訓練前先過一遍算法再訓練。結果非常正向，接下來會在更復雜情況下推進。

這么多年做機器學習，我一直認為保證數據質量是第一位的，模型反而是第二位的。

隋偉：彭老師，您的研究涉及“生成”路徑。未來有沒有可能，我們不再需要辛苦采集真實數據，而是像 Sora 生成視頻那樣，直接“生成”一個機器人完成裝配任務的完整軌跡數據，而且自帶物理標注？

彭君然：大概率是這個方向。從 scalability 角度看，訓練語言模型的數據量比具身多出 5 到 6 個數量級，現有數據量遠遠不夠。目前數據來源主要有三種：實采、仿真引擎生成或三維重建導入仿真、從視頻或世界模型中獲取。即便雇 400 人不間斷地實采，泛化性依然有限，因為無法在不侵犯隱私的前提下進入真實家庭采集，業界普遍認為 scale up 還是要靠視頻生成模型或世界模型。但生成數據是否需要物理標注是個難點，世界模型是用純視頻訓練的，很難獲取力學標注，而真實操作場景中力的反饋至關重要。

我們的探索方向是：不把力的絕對大小作為標注，而是把力的梯度，即力發生階躍時的變化量，作為物理標注。力發生臨界性劇變時，視覺上也會有顯著變化，兩者可以互相映射。

隋偉：生成式數據與真實數據之間的 gap 能彌補嗎？

彭君然：三種方式各有局限：UE/PCG 生成存在 sim-to-real gap；重建方式物理交互真實性難以保證；生成模型是最有希望的路線。即便存在偏差，就像近似解把級數展開的小項丟掉，當數據量足夠大時主成分被保留，誤差被攤薄，整體效果依然可期。

隋偉：從空間智能角度看，最重要的數據因子是什么？

彭君然：取決于具體任務，穿針引線、拆箱、擦拭等必須依賴力覺，有些任務則不需要，但視覺加力覺基本就夠了。

隋偉：既然數據這么貴、這么難，那有沒有一種可能：我們先不追求“數據驅動”，而是用“模型驅動”，把物理規律、常識知識先編碼進模型，讓它更“聰明”地學習，從而大幅降低數據需求？這條路可行嗎？

何泳澔：目前看來沒有成熟方案，我認為最終還是會回歸數據驅動。

李元慶：我認為這件事其實已經在用了，FSD 就是典型，高精地圖和車道線本質上就是把先驗知識注入進去。算法層面：GAN 通過對抗降低數據需求；PPO 中 critic 和 actor 將 constraints 和 rule-based 內容注入其中。更典型的是 WBC 加 MPC，WBC 將物理約束通過 teacher policy 形式注入，大幅降低數據需求，加快模型收斂。這條路一定可行，因為已經有人做出了結果。

隋偉：也就是說，learning 方法負責突破上限，規則和先驗知識負責兜底。

李元慶：數學建模和數值分析的積累不應被拋棄。模型具備數學能力，一個重要原因是代碼中以數學模型的方式內嵌了大量物理規律和常識，這些東西一直在以這種方式被灌入。

隋偉：如果規則足夠明確，就可以優先利用，沒必要訓一個有隨機性的模型來回答 1+1=2。

彭君然：模型要做出決策，必須先把觀測空間變成可計算的空間，這個轉換本身就存在大量簡化。很多場景可以抽象為矢量空間，物理規律和常識在其中非常容易 apply。但像插 U 盤這類精細操作，難以抽象出足夠好的矢量空間，物理知識也就無法直接機械套用。這不是可不可行的問題，而是需求、方案與任務難度之間整體匹配的問題。

物理交互之卡

隋偉：彭老師，您演講題目是“空間智能初探：重建與生成的雙路徑實踐”。您能給大家簡單介紹一下“重建”和“生成”這兩種技術路線的差別嗎？

彭君然：我的報告涵蓋重建、生成和世界模型三條路線，視角偏工業導向，核心是什么事能給工業界帶來價值。從需求出發：重建的目標在我的視角下并不是為了訓練。許多 ToB 場景需要做 POC，但工廠產線不能停，可能只有深夜兩個小時可以進場，效率極低。如果能用數字孿生方式對場景進行 1:1 重建，團隊就可以在任何時間、任何地點并發地完成 90% 的 POC 工作，大幅提升效率。

生成的價值則在于：重建是對現實的復刻，若需要對場景進行編輯或產生多樣化變化，就需要生成出成千上萬的測試場景來驗證方法的魯棒性。我們還有另一類生成方案，用大語言模型驅動 UE 或 Blender 生成海量場景，這些引擎的物理仿真和 URDF 導入做得相當好。

第三條路線世界模型，才是追求 scale up 的終極目標。走過大模型這條路，我們始終擔心押注前兩條路而錯過第三條路的決定性突破，所以三條路線都在同步布局。

隋偉：復刻現有場景，生成能產生多樣化內容，世界模型能生成更豐富的信息嗎？

彭君然：對。前兩種方式無法借力大語言模型或視頻生成模型的成功，只有第三種可以，所以第三種前景更大。

隋偉：何博，在您的工業操作實踐中，您覺得當前機器人對物理世界最“無知”的地方是什么？是不知道東西有多重（動力學），還是不知道表面有多滑（摩擦系數），還是不知道一碰就倒（穩定性）？

何泳澔：這幾類信息都缺，沒有哪個是最缺的。從工程實踐來看，力覺在工業落地中是必須存在的模態，可以分成不同層級：粗粒度只關注關節力矩，更高精度則加裝六維力傳感，進一步細化則在末端加裝觸覺傳感，目前已有分辨率相當高的方案可用。

我們的做法是按這個步驟逐步引入更復雜的力覺模態，但每種模態的數據形式和結構各不相同，直接影響數據采集的方式和難度。

隋偉：也就是引入更多模態，代價是采集效率降低、成本提高。

何泳澔：對，但核心問題是：必須用新的模態來突破現有方案成功率的天花板。單一視覺模態已有明顯瓶頸，必須引入力覺才能突破。

隋偉：不過視覺的上限可能比想象中高得多，FSD 純視覺的上限能接近視覺加激光雷達的水平。算法和數據能力足夠強，純視覺也是可行路。

何泳澔：純視覺之所以可行，是因為如果能通過純視覺還原場景所有細節，就相當于擁有了上帝視角。但難度極高，所以才需要引入更多模態來代償。

隋偉：一個能實際用于 Agent 決策的 World Model，和學術界追求的“完美預測下一個畫面”的世界模型，最大的不同在哪里？工業場景需要的 World Model，到底應該“模”什么？

何泳澔：先有雞還是先有蛋的問題：你希望 world model 能預測出好的未來，前提是已經在這個場景用大量數據訓練過它。既然已經能獲取那么多數據，為什么不直接用來訓練原本的任務？

李元慶：我的感受是：有了更好的刀，才能有更好的尺；有了更好的尺，又能磨出更好的刀。兩者不相悖，而是螺旋上升的關系。

彭君然：VLA 訓練需要帶 action 標注的機器人數據，量相對有限；world model 的訓練來源是 web 視頻，量要大得多，兩者用的不是同一個數據集。前提假設是 web 視頻或視覺信息足以提供有效的 reward 信號，方案是基于這個前提設計的。

系統落地之卡

隋偉：元慶老師，從您的經驗看，現在想用具身智能改造產線的企業，他們最容易低估的“隱形成本” 是什么？是部署調試時算法工程師的大量駐場時間，還是為了讓環境適應機器人而做的改造費用，或者是后期數據維護和模型迭代的持續投入？

李元慶：你提到的那幾項都是顯性成本，更值得關注的是企業主的決策成本。因為信息不準確或不全面做出錯誤決策，后續一連串投入全部變成巨額成本。而且每一個決策都會成為人力、資本和代碼開發的杠桿，杠桿一旦形成，費用極其高昂。

大家看到的具身智能似乎已經很穩定，但真正落地時會發現還有很多問題沒解決，而能講實話、做出準確評估的人很難找到。決策成本的根源正是信息不對稱、不全面和不準確，最前期就已經在產生非常高昂的成本了。

隋偉：要評估成本，就得衡量機器人進入場景能帶來多大價值。具身技術在工業場景下能做到什么程度？相對于傳統工業自動化的優勢在哪里？

何泳澔：在絕大多數場景下，具身方案目前比不過工業自動化；在部分高價值、高難度的場景，兩者都做不了，仍然需要人工。中間存在一個 gap，高度定制化的工業自動化能覆蓋，但成本很高；具身也有可能覆蓋，優勢在于能將某些環節沉淀為通用能力，在通用性與定制化之間找到平衡點，這是具身可能發揮價值的地方。但現階段不應該一股腦上具身，很多具身公司在做的事情，明顯有更低成本的自動化替代方案。

隋偉：也就是說具身的價值在于解決傳統自動化做不了的柔性或長程任務，最適合的技術才是最好的。

何泳澔：具身具備邊際成本遞減的能力，完全定制的工業自動化在這方面比較難。

隋偉：彭老師，您在學校里培養學生，如果目標是去產業界解決這些“工程煉獄”問題，您會重點教他們什么？學校教育和產業需求之間的“最后一公里”卡在哪？

彭君然：最需要解決的不是最后一公里，是第一公里，甚至是第一米。在 AI 日益普及的今天，最關鍵的能力是盡早學會認知價值、預判未來、做出合理決策，其他一切在這件事面前都是徒勞。

展望未來

隋偉：何博，對于正在做機器人操作算法的工程師，您最想建議他們“不要在什么地方浪費時間”？

何泳澔：不要把技能棧鎖定在某一個點上，建議全棧了解：從控制機械臂，到 VA/VLA 模型訓練、部署，再到整體方案設計。這些東西沒有想象中那么難，把經典代碼實操一遍基本就能掌握。全棧了解能建立全局視角，之后再形成自己的價值判斷，深入最有前景的方向，最好還能參與一個實際的工業項目。

隋偉：元慶老師，未來 2-3 年，在 Agent 架構層面，您認為最有可能取得突破、從而打通一個關鍵卡點的技術方向是什么？

李元慶：Perception 落地趨勢越來越明顯，多模態對齊和 reasoning 的標注策略也越來越清晰。但 action 仍是最核心的卡點——Mobility（navigation 和 locomotion）和 manipulation，我們對真實物理世界物體交互的探索還有很多未完全探知之處。

隋偉：對于正在選擇研究方向的研究生，未來五年，具身智能領域最值得深耕的學術方向是什么？

彭君然：這個粒度太難預測了，而且也不一定非是具身智能。隨著年紀增長，我越來越覺得要跟著國家政策走，多看看下一個五年計劃，還是能發現新機遇的。

隋偉：請每位嘉賓用一句話預測：具身智能在工業場景的“iPhone 時刻”（即規模化復制的引爆點），最有可能因為什么事件或技術突破而到來？

何泳澔：如果一臺具身機器人能在某個工位上持續完成任務一個月，它就真正具備了長期商業落地的價值。

李元慶：我覺得 teleoperation 是真實可行的方向，機器人足夠魯棒、硬件足夠便宜、時延問題基本解決，就可以讓不同時區的工人承擔三班倒的工作。teleoperation 落地，就意味著商業閉環和數據閉環同步實現，就像 L2 無人駕駛一樣。

彭君然：ToB 業務的本質是經濟賬，iPhone 時刻其實并不恰當。補貼退去之后，如果經濟賬仍然輸給工業自動化，那就需要重新思考了。

何泳澔：那就是諾基亞時刻了。

嘉賓介紹

主持人：

隋偉博士 / 地瓜機器人算法副總裁

2011 年，他于北京航空航天大學探測制導與控制技術專業畢業，之后進入中科院自動化研究所深造，并取得博士學位，其研究方向為模式識別與智能系統。2016 年 7 月博士畢業后，擔任模式識別國家重點實驗室助理研究員，負責 3D 視覺感知方向的研發工作。

2019 年 1 月隋偉博士加入地平線，任高級算法工程師，主要負責機器人和自動駕駛場景下，基于旭日和征程系列芯片的 2.5D 及 3D 視覺算法研發。2020 年 12 月 - 2023 年 12 月，任研發總監，帶領團隊（30 人）成功開發了地平線高階自動駕駛 BEV 感知方案，并且搭建了國內首套最為完備且先進的 4D Label 標注系統。目前旭日系列芯片出貨量已達數百萬片，BEV 感知方案也已在多個車型上定點量產，為自動駕駛領域的發展做出了重要貢獻。隋偉博士在 ICRA、IROS、CVPR、TIP、TVCG 等國內外知名期刊和會議上先后發表學術論文 20 余篇，擁有專利 40 多項。此外，他長期擔任 ICRA、IROS 等機器人會議的審稿人，同時擔任《智能駕駛和機器視覺》《智能駕駛與多維重建》等自動駕駛相關著作的主編。

2023 年 11 月至今任地瓜機器人算法 VP ，負責面向消費機器人和具身智能的軟件算法方案研發。

嘉賓：

何泳澔博士 / 地瓜機器人具身智能負責人

何泳澔，中國科學院自動化研究所模式識別與人工智能專業博士。現任地瓜機器人具身智能負責人，長期深耕計算機視覺、多模態學習，自動駕駛，具身智能前沿領域。

曾任中科院自動化所助理研究員。在產業化方面，作為銀河水滴科技技術聯合創始人及中科慧遠首席 AI 科學家，主導了步態識別、工業表面缺陷檢測等多項核心技術的算法研發與商業化落地。在機器人領域，曾負責地平線自動駕駛 BEV 感知架構設計，現聚焦于端側 AI 芯片配套算法及具身智能感知決策系統的研發。學術影響力方面，在相關領域發表學術論文近 20 篇，獲授權專利 10 余項。其開源算法在 GitHub 獲得約 2000 Stars，并運營有萬粉級 AI 技術自媒體。兼具扎實的學術研究基礎與豐富的工業界大規模落地經驗。

李元慶樂享科技 / CTO

現任樂享科技 CTO。前華為云，具身智能具身規劃負責人、ROBO_AGENT 負責人、2024 具身智能 KEYNOTE 技術負責人，負責盤古大模型具身智能規劃、Multi AGENT 執行系統、多模態大模型會戰、多模態具身規劃大模型等。

彭君然博士 / 北京科技大學副教授

本科畢業于清華自動化系，博士畢業于中科院自動化所，長期圍繞空間理解與構建開展研究，在該領域發表論文 30 余篇，其中作為一作和通訊作者在 IEEE T-PAMI、IJCV、CVPR、NeurIPS、ICLR、ECCV 等頂級期刊和會議發表論文 20 余篇，主導代表性工作包括 CityGaussian，SceneX，GAIA 等。研究成果在面向國家公共安全需求的智慧城市建設和面向經濟民生需求的具身智能領域若干場景落地，包括華為、騰訊、航天科工等，對智慧城市建設和具身無人系統構建具有重要意義。

會議推薦

OpenClaw 出圈，“養蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態實踐」專題，將聚焦一線實踐與踩坑復盤，分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.