網易首頁 > 網易號 > 正文申請入駐

732M模型超越7B！機器人操控新范式：從視頻中「悟」物理

2026-03-27 21:37:19　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】機器人操控的「數據困境」一直是行業痛點：要讓機器人學會精細操作，傳統方法需要大量人工標注的動作演示數據，成本高昂、周期漫長。這個瓶頸能否被突破？

大型視頻生成模型在海量視頻上訓練，已經隱式地學會了物理世界的運行規律：物體如何運動、力如何傳遞、空間關系如何演化。

這些知識與機器人操控所需的物理直覺高度一致。

關鍵問題是：能否把這些視頻模型已經掌握的物理先驗，轉移到機器人控制上？

中山大學王廣潤教授給出了一個創新答案：不靠海量動作數據，直接從視頻生成模型中「借」物理直覺。從PAR（物理自回歸模型）到其進階版本PhysGen（從預訓練視頻模型中學習物理），兩項工作一脈相承，共享同一套「物理自回歸」核心框架，并與英偉達今年2月發布的DreamDojo在核心思路上高度重合——當兩條獨立探索的路線收斂到同一個方向，這或許意味著某種底層規律正在被揭示。

PAR論文鏈接：https://arxiv.org/abs/2508.09822

項目主頁：https://hcplab-sysu.github.io/PhysicalAutoregressiveModel

論文發表時間：2025年8月13日

PhysGen論文鏈接：https://arxiv.org/abs/2603.00110

論文發表時間：2026年2月18日

傳統方法把「看環境」和「做動作」分成兩個任務。

PAR反其道而行之：把視頻幀和機器人動作編碼成同一種「物理token」，讓模型在同一個自回歸過程中，既預測「世界接下來會變成什么樣」，也同步輸出「機器人該做什么動作」，這與人類「眼手協調」的直覺高度吻合。

這樣做的好處是：動作不再是孤立的指令序列，而是與環境演化深度綁定的聯合預測。

圖1：物理token自回歸的運作方式：預測未來的幀與動作聯合體，與真實環境同步演化

三個技術要點

連續表示，不離散化：幀與動作都用連續向量表達，避免離散量化帶來的精度損失
隱式逆運動學：通過特殊的因果掩碼設計，讓模型在「看到未來畫面」后再決定當前動作
高效推理：借鑒LLM的KV-Cache技術，實現實時控制

效果如何？

在ManiSkill基準測試中：

PushCube任務達到100%成功率
總體平均成功率74%，居所有方法第二，僅次于需要大規模動作預訓練的RDT（84%）
在PickCube與StackCube任務上，同樣超過或接近需要動作預訓練的強基準方法
額外引入參數僅30M

圖2：ManiSkill基準成功率對比（零動作預訓練，媲美SOTA）

PhysGen

對物理自回歸路線的深化

PhysGen在2026年2月公開發布，是PAR路線的延續。它完整保留了PAR的核心架構（物理token、連續表示、因果掩碼），并在此基礎上做了三處關鍵改進。

三項升級

① 前瞻規劃（Lookahead-MTP）讓模型每次預測時「多看幾步」——同時預測未來3個token，訓練時全監督，推理時只執行第一個。這相當于給機器人配了「短期規劃能力」。

② 高效訓練（LoRA微調）用參數高效的方式微調大模型，訓練成本大幅降低——單張A100顯卡，60小時內完成訓練。

③ 真實世界驗證不止在仿真環境，PhysGen在Franka Panda真實機械臂上完成了四項任務測試，包括抓取透明物體這種高難度場景。

效果有多強？

LIBERO仿真基準：

圖3：732M參數、在零大規模動作預訓練的前提下，Physgen取得平均90.8%成功率

真實世界任務：

圖4：真實機器人實驗性能對比

在最考驗物理感知的透明物體抓取任務中，PhysGen反超了需要大規模預訓練的π0模型——這說明從視頻學到的物理直覺，在處理「視覺欺騙性強」的場景時更有優勢。

與英偉達DreamDojo的深度同源

今年2月，英偉達發布了DreamDojo——一個基于大規模視頻訓練的通用機器人世界模型。對比PAR/PhysGen與DreamDojo，會發現兩條路線在核心技術理念上驚人一致。

兩個系統的本質目標完全一致：預測未來的「物理量」——也就是未來的動作和視頻的聯合體。

這個設計背后的哲學是：機器人操控不是「先看畫面，再決定動作」的串行過程，而是「世界如何演化」與「機器人如何行動」的聯合預測問題。動作和視頻不是兩個獨立變量，而是物理世界演化的共同結果。

架構共識：自回歸建模

在如何預測這個「未來物理量」的問題上，兩個系統不約而同地選擇了自回歸架構。

為什么是自回歸？因為物理世界的演化是序列性、因果性的——當前時刻的狀態決定下一時刻的狀態，下一時刻又影響再下一時刻。自回歸模型天然契合這種「逐步展開」的物理過程。

表示共識：連續空間建模

在如何表達「物理量」的問題上，兩個系統都選擇了連續表示，而非離散化。

這是一個關鍵決策：物理世界本質上是連續的（位置、速度、力都是連續量），離散化會引入量化誤差，這些誤差在長時序預測中會累積放大。連續表示則能保持物理量的原生精度。

訓練共識：零動作預訓練

兩個系統都驗證了同一個重要結論：不需要大規模機器人動作數據預訓練，就能實現強大的操控能力。

這背后的邏輯是：視頻數據本身已經包含了豐富的物理先驗（物體運動規律、力學關系、空間推理），這些先驗可以直接遷移到機器人控制任務上。

時間線印證

中大團隊的PAR在2025年8月公開，PhysGen在2026年3月公開，DreamDojo在2026年2月發布。

三者獨立推進，卻在四個核心決策上同步收斂：

① 預測目標：未來動作+視頻聯合體（物理量）② 架構選擇：自回歸逐步展開（契合物理因果）③ 表示方法：連續空間建模（避免量化誤差）④ 訓練范式：零動作預訓練（視頻物理先驗遷移）

這不是偶然的相似，而是對同一底層規律的共同發現。

其中最核心的洞察是：

世界模型不是為了「看起來好」，而是為了「指導動作」

這是PAR/PhysGen與傳統視頻生成模型的根本區別。

傳統視頻生成模型（如Sora、Runway）追求的是視覺保真度——生成的視頻要「看起來真實」、「美觀流暢」。

但對于機器人操控而言，世界模型的根本目的不是生成一段視覺上美觀的未來視頻，而是希望生成的未來視頻能對下一步的物理動作起到實質性的前瞻與指導作用。

核心哲學總結

對世界模型的理解，可以歸結為一句話：

世界模型的價值不在于生成「好看的視頻」，而在于生成「對動作有指導意義的物理預測」。視頻只是物理演化的可視化載體，真正重要的是其中蘊含的物理因果關系——這些因果關系決定了「做什么動作會導致什么結果」，而這正是機器人決策的核心依據。

這也是為什么PhysGen能用732M參數超越7B級模型——它沒有把算力浪費在「讓視頻更美」上，而是專注于「讓物理預測更準」。

從PAR到PhysGen，正在驗證一條清晰的技術路線：把機器人操控問題重新定義為「預測未來物理量」——未來的動作和視頻聯合體，并用自回歸模型在連續空間中逐步展開這個預測過程。

更重要的是，明確了世界模型的根本目的：不是生成視覺上美觀的未來視頻，而是生成對下一步物理動作有實質指導作用的物理預測。這個理念體現在物理token聯合建模、因果掩碼逆運動學、前瞻多步規劃、真實世界物理挑戰驗證等一系列設計中，并通過732M參數超越7B級模型的效率，以及透明物體抓取超越π0的效果，得到了實踐檢驗。

而英偉達DreamDojo在預測目標、架構選擇、表示方法、訓練范式四個核心決策上的同步跟進，則從另一個側面印證了這一方向的潛力。

作者介紹

王廣潤系國家海外高層次青年人才基金及華為戰略人才基金獲得者，中山大學計算機學院青年研究員、博士生導師，拓元智慧首席科學家。華為「天才少年計劃」最高級別入選者；曾赴英國牛津大學擔任Research Fellow，師從英國皇家科學院院士、皇家工程院院士 Philip H.S. Torr 教授。

主要從事新一代AI架構、大物理模型與世界模型、多模態生成式AI方向研究。獲吳文俊人工智能優秀博士論文獎（全國僅9人）、《Pattern Recognition》全球當年唯一最佳論文、全球AI華人新星榜（當年機器學習領域全球僅25人）；擔任多個CCF A類會議領域主席；在多項國際競賽中獲得金牌；研究成果被圖靈獎得主Yann LeCun引用。

參考資料：

https://arxiv.org/abs/2603.00110

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.