金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
國產開源具身世界模型,直接秒了Pi-0.5,而且還是幾位清華碩、博士研究生領銜推出的。
![]()
這就是由生數科技聯合清華大學,正式開源的大一統世界模型——Motus。
項目主要負責人,是來自清華大學計算機系朱軍教授TSAIL實驗室的二年級碩士生畢弘喆和三年級博士生譚恒楷。
之所以說是大一統,是因為Motus在架構上,直接把VLA(視覺-語言-動作)、世界模型、視頻生成、逆動力學、視頻-動作聯合預測這五種具身智能范式,首次實現了“看-想-動”的完美閉環。
而且在50項通用任務的測試中,Motus的絕對成功率比國際頂尖的Pi-0.5提升了35%以上,最高提升幅度甚至達到了40%!
在Motus的加持之下,現在的機器人已經具備了預測未來的能力。
瞧,Cloudflare人機驗證任務,機器人可以輕松拿捏:
![]()
視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA
從視頻中不難看出,面對形狀不規則的曲面鼠標,Motus控制的機械臂不僅能精準識別,還能根據鼠標與屏幕點擊框的距離,平穩連續地移動,最后極度精準地完成點擊。
再如長程多步推理的孔明棋任務,Motus同樣展現出了嚴密的邏輯閉環,一步步解開棋局:
![]()
視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA
再來看一個堪稱是機器人噩夢的任務——疊衣服:
![]()
視頻地址:https://mp.weixin.qq.com/s/yiS0_RKr9DkTEzPx01NDAA
衣服這種柔性物體的形變是過程中持續不斷發生的,但在Motus手下,整個過程絲滑順暢,就像有了人類的觸覺和預判一樣。
可以說,Motus的出現,率先在具身智能領域發現了Scaling Law,直接復刻了當年GPT-2被定義為“無監督多任務學習者”的奇跡。
很多CTO、創始人們看完之后直呼“妙哉”:
- 這是互聯網視頻學習與現實世界機器人之間的巧妙橋梁。
- Motus的Latent Action范式太妙了。統一的VLA架構消除了機器人學中的模型碎片化,這才是真正的突破。
- 將感知、預測和行動統一在智能體內部確實是實質性的進展。
![]()
包括此前大火的英偉達Cosmos policy、DreamZero這些工作,被認為是顛覆了VLA的范式,轉向WA(World Action Models)或VA(Vision Action)范式;但其核心思想與Motus相近,大同小異。
目前,Motus的代碼、模型權重已全部開源(鏈接在文末)。
那么接下來,我們就來扒一扒這個大一統世界模型是如何實現的。
一個架構統一了五種范式
在過去,具身智能領域可以說是散裝的。
因為像VLA、世界模型、視頻生成、逆動力學、視頻-動作聯合預測等模型,很難有機地湊成一個整體。
而Motus最大的亮點,在一個框架內把這五種范式全包圓了。
![]()
大一統背后的技術,便是Mixture-of-Transformer(MoT)架構,配合Tri-model Joint Attention(三模態聯合注意力)機制。
簡單來說,通過這種方式,Motus相當于把三個專家攢到了一起:
- 理解專家(大腦):基于Qwen-VL,負責看懂環境和指令;
- 視頻生成專家(想象力):基于Wan 2.2,負責推演未來畫面;
- 動作專家(小腦):負責具體的運動控制。
通過Tri-model Joint Attention,這三位專家可以在同一個注意力層里實時交換信息。
這就賦予了機器人一種很像人類的能力:不僅能看見(感知),還能在腦海里想象動作發生后的未來畫面(預測),從而反過來倒推現在該做什么動作(決策)。
這正是我們剛才提到的“看—想—動”閉環。
但要訓練這樣一個全能模型,光在模型框架層面下功夫還是不夠的——數據,也是一個老大難的問題。
因為機器人真機數據太貴、太少,而互聯網上雖然有海量的視頻,卻只有畫面,沒有動作標簽(Action Label)。
為了解決這個問題,Motus采取的策略便是潛動作(Latent Action)。
![]()
研究團隊利用光流技術(Optical Flow),捕捉視頻里像素級的運動軌跡,然后提出了一種Delta Action機制,將這些像素的變化翻譯成機器人的動作趨勢。
這個思路可以說是比較巧妙,就像是讓機器人看武俠片學功夫。
雖然沒有人手把手教(沒有真機數據標簽),但機器人通過觀察視頻里高手的動作軌跡(光流),看多了自然就懂了招式和發力方向(潛動作)。
![]()
由此,上至昂貴的真機數據,下至浩如煙海的互聯網視頻、人類第一視角視頻(Egocentric Video),Motus全都能吃進去,從中提取通用的物理交互先驗。
除此之外,基于數據金字塔和潛動作,Motus還構建了一套三階段訓練流程,逐步將通用的物理動力學常識“蒸餾”為精確的機器人控制能力:
- 視頻生成預訓練。利用多機器人軌跡和人類操作視頻來微調視頻生成專家,使其能根據條件幀和語言指令生成合理的機器人操作視頻。
- 潛動作預訓練。在凍結VLM的情況下,用視頻、語言和潛動作同時預訓練三個專家,將通用的運動先驗充分地注入Motus中。
- 特定本體微調。利用目標機器人的真機數據對Motus進行整體微調,將模型適應到特定場景下的下游任務,例如RoboTwin仿真和真機機械臂抓取。
![]()
Scaling Law在物理世界跑通了
研究的實驗結果表明:Scaling Law在物理世界里,真的跑通了。
在仿真榜單RoboTwin 2.0上,在50個通用任務中,Motus的平均成功率達到了88%:
![]()
特別是在高難度的Stack Bowls Three(疊三個碗) 任務中,稍微一點誤差就會導致碗塔倒塌。此前的基線模型在這個任務上的成功率不到16%,可以說是“帕金森級手抖”。
而Motus的成功率直接飆升至95%!
但比單點成績更讓人驚艷的,是下面這張Scaling Curves(擴展曲線)。


△上圖為數據量Scaling,下圖為任務數量Scaling。紅色為Motus,藍色為Pi-0.5
隨著訓練任務數量的增加(橫軸),藍色的線(Pi-0.5)呈現下降趨勢。這意味著傳統的模型架構在面對多任務時,容易發生過擬合,學了新的忘了舊的。
而紅色的線(Motus)則是一路持續上升。
這證明了:只要模型架構足夠統一、數據來源足夠雜,具身智能完全可以像LLM一樣,涌現出跨任務的通用泛化能力。
這也正是GPT-2當年帶給NLP領域的震撼——Language Models are Unsupervised Multitask Learners。現在,Motus在具身智能領域復刻了這一奇跡。
在真機測試中,無論是AC-One還是Agilex-Aloha-2機械臂,Motus都表現出了較好的適應性。
![]()
△左:AC-One;右:Agilex-Aloha-2
數據顯示,Motus的數據效率比對手提升了13.55倍。也就是說,達到同樣的水平,Motus只需要別人十幾分之一的數據量。
清華研究生領銜
最后,讓我們把目光投向這個大一統世界模型背后的團隊。
Motus由生數科技聯合清華大學發布,而共同領銜的一作,是兩位非常年輕的清華學生:
- 畢弘喆(Hongzhe Bi):清華大學計算機系TSAIL實驗室二年級碩士生。他的研究方向就是具身智能基礎模型,此前還是CVPR2025 RoboTwin雙臂機器人競賽真機賽冠軍。
- 譚恒楷(Hengkai Tan):清華大學計算機系TSAIL實驗室三年級博士生。主攻視頻世界模型和具身大模型,曾獲NOI銀牌,在RDT、Vidar等多個重要項目中都有他的身影。
此外,團隊成員還包括謝盛昊、王澤遠、黃舒翮、劉海天等,均來自清華TSAIL實驗室(朱軍教授課題組)。
而作為聯合發布方的生數科技,這次開源Motus,也暴露了其在世界模型上的布局。
熟悉生數科技的朋友都知道,他們剛完成新一輪融資,而且一直堅持視頻大模型是通往AGI的核心路徑。
在生數看來,視頻天然承載了真實世界的物理時空、因果邏輯與動態演變。Motus的出現,正是這一戰略的重要拼圖。
它標志著機器人從“機械執行”向“端到端智能”的跨越,也推動了整個行業從單點突破走向統一基座。
產學研協作在這里發揮了巨大的化學反應:生數在多模態大模型上的深厚積累,加上清華團隊的頂尖算法能力,才催生出了Motus這個大一統的世界模型。
Motus于25年12月就全部開源并發布論文,早于行業2個月,而最近火熱的基于視頻模型的具身智能路線,生數科技與清華大學在2025年7月份就已經發表Vidar具身視頻模型,領先于行業半年之久。
目前,Motus已經全量開源。
感興趣的小伙伴可以圍觀一下啦~
論文地址:
https://arxiv.org/abs/2512.13030
項目地址:
https://motus-robotics.github.io/motus
開源倉庫:
https://github.com/thu-ml/Motus
模型權重:
https://huggingface.co/motus-robotics
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.