![]()
編輯|楊文、陳陳
這幾天,世界模型賽道格外熱鬧。
李飛飛空間智能獨角獸 World Labs 高調推出「Spark 2.0」,阿里隨即上線世界模型「快樂生蠔」。
幾乎同一時間,Physical Intelligence 也發布新模型 π 0.7,并強調其對未見任務的初步組合式泛化能力與跨機器人平臺遷移特性。
這一系列動作本身釋放了一個信號,行業競爭的焦點,已經從誰會做單點動作,轉向誰更接近將「預測世界」和「驅動行動」統一在同一個模型里。
在這個節點上,一款名為MotuBrain 的神秘世界模型,悄無聲息地登上兩個國際 benchmark 的榜首,沒有任何公司署名。
如果只是單榜第一,這件事或許并不稀奇。
但問題在于,它同時拿下的,是兩個幾乎代表行業「兩個極點」的榜單:一個是衡量世界模型「是否真正理解和預測現實世界」的 WorldArena;另一個則是衡量機器人任務執行能力與泛化能力的 RoboTwin2.0。一個偏世界預測,一個偏任務執行,加在一起,恰好對應了行業當下最想攻克的那個統一命題。
在 WorldArena 上,MotuBrain 以 63.77 的總體 EWM Score 位居第一,從結果來看,其表現超越了高德的ABot、極佳GigaWorld-1等模型,并在 Motion Quality、Flow Score、Motion Smoothness 等多個關鍵運動維度上全面領跑。
![]()
圖片來源:https://huggingface.co/spaces/WorldArena/WorldArena
而在 RoboTwin2.0 中,MotuBrain 在 Clean 和 Randomized 兩個場景下分別達到 95.8 和 96.1,同樣排名第一,是榜單上唯一一個在隨機環境下平均分超過 95 的模型,在大多數具體任務中也都取得了 100 或接近 100 的成績。相較于高德 ABot、螞蟻靈波 LingBot、JEPA-VLA、pi0.5等模型,MotuBrain 在 RoboTwin 基準測試中具有統治級的表現。
![]()
![]()
正是這種「雙料第一」,才讓我們注意到這款來歷不明的模型。
簡單搜索了一下,目前網上還未找到任何有關 MotuBrain 的信息,不過我們發現了這個本月剛剛注冊的 X 賬號。
![]()
這讓我們想起前段時間被阿里認領的「歡樂馬」(后續也開了 X 賬號)。
這個神秘世界模型,不會也是來自國內哪家大廠吧?
為什么 MotuBrain 的成績值得關注?
WorldArena 和 RoboTwin 并不是兩個同類型的測試,它們測量的是兩種不同的能力。
WorldArena 考察的是world model 維度,包括模型能否理解運動規律,能否對時間序列中的物理變化做出準確的推演和預測,以及是否具備對環境狀態變化的認知能力。這是預測世界的能力。
RoboTwin 則偏向action model 或 policy model 的維度,比方說模型能否在多任務、多環境下穩定執行動作,能否泛化到沒見過的場景,是否具備持續完成復雜操作的能力,而這些是在世界中行動的能力。
不妨做一個類比。人類司機之所以能在復雜路況下安全駕駛,靠的不只是肌肉記憶,更是對下一秒會發生什么的持續預判,比如前車會不會急剎?行人會不會突然橫穿?這種預測與行動的同步進行,是人類智能的底層邏輯。
現有的大多數機器人系統,恰恰缺的就是這一層。它們要么擅長看懂世界卻不知道該怎么動,要么能執行固定動作卻對環境變化毫無預判。兩張皮的結果,是機器人一旦離開訓練場景就容易失控。
過去幾年,這兩個方向各自都有人在做,但往往是割裂的。做視頻生成和世界模型的團隊,關注的是模型能否真實模擬物理世界;做機器人策略和 VLA 的團隊,關注的是如何讓模型在具體任務上執行可靠。真正嘗試把兩者統一起來的工作本就不多,成果穩定的就更少。
MotuBrain 能夠在兩類 benchmark 上同時拿下第一,至少在 benchmark 層面上驗證了一件事,把預測世界和驅動行動統一在同一個模型里,這條路是走得通的。
雙料第一,它究竟贏在哪里?
在 WorldArena 榜單上,MotuBrain 更值得關注的是它在這些維度上的領先。
- Motion Quality 第一,這代表模型生成的動作本身更加真實,而非停留在視覺上看起來像在動的特效層面。
- Flow Score 第一,說明模型對連貫動作和運動軌跡的理解更深,且能夠穩定預測大幅度的動作變化,可以把前一個時刻和后一個時刻絲滑地銜接起來,而不是逐幀拼湊。
- Motion Smoothness 第一,代表生成出來的動作更符合真實的物理規律,不會出現那種不自然的突然加速、抖動或方向跳變。
這三個維度,都和運動直接相關。對于一個未來要服務機器人的世界模型來說,這正是最關鍵的能力。
而在更偏任務執行的 RoboTwin 上,這種優勢被進一步放大。面對 50 個任務、兩種不同環境設置,MotuBrain 的平均得分達到 96.0,顯著高于第二名的 92.3,領先幅度幾乎等同于第二名到第五名之間的差距。
更關鍵的是穩定性。一半任務成功率達到 100%,九成任務超過 90%。這不僅意味著能做對,更意味著在多任務和隨機擾動環境下依然能夠穩定復現結果。
這些成績放在一起看,指向的是一種更接近通用機器人大腦的特征,既能保持動作層面的連續與一致,又具備跨任務的泛化能力。
背后是誰,走的是條什么路子?
目前關于 MotuBrain 的公開信息寥寥無幾,但從這次雙榜的成績結構來看,它背后大概率不是傳統的視頻模型,也不是單純的 VLA 或 policy model。
過去一年,行業內圍繞 world model 和 action model 的探索各自形成了幾條有代表性的路線。
有的強調統一世界模型,通過視覺、語言、視頻與動作的聯合建模,融合視頻模型、VLA、世界模型等等路線,從而實現對真實環境的感知、規劃、預測、執行和跨任務泛化,典型代表是去年 12 月發布的 Motus。
有的更偏向于「先想象、再行動」的路徑,譬如今年一月底發布的 Lingbot-VA 就是先用視頻模型進行未來視頻預測,再反向指導機器人動作決策,兩者融合到一個模型里。
還有一些走的是「同步推演未來狀態 + 生成動作」,邊推演邊行動的 World Action Model,比如英偉達二月初發布的 DreamZero。
從 MotuBrain 這次的表現來看,它可能走了一條偏 World Action Model的路線,兼具 world model 對環境和未來狀態的推演能力,以及 action model 在真實任務中的執行能力。
這也就能解釋它為何能同時在「世界建模」和「動作執行」兩類 benchmark 上問鼎。
結語
如果把一臺機器人拆開來看,可以理解為「手腳」是硬件,而「大腦」是軟件。
過去幾年,機器人硬件的迭代速度有目共睹,運動控制越來越精準,傳感器越來越豐富,成本越來越低。但真正制約機器人大規模落地的,是那顆指揮任務的大腦。
現在的機器人,本質上還是「為特定任務訓練的專用系統」。換一個場景、換一個物體、換一條指令,就可能完全失效。這很大程度上歸因為智能問題。
具身智能的目標,是構建一個統一模型。既能理解物理世界、預測狀態變化,又能據此生成可靠動作,從而適配任意任務與場景。
這個邏輯,資本已經用真金白銀給出了判斷。
觀察最近這幾筆大額融資不難發現,資金正密集涌向那些打造機器人「大腦」的公司。表面投的是機器人,實際上搶占的,可能是下一代「機器人操作系統」或「通用物理大腦」的入口。
如此看來,以 Motubrain 為代表的 world+action 統一架構,恰好站在了這場卡位戰的核心位置。
至于 Motubrain 背后究竟是哪支團隊,接下來又會帶來什么,這個問號大概不會懸太久。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.