網易首頁 > 網易號 > 正文申請入駐

跨維智能DexWorldModel斬獲榜首，世界模型考場在機器人執行里

2026-04-21 08:11:59　來源: 量子位

北京舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

VLA與世界模型：一次被行業自己推著走的范式遷移

今年4月，具身智能領域發生了一件看起來不大、但意味深長的事。

Generalist AI——也就是PaLM-E、RT-2背后那批人創辦的明星公司——發布了GEN-1，并在三個核心維度上做出了跨越式提升：

成功率超過99%，速度提升2–3倍，數據量和微調成本只需上一代的1/10。

幾乎就在同一周，其CEO Pete Florence發表了一篇博客文章，明確表示：他們不再把自己的模型歸類為VLA

這件事之所以值得被認真對待，是因為Pete Florence本人就是VLA概念的共同開創者之一

Florence在文中把理由說得很直白：

“世界模型”正在迎來屬于它的高光時刻；而在2023到2025年間，風頭正勁的是VLA。
追逐熱點和潮流，本就是學術研究的常態。但如果你的目標是物理AGI，那么目標遠比你手里“工具的標簽”更重要。

更關鍵的是，他點破了一個行業長期回避的事實：把“視覺-語言”訓練引入機器人，很大程度上是因為機器人自己的交互數據還不夠多，所以VLM只是一根過渡期的“拐杖”。

一旦物理交互數據規模起來，這根拐杖就該被拿掉，而不是繼續圍著它做架構設計。

我們需要圍繞一個更樸素的問題做系統級回答：

當超越VLA之后，下一代具身模型應該長什么樣，才能真正支撐機器人在真實世界中持續、穩定、可擴展地跑起來？

這是一個很重要的立場區分，也是所有從業者需要以“返璞歸真”的思維方式，重新思考的問題。

當下，在具身智能領域，VLA和世界模型都是非常主流的技術路線。

今天不少被冠以“世界模型”之名的工作，其實屬于視頻生成范式——在RGB像素或低層視覺隱空間里擬合未來幀，本質上還是在回答“下一幀是否符合真實視頻的視覺邏輯”，而不是“世界進入了什么對行動有意義的狀態”。

這類模型在視頻benchmarks上的指標也許很好看，但一旦接入真實機器人任務，立刻暴露出四類系統性瓶頸：

表示瓶頸：在像素空間建模，模型被迫把容量消耗在紋理、光照、背景這些與任務弱相關的信息上；
記憶瓶頸：因果自回歸 + KV Cache的組合，空間復雜度隨軌跡長度線性增長，長時任務越跑越重，難以穩定落地；
推理瓶頸：感知→推理→執行嚴格串行，部署端延遲高，閉環頻率就天然上不去，機器人“走走停?！保?/li>
數據瓶頸：模型依賴固定的離線數據集訓練，缺少持續、新鮮、物理可信的信息流，難以飛速進化。

這四件事如果不被一起解決，“世界模型”這個詞在機器人的世界里很難落地。

評價標準的重新審視：很多世界模型榜單，和機器人任務其實沒多大關系

范式切換之后，下一個更隱蔽、但同樣關鍵的問題是：

世界模型到底該怎么評價？

今天被頻繁引用的，大多是面向視頻生成的那一類榜單——考察未來幀的畫質、FVD、時序一致性、文本-視頻對齊。

這些指標對“生成式視頻模型”是合理的，但放到具身語境下，評價對象就開始和目標錯位。

這出自同行論文的實證結論。2026年2月，清華等機構聯合發布的WorldArena基準，在14個代表性世界模型（涵蓋Veo 3.1、Wan 2.6、CogVideoX、Cosmos-Predict、Genie Envisioner、CtrlWorld等）上，系統測量了視覺質量與下游具身任務能力的關系，給出的結論相當直接：

High visual quality does not necessarily translate into strong embodied task capability.（高視覺質量并不一定能轉化為強大的具身任務能力。）

支撐這一結論的，是一組很硬的數字。

論文構造的綜合視覺質量指標EWMScore，與人類主觀打分的相關性高達Pearson r =0.825，但與作為動作規劃器的任務成功率之間，相關性只有r =0.360——典型的弱相關區間。

更耐人尋味的是，這一論文還觀察到：視覺和美學分最高的Veo 3.1，在具身任務指標上反而“improvements are limited”（提升有限），并伴隨明顯的semantic drift（語義偏移）。

畫得最像真的，恰恰最不懂交互。

這件事的本質，是評價對象錯位了：

生成式世界模型問的是：“未來畫面是否看著像一個合理的視頻？”
具身世界模型更應該追問的是：“這個未來，能不能被機器人執行，并最終把任務做成？”

這兩件事之間的差距，比表面上看起來大得多。

一個模型完全可能生成極其逼真的未來視頻，卻在真實機器人上因為幾何不準、動力學不穩、時序漂移而直接失敗；反過來，一個視覺上并不驚艷的模型，卻可能在真機上拿到更高的成功率。

所以跨維智能的立場很明確：

具身世界模型的唯一合理指標，是下游機器人任務的成功率。

在這個意義上，RoboTwin這類以機器人任務成功率為核心評價維度的榜單，才是具身世界模型真正應該被打分的地方。

它考察的不是“你生成得好不好看”，而是“你能不能讓機器人在一系列多樣化任務中穩定跑通”。

DexWorldModel的所有設計選擇、所有評估方式，都是圍繞這一點展開的。

DexWorldModel的技術棧：四層協同，把世界模型推向真機可閉環

DexWorldModel在系統上做的事情，可以簡化成一條總線：

因果潛空間世界模型(CLWM)+ 雙狀態測試時記憶(Dual-State TTT Memory)+ 推測式異步推理(SAI)+ 具身數據鏈與在線數據流(EmbodiChain / ODS)

（下載鏈接：https://dexforce.com/docs/DexWorldModel.pdf）

這四塊不是四個獨立模塊，而是圍繞“真機閉環部署”這一條主線，從表示、記憶、推理到數據供給做出的協同升級，分別回應前面提到的四類瓶頸。

01表示層：為什么“像素重建”會成為世界模型泛化的隱性敵人

很多世界模型會直接在像素空間、或偏低層的視覺隱空間里預測未來。

這種路徑在研究上是成立的，但在真實機器人任務里，模型會被大量與任務無關的紋理、光照、背景細節拖走容量。

對機器人來說，真正關鍵的不是下一幀畫面看起來是否逼真，而是世界是否進入了一個可操作、可交互、可執行下一步動作的狀態

CLWM把生成目標切換到語義特征：

同時在兩階段Flow Matching框架下，把“預測未來語義”和“生成動作”顯式拆開：

先預測未來潛語義
再在條件下生成動作塊

視頻分支與動作分支共享MoT(Mixture-of-Transformers)主干，只在輸入輸出投影和Flow Matching時步嵌入上獨立參數化，使“世界未來推演”與“動作生成”在同一套時序動力學上對齊。

這一步從根本上改變了世界模型回答的問題：

不再是“下一幀好不好看”，而是“世界是否進入了一個對下一步行動有意義的狀態”

它也讓模型更容易跨越背景、材質與視覺噪聲帶來的干擾，是后續魯棒泛化與sim-to-real的基礎之一（當模型用大量仿真數據訓練）。

02記憶層：長時任務不再被不斷膨脹的歷史緩存拖住

傳統自回歸世界模型（如DreamZero等）依賴KV Cache記錄歷史，空間復雜度O(T)，軌跡一長，顯存占用就線性膨脹。

短回合評測中這一點不突出；但一到連續、多步、長時的真實操作，它很快就會變成系統瓶頸。

CLWM用TTT-MLP把歷史觀測和歷史動作壓縮進記憶模塊權重里，并進一步設計了雙狀態機制：

Long-Term Memory：只用真實觀測和已執行動作更新，錨定真實因果歷史；
Working Memory：從Long-Term Memory fork出來，在當前預測步驟里作為臨時上下文；
Flow Matching去噪過程中Working Memory凍結，去噪完成后才更新。

這套機制最重要的不是“換個緩存實現”，而是把真實歷史與推測歷史嚴格隔離——避免speculative future反向污染真實因果鏈，同時把長時序的內存占用壓到常數量級O(1)。

部署含義也很直接：系統在持續運行中不再越積越重，長時操作因此才有機會真正走向穩定部署。

03推理層：SAI提出預去噪概念，將一半推理時間藏在動作執行過程里

即使模型本身更強，只要“感知 → 推理 → 執行”仍然串行，真機閉環頻率就永遠被阻塞延遲卡住。

世界模型真正有價值的一點，在于它能對未來做推演；但如果這種前瞻能力只停留在“模型內部想到了未來”，卻沒有改變機器人系統的運行節奏，那它離部署價值就仍然差一層。

SAI（Speculative Asynchronous Inference）就是在這一層把模型的前瞻能力真正兌換成系統時間：

機械臂執行當前動作時，GPU不空轉；
用上一輪預測得到的作為surrogate condition，后臺先完成下一階段未來語義與動作的前半段pre-denoising；
真實觀測到達后，快速更新Long-Term Memory，再完成后半段精細denoising。

在RoboTwin仿真環境下，端到端阻塞延遲下降約50%

這背后的變化很關鍵：傳統流程里，機器人執行和模型推理是前后串行的；在DexWorldModel里，這兩件事開始被深度重疊。

世界模型帶來的不只是“更會預測”，還包括“更少等待”“更高閉環頻率”

對真實機器人來說，這種變化往往比單純提升幾個離線指標更重要。

04數據層：EmbodiChain把數據效率變成系統能力

世界模型能否真正“長大”，取決于它能否持續接觸到足夠新鮮、足夠多樣、足夠物理可信的經驗。

而這恰恰是具身智能與純互聯網數據范式最不同的地方：機器人數據獲取成本高、生產慢，很多訓練過程仍然受限于有限的靜態數據集。

△Efficiency Law：損失值隨生成速率變化的關系

機器人基礎模型的瓶頸，很多時候并不在網絡結構，而在“高質量交互數據的吞吐率”上。

EmbodiChain（項目主頁：https://dexforce.com/embodichain/index.html）把數據生產到訓練更新做成了一條在線閉環：

物理一致的資產與場景快速生成；
Reachability-aware軌跡采樣，提升功能層面的多樣性；
失敗恢復軌跡回流訓練，補齊錯誤狀態下的監督信號；
ODS（Online Data Streaming）：流式注入新的批量數據，替代靜態數據集的反復訓練。

論文中的消融實驗也印證了這一點——當在線數據流中新鮮經驗的吞吐更高、單條軌跡被重復使用的次數更低時，任務成功率顯著提升。

所以EmbodiChain并不是DexWorldModel旁邊的一套“外圍數據工具”，它是DexWorldModel能夠不斷逼近真實世界能力邊界的經驗引擎

結果：RoboTwin量化指標第一

前面提過，具身世界模型真正該被評價的地方，是機器人任務成功率。

所以這回我們把結果直接放在RoboTwin這類真正相關的榜單上看。

在仿真環境RoboTwin上，DexWorldModel取得了94.00%的平均成功率，超過多項已有基線。

系統效率方面，兩條結果尤其關鍵：Dual-State TTT Memory在長時任務中維持常數內存占用，SAI將部署blocking latency降低約50%。

更值得關注的是Sim2Real這一環。

DexWorldModel在四個真實機器人任務上報告了零樣本sim-to-real結果：

模型僅在simulation中訓練，就取得了優于π0、GR00T N1.5與Sim2Real-VLA的表現，而其中部分基線還使用了真實示范做微調。

這組結果有幾點值得強調：

第一，它不是單點刷榜，而是系統性結果。

CLWM解決表示，TTT解決記憶，SAI解決推理節奏，EmbodiChain解決經驗供給，四層收益疊在同一條曲線上。

第二，EmbodiChain不是“可選加持”，而是直接參與了上限提升。

消融實驗里，把ODS從流程里拿掉，成功率會肉眼可見地下滑。

這進一步印證了“經驗流的持續性本身就是一種系統能力”。

第三，Sim2Real的Zero-Shot是最有說服力的一格。

僅僅在仿真里訓練，在真實機器人上直接跑通四個任務，且超過了部分用了真機示范微調的強基線，這才是“具身世界模型是否走得通”的真正分水嶺。

這當然還不是終點，也不意味著世界模型已經跨過了所有落地門檻。

但它至少說明了一件事：

當世界模型開始圍繞語義狀態、長時記憶、部署節奏、經驗供給這幾個關鍵問題被系統性地重做之后，從概念走向部署的距離，確實可以被一步一步拉近。

開源EmbodiChain：把Scaling Law推回具身智能的正確變量上

如果說DexWorldModel是模型側的答卷，那么EmbodiChain則是跨維智能希望交給整個行業的基礎設施。

過去兩年，Scaling Law在具身智能里常常被引用。

但機器人世界真正稀缺的，從來不是參數，也不是存量數據，而是持續、物理可信、可交互的數據流

在這個變量上，整個領域目前仍然是欠供給的。

這也是我們選擇把EmbodiChain作為仿真數據基建對外開源的原因。

它不是一個一次性的數據集發布，而是一整套可被社區復用、擴展、共建的經驗生產鏈路：資產生成、場景布局、reachability-aware采樣、失敗恢復、視覺域擴展、Online Data Streaming，都以模塊化的方式開放出來。

跨維智能希望這件事能幫助行業，把注意力從“模型更大”拉回到“數據基建更持續、更新鮮、更物理可信”這條真正決定具身智能scaling斜率的主軸上。

開源不是終點，而是讓這條曲線更陡的方式。

跨維智能期待更多同行一起把這套基建用起來，也把它共同推向更完整的形態。

結語

如果要用一句話總結，跨維智能在這一階段想講的事情，它其實不只是“發布了一個世界模型”，而是：

世界模型的勝負手，不在視頻生成得是否逼真，而在機器人能不能穩定地把事情做成。

當VLA的開創者自己都決定拋棄VLA——剩下的問題只有一個：

誰能先把具身模型這條路，從概念拉到真機。

DexWorldModel做的是在表示、記憶、推理、數據引擎四層同時發力，把Sim2Real的最后幾段鴻溝一步步壓??；EmbodiChain做的是讓這件事可以持續發生

接下來，跨維智能會沿著“真機榜單”這條更難、但更有意義的路繼續走下去。

DexWorldModel背后的意義，從來不只是世界模型本身，而是跨維選擇直面那些真正決定落地的系統問題——

今天離真實部署最近的阻礙到底是什么，哪些問題值得優先解決，哪些系統能力必須先搭出來。

它沒有宣稱世界模型已經走完了通向現實世界的路，但它確實把其中幾段最關鍵的間隙拉小了。

這也是跨維智能一貫的態度，不和概念賽跑，和真實世界賽跑。

項目主頁：
https://dexforce.com/embodichain/index.html

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.