![]()
機器之心發布
近日,全球具身世界模型權威基準評測 WorldArena 正式更新最新榜單。Manifold AI 流形空間研發的世界模型 Worldscape 0.2,憑借其在物理規律遵循與多源交互理解上的突破取得 WorldArena 榜單全球第一,充分展現了國產世界模型在復雜動態場景生成與具身控制中的高精度、強泛化與物理可信度。與其同場競技的包括英偉達、谷歌等國外巨頭和星動紀元、極佳視界等國內具身智能公司。
WorldArena 是首個面向具身世界模型的「功能 + 視覺」統一評測體系,由清華大學、北京大學、香港大學、普林斯頓大學、中科院、上海交通大學、中國科學技術大學、新加坡國立大學等頂尖機構聯合推出。目前已經成為具身世界模型領域的國際權威公開評測標準。
WorldArena 榜單除了視覺質量,評測維度還包含動作質量、內容一致性、物理遵循性、3D 準確性、可控性,充分評估各家模型對物理規律的理解、動作軌跡的精度、多步決策的穩定,這些正是具身大腦最應關注的能力。另外,WorldArena 還包含了世界模型作為數據引擎(Data Engine)、策略評估器(Policy Evaluator)和動作規劃器(Action Planner)等三個下游任務的全面評測,最后將上述客觀評測結合人類主觀評估,計算出高度綜合的 EWMScore 指數。
![]()
WorldScape 0.2 的 WorldArena 登頂并非偏科取勝,而是同時展現出了綜合素質與突出長板。具體表現如下:
- 綜合感知得分穩居榜首:在包含視覺質量、運動質量、內容一致性、可控性等多維度的極其嚴苛的綜合感知評估中,WorldScape 0.2 拿下了綜合第一,而且在各項能力之間取得了完美的平衡,沒有明顯的 “短板效應”,能夠全方位支撐復雜的長程具身任務。
- 物理規律遵循斷層第一:以往的生成模型往往 “重視覺、輕物理”,生成的行為僅僅是看起來合理,卻違背真實世界的物理約束, WorldScape 0.2 拿下了該項指標的最高分且大幅領先。這說明模型真正 “內化” 了重力、摩擦力、碰撞與受力反饋等力學邏輯,其生成的場景不僅 “像”,而且在物理上 “對”,完全具備了作為高可靠物理模擬器指導真實機器人作業的能力。
- 卓越的三維空間理解力:模型在 3D 準確性這一高難度指標上同樣表現出了極高水準,表明 WorldScape 0.2 在處理復雜的機械臂操控、視角切換和物體遮擋時,依然能夠維持極高精度的三維空間幾何結構,避免了傳統視頻模型常見的 “空間扭曲” 或 “二維紙片化” 現象,為多源交互提供了堅實的空間拓撲基礎。
![]()
一個月前,登頂通用世界模型權威榜單 WorldScore
一個月前,國際最權威的通用世界模型評測榜單 WorldScore 迎來更新,Manifold AI 自研模型 WorldScape 0.1 就在 WorldScore 強勢登頂(WorldScore-Static 和 WorldScore-Dynamic 全部兩項指標均排名第一),在全球同臺競技中拿下第一并保持至今。
![]()
在世界模型的全球競逐中,WorldScore 被公認為檢驗通用世界模型基座實力的 “終極試金石”。該基準從各類可控性、生成質量等多類維度,考驗模型在數千個不同場景的生成能力,對模型進行嚴苛的極限測試。面對這一高門檻,Manifold AI 流形空間研發的 WorldScape 0.1 模型強勢突圍,總分穩居全球榜首。與其同場競技的包括李飛飛團隊、MIT、阿里、Runway、智譜、MiniMax、騰訊混元等。
長久以來,世界模型的通病是 “重渲染、輕規律”,生成的視頻看似精美,但在涉及復雜場景的運動、多步控制時,往往破綻百出。而 WorldScape 恰恰在最難攻克的物理和交互指標上,拉開了顯著的領先優勢,從而成功登頂。這意味著,WorldScape 已經成功跨越了 “像不像” 的視覺表象,真正觸及了 “對不對” 的底層物理邏輯。這不僅是一次分數的超越,更是國產世界模型在真實世界執行力上的一次標志性跨越。
![]()
更難能可貴的是,WorldScape 模型參數規模是排名前列其他模型的 10%,展現了該模型全球最佳的空間智能密度和推理實時性。也為落地到物理 AI 的邊緣側提供了技術支撐。
不到一個月再次進化,MoE 開啟世界模型 Scaling Law
近年來,MoE 架構在大語言模型中取得了巨大成功,它使模型能夠以稀疏激活的方式高效吸收海量知識,在同等計算預算下大幅提升語言理解與生成能力。MoE 的底層原理是通過引入多個專精的子網絡與動態門控機制,在每次前向計算中僅激活與輸入最匹配的少數專家,從而在不顯著增加計算成本的前提下將模型參數規模提升數個量級。
將 MoE 拓展至世界模型尤為重要:世界模型需要統一建模物理規律、多模態感知、交互決策等高度異質的場景,而 MoE 可以讓不同專家分別負責視覺動態、移動交互、操作推理等不同子空間或任務模式,并通過門控自適應地整合它們,從而在保持整體參數可擴展性的同時,避免不同知識領域的相互干擾,為實現通用、連貫的世界模擬提供了關鍵的結構化機制。短短不到一個月,WorldScape 從 0.1 進化到 0.2 并再次登頂,其核心驅動力正式來自 MoE,具體來說體現在三個方面:
![]()
1.多專家協同泛化:從統一交互到多專家協同的泛化基座
WorldScape 0.2 突破單一任務邊界,構建支持多源控制信號協同學習的統一架構。在延續基礎空間交互能力的同時,將機械臂精細操控等復雜具身行為納入多專家統一生成范式,實現不同控制模態間的相互賦能與聯合優化。該框架具備原生可擴展性,為邁向 “世界模型驅動的通用智能” 提供可插拔、可泛化的底層技術路徑。
2.統一空間表征:從幾何約束到多源知識融合的元空間建模
WorldScape 0.2 超越單一幾何先驗,將幾何拓撲、語義理解與物理規律等多維異質表征進行結構化對齊,并在統一的隱式元空間中完成跨模態知識融合。這種表征耦合機制使模型在長程交互中不僅能維持空間拓撲穩定,更能實現語義連貫與物理合理的深度一致,從根本上升級了世界結構的生成可信度。
3.多階段持續學習:從視覺保真到物理遵循的范式躍遷
WorldScape 0.2 采用漸進式分階段訓練策略,通過海量世界知識注入與異源控制信號的深度耦合,顯著強化生成內容對真實物理規律的遵循能力。模型不再局限于 “畫面流暢”,而是追求 “運動符合力學邏輯與場景常識”,在全球權威具身基準 WorldArena 中斬獲第一,實現從 “視覺擬真” 向 “物理可信” 的關鍵跨越。
Manifold AI 在多個主流評測模型中的獨占鰲頭表現,以及其模型 scaling 能力的驗證,讓我們相信世界模型的 GPT3 時刻即將到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.