網易首頁 > 網易號 > 正文申請入駐

智在無界發布最強具身世界模型，20萬小時人類視頻屠榜6大榜單

2026-04-14 10:11:05　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

「人類視頻，是機器人理解并與物理世界交互的最關鍵路徑。」

這句如今逐漸成為行業共識的判斷，其實最早來自一家國內具身智能初創公司 ——BeingBeyond（智在無界）。

在過去半年中，這家公司完成了「海量人類視頻訓練」的兩個重要里程碑：相繼發布了全球首個基于1000 小時1 萬小時人類視頻預訓練的具身模型 —— Being-H0 與 H0.5，率先開辟了「大規模人類視頻驅動具身學習」的技術路線。

隨后，NVIDIA 的 EgoScale、Generalist AI 的 GEN-1 等海外工作陸續跟進，也從側面印證了這一方向的前瞻性。

作為人類視頻學習路線的開創者，4 月 14 日，智在無界發布第三代旗艦模型 Being-H0.7，該模型將數據規模擴展至20 萬小時人類視頻，并提出一種全新的范式 ——基于潛空間推理的世界模型。在 6 項國際性權威評測中，H0.7 綜合排名全球第一（其中 4 項登頂），同時也是首個覆蓋跨本體、跨場景、連續動態、流體、柔性物體、物理規律與上下文推理等七大關鍵維度的通用世界模型。

主頁鏈接:
https://research.beingbeyond.com/being-h07
論文鏈接:
https://research.beingbeyond.com/projects/being-h07/being-h07.pdf

Past?Present?Future

世界模型的分野

「世界模型（World Model）」最初其實是一個非常樸素的概念：給定當前狀態和動作，預測下一時刻的狀態。

早在 2018 年， Jürgen Schmidhuber 就在其《World Models》中系統闡述了用神經網絡建模動力學的思路。但隨著生成模型的發展，一個逐漸流行的誤解也隨之出現：世界模型 = 預測未來畫面（逐像素生成）。

事實上，無論是 Schmidhuber 的原始設想，還是 Yann LeCun 團隊在 JEPA (Joint Embedding Predictive Architecture），都從未將「像素級預測」視為核心目標。

原因很簡單，真實世界的「狀態」，遠遠不等同于像素。物體之間的空間關系、柔性物體的形變、液體的流動、摩擦與重力的作用…… 這些決定物理世界運行的關鍵因素，并不能通過逐像素的圖像完全表達。世界模型不應執著于復現「畫面會變成什么樣」，而應學會理解「世界為什么會這樣變化」。

從產業角度看，NVIDIA 當前的世界模型工作在一定程度上回歸到視頻生成路線，這與其「算力提供方」的角色天然形成協同，但對具身智能而言，這并非最優路徑。

智在無界認為，一個理想的世界模型應同時具備兩個核心能力：物理世界理解（Physical Understanding）與物理交互（Physical Interaction）。

現有 AI 模型范式在「物理理解–交互」坐標系中的能力分布，Being-H0.7 在海量人類數據驅動下顯著拓展了世界模型的能力邊界。

按照這一標準回看過去幾年的 AI 發展路徑：從 LLM 到 VLM，再到 AIGC 時代的 Sora、Genie 3，這些模型對視覺世界的理解不斷加深，但始終停留在二維感知層面，缺乏與真實物理世界的交互能力。

近幾年，隨著 VLA 路線的興起，π0.5、GR00T、Being-H0.5 等模型通過在視覺語言模型上微調，直接輸出機器人動作。雖然這讓模型具備了執行任務的能力，但也帶來了新的問題：在訓練過程中，多模態理解能力往往被削弱，模型容易過擬合，很多時候是在「背答案」，而非真正基于環境做出判斷。

為彌補這一缺陷，以英偉達 Cosmos-Policy、DreamZero 為代表的世界模型路線，嘗試通過視頻生成來建模交互。但這類方法不僅計算開銷巨大、難以實時運行，而且基于二維視覺表征的方式，本質上仍然難以真正理解物理世界。

在這樣的背景下，LeCun (AMI Labs) 提出，應構建更加基礎的世界模型，以提升對真實世界的理解能力。而智在無界則更進一步，提出基于潛空間推理的全新范式，同時拓展世界模型在「理解」和「交互」兩個維度上的能力。

20 萬小時人類視頻

H0.7 的「通用世界模型基因」

傳統 VLA 模型只能基于當前觀測預測動作，缺乏對未來變化的建模能力；而視頻生成式世界模型則依賴像素級預測來「想象」未來，但不僅難以抽象物理規律，還帶來了巨大的計算負擔。

事實上，人類視覺系統天然會過濾靜態信息、強化對動態變化的感知，大腦中也存在專門處理運動的區域，用于自動抑制背景干擾。基于這一認知，Being-H0.7 不再追求像素級重建，而是試圖學習一種更高效的能力 —— 類似「物理直覺」的快速判斷機制。

因此，Being-H0.7 選擇了一條不同路徑：不再顯式生成未來畫面，而是提煉那些真正影響未來行動的關鍵信息。

不同于 VLA 從當前觀察直接映射到動作，或視頻生成式世界模型引入龐大的預測模塊，Being-H0.7 在模型內部引入了一組可學習的中間變量（latent queries），作為一塊預留的「思考空間」(latent reasoning)。在前向的過程中，模型將當前觀測、任務目標以及對未來可能演化的判斷壓縮至這一空間，并由其統一指導最終的動作生成。

但這一「思考空間」本身并不天然具備對未來的建模能力。為此，Being-H0.7 采用了雙分支設計：一條路徑在「未來可見」的條件下（后驗視角，posterior branch），引導模型學習哪些中間判斷真正有助于動作決策；另一條路徑在「不可見未來」的真實部署條件下（先驗視角，prior branch），約束模型僅基于當前觀測形成盡可能一致的判斷。

不同于一些工作簡單地將未來信息單向注入世界模型，Being-H0.7 在這兩種視角之間建立持續對齊與相互約束：后驗分支提供未來演化的監督信號，先驗分支嚴格受限于真實可觀測信息。通過不斷對齊，模型逐漸學會在「思考空間」中，自適應地根據當前情景，推理對后續行動真正有用的信息。

這種推理能力，本質上接近于人類的「物理直覺」。現實世界中，人類并不會逐幀預測未來畫面，而是快速判斷：物體接下來會朝哪個方向運動？接觸關系會如何變化？施加的力會帶來穩定還是失衡？交互過程會推進目標還是偏離？

人類之所以能夠在很少試錯的情況下掌握這些能力，是因為這種「直覺」早已在長期進化中內化為本能。

相比之下，僅依賴實驗室數據的機器人系統很難獲得這種能力，更難實現泛化。基于這一洞察，智在無界構建了全球少有的 20 萬小時人類視頻數據集，并據此訓練 Being-H0.7，使模型獲得類似「預訓練基因」的能力，從而真正理解并改變物理世界。

在實現上，H0.7 的結構反而相對簡潔：兩路視角通過注意力掩碼（attention mask）共享主干上下文，只在 latent queries 處進行對齊，并共同接受動作監督。未來信息無需解碼為未來圖像，而以緊湊表征參與訓練。相比 Cosmos Policy 這類視頻生成式世界模型，H0.7 的訓練成本不到其 1%。

另外一個強大的優勢則是推理速度的顯著提升，是 Fast-WAM 的 11 倍，是 imagine-then-execute 這類生成式世界模型的 40 倍以上，Being-H0.7是世界上第一個能夠在端側設備上實時穩定部署的世界模型。強大的推理能力賦予了 H0.7 對于外界動態快速的感知能力，能完成如判斷滑落小球軌跡、高速流水線包裝、液體準確傾倒等這些之前 VLA、世界模型都難以勝任的任務。

在評測方面，不同于多數模型只在單一榜單評測，Being-H0.7 在 6 項全球權威評測榜單上綜合排名世界第一，是目前覆蓋范圍最廣的具身世界模型。在跨本體、跨場景、連續動態、流體、柔性物體、物理規律與上下文推理等七大關鍵維度上，Being-H0.7 均展現出領先的物理理解與泛化能力，其能夠完成復雜的多物體協作、長時序規劃與精細物理交互任務。

為直觀地展示 Being-H0.7「思考空間」中所包含的信息，可以進一步將觀測圖像與 Being-H0.7 先驗分支的中間變量共同作為條件，基于視頻模型對任務未來狀態進行可視化預測。

盡管 Being-H0.7 在推理時并不顯式進行像素級未來重建，其隱空間表征中已經蘊含了對未來世界狀態的預測，體現出「隱式具身世界模型」的核心特征。

真機實驗部分，Being-H0.7 借助世界模型架構，展現出了令人驚喜的表現。做到了更精準的空間感知、物理理解和運動推理能力，更具體地講，實現了以下幾種物理世界級的理解和交互能力：

動態軌跡預測：在高速動態場景下，Being-H0.7 借助物理世界知識和快速推理，能夠預測物體軌跡并精準完成物理世界交互；

物理規律理解：Being-H0.7 通過大規模預訓練構建了豐富的世界知識，能夠準確理解流體物理規律并完成復雜任務指令；

運動推理能力：Being-H0.7 具備物理世界下的動力學推理能力，能夠準確推理物體交互后的空間方位并規劃好動作。

基于以上能力，Being-H0.7 能夠完成高速運動物體的追蹤和接取、精細流體控制、柔性物體交互等高挑戰性的任務。

文中視頻鏈接：https://mp.weixin.qq.com/s/4GBE4mjEPHVakZ0sGbuKlg

世界模型的再定義：從 AMI Labs 到 BeingBeyond

Our main goal is to build intelligent systems that understand the real world —— AMI Labs

面對這一愿景，作為開啟「大規模人類視頻驅動具身學習」這一路線的先行者，BeingBeyond 創始人盧宗青表示：

理解世界不夠，必須學會改變世界。物理世界的理解與交互是不可分割的。如果一個模型只學習「世界會變成什么樣」，而不學習「采取什么行動會導致這種變化」，它本質上仍然是一個被動觀察者，容易退化為「缸中之腦」。

因此，不同于 LeCun，智在無界采用的技術路徑是：同時建模狀態變化與動作生成（joint prediction of state and action）。在數據層面，這一設計自然對應于第一人稱人類視頻，它不僅提供視覺觀測，同時也包含了人類動作。這樣的數據可規模化獲取，天然適用于具身學習。因而，我認為，大規模人類視頻是通向具身基礎模型的一條可行路徑，使機器人能夠從人類行為中學習如何理解并作用于物理世界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.