![]()
機器之心發布
- 論文地址:
- https://www.techrxiv.org/doi/full/10.36227/techrxiv.176153394.41323502
- 開源主頁:
- https://dexforce.com/embodichain/index.html#/
- 代碼倉庫:
- https://github.com/DexForce/EmbodiChain
- 技術文檔:
- https://dexforce.github.io/EmbodiChain/introduction.html
大語言模型的爆發,讓大家見證了 Scaling Law 的威力:只要數據夠多、算力夠猛,智能似乎就會自動涌現。但在機器人領域,這個公式似乎失效了。
- 在 LLM 時代,數據是「存量」,我們只需要負責「清洗」;
- 在具身智能時代,數據必須是「增量」,我們必須具備「創造」數據的能力。
不同于互聯網上唾手可得的萬億級文本,機器人所需的、經過 3D 標定且符合物理規律的高質量交互數據,極度稀缺且昂貴。正因如此,數據采集范式成為了近年來行業研究的絕對焦點。
可以看到,整個行業正在向著更低成本、更便捷的方向全速推進:從昂貴的遙操設備,到基于動捕手套的靈巧手捕捉和更加便攜式的夾爪方案,再到如今甚至不再需要佩戴手套、僅憑雙手演示即可采集數據的創新方案。這些輕量化的數采范式正在將人類的經驗數字化,這一路徑不僅充滿價值,更值得持續深耕,它是連接人類技能與機器人動作的橋梁。
整個行業在將具身智能推向大模型時代的這個目標上狂奔。
但是,即使是最極致的采集效率,客觀上仍受限于物理時間的流逝和人力成本的邊界。當下沒有任何現有的物理采集范式,能匹配 LLM 訓練所需的「互聯網級」規模。這成為了具身智能邁向更高階智能的最大桎梏。
效率定律
![]()
![]()
效率定律 (Efficiency Law) 下模型性能與數據生成速率的關系
要跨越這個鴻溝,除了物理采集的持續精進,另一種極具潛力的解決方式,就是構建一個能夠超高速、自動化生成物理現實的數字世界(跨維智能團隊在《GS-World》中詳述了這一路徑)。
![]()
在這個基于物理引擎的生成式世界中,數據的生成速率超越了時間的限制(Efficiency Law);機器人可以在零成本的試錯中習得對物理因果的深刻理解;所有的邊緣情況(Corner Cases)都可以在這里被模擬、被攻克。
GS-World 與 EmbodiChain
今天,跨維智能正式開源 EmbodiChain。作為通往GS-World(基于生成式仿真的世界模型)的基石,EmbodiChain 不僅僅是一個數據和模型平臺,更是一次對具身智能學習范式的重構。
跨維團隊提出并驗證一個大膽的假設:僅憑 100% 的生成式仿真數據,只要生成速率(Rate of Generation)突破臨界點,機器人就能在真實世界中涌現出超越 SOTA 的泛化能力。
這不是科幻,這就是跨維正在驗證的效率定律(Efficiency Law)。
然而,要將 GS-World 從藍圖變為現實,絕非易事。跨維研究團隊必須面對并攻克三個核心科學難題,這也是 EmbodiChain 致力于解決的關鍵:
- 如何實現數據生產自動化?
- 真實世界極其復雜,如何僅憑少量先驗(如一段視頻、一句描述),就在數字世界中自動重建、生成海量且物理一致的場景與任務,而無需人工手動搭建?
- 如何打破「虛實鴻溝」(Sim2Real Gap)?
- 仿真數據再多,如果不能遷移到真機也是徒勞。如何在不依賴或盡量少依賴真實數據微調的情況下,讓模型習得適應真實世界噪聲與動態變化的魯棒策略?
- 如何突破數據生成的「IO 墻」?
- Scaling 需要億級甚至十億級的交互步數。傳統的「生成 - 存儲 - 讀取 - 訓練」模式效率極低。如何構建極致高效的數據流轉機制,實現「在線數據流」?
EmbodiChain:一條永不停歇的「在線數據流和模型生產線」
為了實現這一愿景,跨維智能構建了GS-World(Generative Simulation World Model,生成式仿真世界模型)的核心基石 ——EmbodiChain。
EmbodiChain 作為一個底層的基建技術,可以把它看作去存儲化的數字化流水線。Scaling 需要億級甚至十億級的交互步數,傳統的「生成 - 存儲 - 讀取 - 訓練」模式在面對海量 3D 數據時,存儲與傳輸將成為不可承受之重。
在 EmbodiChain 的架構中,可以徹底拋棄「先存硬盤、再讀硬盤」的陳舊范式,取而代之的是在線數據流(Online Data Streaming)和模型自動生產線。
![]()
EmbodiChain 的核心工作流。數據在生成的同時即被消費,橘色的數據流貫穿全場,無需落地存儲。
這條流水線是如何工作的?
- 世界生成(Generative Simulation):引擎不僅是環境,更是造物主。Real2Sim 模塊從極少的真實樣本中提取物理先驗,Gen2Sim 模塊則響應語言指令,自動構建出符合牛頓力學等物理規律的 3D 場景與資產。
- 數據擴增(Data Scaling):數據不僅要多,還要「難」。系統自動進行視覺增強、物理參數隨機化,并剔除那些機器人「夠不著」的無效采樣。
- 自我修復(Closed-loop Recovery):真正的智能來自于從錯誤中學習。當仿真中的機器人抓取失敗,系統會自動生成修正軌跡。這種「失敗 - 修正」的閉環,比單純的成功演示更有價值。
這一切都在 GPU 內部并行高速運轉,數據如洪流般產生,訓練完即銷毀,不留下一絲冗余,只留下模型能力的增長。
路線之爭:機器人需要的是物理精確的生成式模型
在通往具身智能世界模型的路上,目前存在兩條截然不同的路線。
一條是近期火熱的視頻生成路線(Video World Model),如 Sora 或 LTX-Video,它們試圖通過「畫出」下一幀來模擬世界。雖然視覺效果驚艷,但一些對比實驗揭示了其致命弱點:幻覺。
視頻模型生成的畫面往往缺乏長程的時空一致性,且很難精確遵循動力學方程。用這種「做夢」產生的數據訓練機器人,就像讓一個飛行員在愛麗絲的仙境中學習開飛機 —— 看著很美,一上真機就墜毀。
相反,EmbodiChain 選擇的是GS-World 路線(基于生成式仿真的世界模型)。
- 物理先驗(Physical Priors):跨維智能堅持世界模型必須是 3D 的、交互式的、物理嚴謹的。
- 特權信息(Privileged Information):在 EmbodiChain 中,使用者擁有上帝視角。比如使用者能夠獲取物體的精確掩碼、空間關系和可供性(Affordance)。通過訓練模型預測這些真實世界中不可見的「特權信息」,迫使模型理解了場景背后的幾何本質,而不僅僅是表面的像素。
這正是 Yann LeCun 所倡導的理念:世界模型應該是對世界狀態的預測與規劃。
![]()
EmbodiChain中可以獲取的特權信息示例
零真實數據,VLA 真的可行嗎?
為了驗證這套「效率定律」,跨維智能做了一件極端的測試:不使用任何真實數據訓練模型。
跨維智能訓練出的 Sim2Real-VLA 模型,在真實世界中執行任務。結果令人驚訝:
- 遠超基線:在沒有任何真實數據微調的情況下,它在操作成功率上大幅領先 ACT、Diffusion Policy 等主流方法。
- 無懼干擾:即使跨維智能像「搗亂者」一樣更換桌布、移動物體、改變光照,模型依然穩如泰山。甚至在某些任務中,由于去除了真實數據中容易過擬合的背景噪聲,模型的表現反而比用真實數據訓練還要好。
![]()
![]()
Sim2Real-VLA 在全生成數據訓練下,不僅擊敗了 SOTA,更展現了驚人的魯棒性。
愿景:通往 GS-World 的「效率奇點」
EmbodiChain 的開源,只是一個開始。
GS-World 藍圖遠不止于此。在跨維智能的規劃中,這是一個引擎驅動的閉環路徑(Engine-driven Loop):
- 不僅環境是生成的,任務也是生成的;
- 不僅策略是進化的,機器人的身體結構(Morphology)也會隨著任務需求協同進化。
跨維智能希望 EmbodiChain 能成為每一位具身智能研究者的基礎設施。不需要再為了幾千條數據而在實驗室里沒日沒夜地遙操作,不需要再為幾十 TB 的硬盤存儲發愁。
因為智能的未來,不應該被困在數據的匱乏中。
EmbodiChain 現已開源,邀請你一起見證具身智能的「效率奇點」。
文中視頻鏈接:https://mp.weixin.qq.com/s/IGe1myOEmAW7JOrQyBLhBA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.