網易首頁 > 網易號 > 正文申請入駐

打通視頻生成與機器人世界模型！BridgeV2W讓機器人學會預演未來

2026-02-25 16:06:04　來源: 機器之心Pro

河北舉報

分享至

機器人如何 "腦補" 未來？

想象一下，你面前擺著一杯咖啡，你伸手去拿，在你的手真正觸碰到杯子之前，你的大腦已經在 "腦補" 了整個過程：手臂將如何移動、杯子會是什么觸感、抬起后桌面的樣子…… 這種對未來場景的想象和預測能力，正是人類操控世界的核心認知基石。

那么，能否賦予機器人同樣的 “預演能力”，先在 “腦海” 中模擬動作后果，再付諸執(zhí)行？這就是具身世界模型要做的事情：讓機器人在行動前，就能 “看見” 未來。近年來，借助大規(guī)模視頻生成模型（如 Sora、Wan 等）強大的視覺先驗，這一方向取得了令人矚目的進展。

然而，一個尷尬的問題始終懸而未決：視頻生成模型的世界由像素編織而成，而機器人的語言卻是關節(jié)角度與位姿坐標，它們使用完全不同的 “表征語言” 描述同一個物理世界。

為了解決上述問題，具身智能公司中科第五紀聯(lián)合中科院自動化所團隊推出BridgeV2W，它通過一個極為優(yōu)雅的設計，具身掩碼（Embodiment Mask），一種由機器人動作渲染出的 “動作剪影”，將坐標空間的動作無縫映射到像素空間，從而真正打通預訓練視頻生成模型與世界模型之間的橋梁，讓機器人學會可靠地 “預演未來”。

論文標題：BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
論文鏈接：https://arxiv.org/pdf/2602.03793
項目鏈接：https://bridgev2w.github.io/

困境：三座大山擋住了機器人的 "預演能力"

盡管前景廣闊，當前的具身世界模型仍面臨三大核心挑戰(zhàn)：

1.動作與畫面 “語言不通”。機器人動作是關節(jié)角、末端位姿等坐標數(shù)值，而視頻生成模型只 “看” 像素。直接拼接動作向量效果有限，往往缺乏空間對齊的 “硬連接”，模型難以理解。

2.視角一變，世界就 “崩”。同一動作在不同視角下外觀迥異。現(xiàn)有方法在訓練視角上尚可，一旦換視角，預測質量驟降，而真實場景中，相機位置幾乎不可能復現(xiàn)訓練設置。

3.換一個機器人就得 “從零開始”。單臂、雙臂、移動底盤…… 結構千差萬別。現(xiàn)有方法往往需為每種機器人定制架構，難以構建統(tǒng)一的世界模型。

核心創(chuàng)新：僅憑 "動作剪影"，一舉破解三大難題

BridgeV2W的核心洞察極其直覺：既然鴻溝源于 “坐標 vs 像素”，那就把動作直接 “畫” 進畫面里！

它提出具身掩碼：利用機器人的 URDF 模型和相機參數(shù)，將動作序列實時渲染為每幀圖像上的二值 “動作剪影”，精準標出機器人在畫面中的位置與姿態(tài)。

這一設計，一舉破解前述三大難題：

動作 - 像素對齊：掩碼是天然的像素級信號，與視頻模型輸入空間完全匹配，無需模型 “猜” 坐標的含義。
視角自適應：掩碼隨當前相機視角動態(tài)生成，動作與畫面始終對齊，模型因此天然泛化到任意新視角。
跨具身通用：只要提供 URDF，單臂、雙臂機器人都能用同一套框架生成對應掩碼，無需修改模型結構。

技術上，BridgeV2W 采用 ControlNet 式的旁路注入，將掩碼作為條件信號融入預訓練視頻生成模型，在保留其強大視覺先驗的同時，賦予其理解機器人動作的能力。此外，為防止模型 “偷懶”（只復現(xiàn)靜態(tài)背景），還引入光流驅動的運動損失，引導其聚焦于任務相關的動態(tài)區(qū)域。

實驗結果：多場景、多機器人、多視角的全面驗證

研究團隊在多個設置下系統(tǒng)驗證了 BridgeV2W 的能力，涵蓋不同機器人平臺、不同操作場景、未見視角和下游任務應用。

DROID 數(shù)據集：大規(guī)模單臂操作

DROID 是目前最大規(guī)模的真實世界機器人操作數(shù)據集之一，數(shù)據采集跨越多個實驗室和環(huán)境。BridgeV2W 在該數(shù)據集上的表現(xiàn)尤為亮眼，在 PSNR、SSIM、LPIPS 等核心指標上超越 SOTA 方法。

尤其在 “未見視角” 測試中，對比方法常出現(xiàn)畫面崩塌、肢體錯位，而 BridgeV2W 依然生成物理合理、視覺連貫的未來視頻，充分驗證了其視角魯棒性。在 “未見場景”（全新桌面布局、背景）下，泛化能力同樣出色。

AgiBot-G1 數(shù)據集：雙臂人形機器人

AgiBot-G1 是一個完全不同的雙臂平臺，自由度與運動模式與 DROID 截然不同。

關鍵結果：無需修改模型架構，僅替換 URDF 并重新渲染掩碼，BridgeV2W 就能無縫適配，并取得媲美單臂的預測質量，這是邁向通用具身世界模型的重要一步。

下游任務應用：從 "想象" 到 "行動"

BridgeV2W 不僅僅是一個 "能生成好看視頻" 的模型，研究團隊進一步在真實世界的下游任務中驗證了其實用價值：

策略評估：在世界模型中 “試跑” 不同策略，無需真實機器人反復試錯。實驗顯示，BridgeV2W 的評估結果與真實成功率高度相關，大幅降低策略迭代成本。

目標圖像操作規(guī)劃：給定一張目標圖像（如 “把杯子放到盤子上”），BridgeV2W 能在 “想象空間” 中搜索出可行動作序列，實現(xiàn)從視覺目標到物理動作的閉環(huán)規(guī)劃。

關鍵亮點：海量無標注人類視頻，全都能用！

你可能會問：具身掩碼不是需要 URDF 和相機參數(shù)嗎？沒有這些幾何信息的數(shù)據怎么辦？

BridgeV2W 的巧妙之處在于：

推理時需輕量幾何信息（URDF + 相機參數(shù)）渲染 “計算掩碼”，用于精準控制；
訓練時卻無需任何標定：只需分割模型（如 SAM）提取的 “分割掩碼”，即可提供有效監(jiān)督。

團隊將 AgiBot-G1 機器人數(shù)據與無標定的 Ego4D FHO（第一人稱手部操作視頻）混合訓練，僅用 SAM 提取的手部掩碼，就實現(xiàn)了驚人效果：

僅用分割掩碼訓練，模型仍能學到合理的運動規(guī)律；
加入大量 Ego4D 視頻 + 少量機器人標定數(shù)據，性能幾乎媲美全量標定訓練。

這說明：人類視頻蘊含豐富的動作先驗，只需少量機器人數(shù)據，就能完成 “具身對齊”。

一句話總結：訓練靠 “野生” 視頻擴規(guī)模，部署靠輕量幾何保精度：BridgeV2W 兼得可擴展性與準確性。

BridgeV2W 揭示了一條極具前景的技術路線：

視頻生成模型 + 具身掩碼 = 可擴展的機器人世界模型

這條路線有三個關鍵優(yōu)勢值得深思：

1. 數(shù)據飛輪真正啟動：互聯(lián)網視頻規(guī)模遠超機器人數(shù)據數(shù)個數(shù)量級。BridgeV2W 無需幾何先驗即可利用人類視頻，為構建 “機器人數(shù)據飛輪” 邁出關鍵一步。

2. 技術紅利自動繼承：視頻生成領域正高速迭代（Sora、Wan、CogVideoX……）。BridgeV2W 的架構使其能自然受益于底座模型升級，底座越強，“預演” 越真。

3. 通用智能的堅實基石：從單臂到雙臂，從已知場景到未知視角，BridgeV2W 展現(xiàn)出的跨平臺、跨場景、跨視角泛化能力，是邁向通用具身智能的重要里程碑。

總結與展望

BridgeV2W 通過 “具身掩碼” 這一簡潔而優(yōu)雅的中間表征，成功架起了從大規(guī)模視頻生成模型到實用具身世界模型的橋梁。它不僅解決了動作 - 像素對齊、視角魯棒性、跨具身通用性三大核心挑戰(zhàn)，更關鍵的是：訓練無需 URDF 或相機標定，可直接利用海量無標注人類視頻，為世界模型的規(guī)模化訓練開辟了全新路徑。

目前展現(xiàn)的能力，或許只是冰山一角。

試想未來：當視頻生成底座從十億參數(shù)邁向千億，當訓練數(shù)據從數(shù)千小時機器人視頻擴展到百萬小時人類操作視頻，當具身掩碼從機械臂延伸至全身人形、乃至多機協(xié)作，機器人的 “預演能力” 將迎來怎樣的飛躍？

正如 DreamZero 等工作預示的 “機器人 GPT 時刻”，BridgeV2W 從另一個維度證明：

讓機器人借助視頻生成模型 “預演” 自身行動的后果 —— 這條路，不僅走得通，而且可以走得很遠。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.