![]()
近日,極佳視界(GigaAI)正式發布全新的「世界-動作模型」(World-Action Model,簡稱 WAM)—— GigaWorld-Policy。這款模型直擊現有具身大模型「推理慢、訓練難」的行業痛點,交出了一份堪稱驚艷的成績單:推理速度飆升 10 倍,訓練效率提升 10 倍,真機任務成功率更是大幅上漲了 30%。GigaWorld-Policy 的發布,不僅全面刷新了主流 WAM 模型的性能上限,更意味著由世界模型驅動的機器人,真正邁入了「高頻實時閉環控制」的落地新紀元。
![]()
- 項目主頁:https://gigaai-research.github.io/GigaWorld-Policy/
- 論文:https://arxiv.org/pdf/2603.17240
- 代碼:https://github.com/open-gigaai/giga-world-policy
![]()
視頻地址:https://mp.weixin.qq.com/s/1TtkZLC-gS4RoH8cyod7Zg?click_id=41
破局跨模態耦合:
「動作為中心」架構讓推理提速 10 倍
傳統的 WAM 架構往往深陷于「視頻預測」的泥潭中:在推理階段需要同時生成未來視覺畫面與動作,這種跨模態的深度耦合帶來了極高的計算延遲。為了打破這一瓶頸,GigaWorld-Policy 另辟蹊徑,創新性地提出了一種「以動作為中心(Action-Centered)」的模型范式。
該架構基于極佳視界輕量級世界模型 GigaWorld-0.5 打造,在底層結構上實現了多模態表征的統一。它將視覺觀測、機器人狀態以及動作序列映射到同一個嵌入空間中,通過單一的 Transformer 主干網絡進行協同建模,徹底消除了傳統多分支架構中的模態割裂感。其最核心亮點在于「訓繁推簡」的混合策略:
- 訓練期「加碼」:模型引入了因果掩碼(Causal Mask)機制,將動作 Token 與未來視覺 Token 進行統一建模。這使得動作預測任務能夠充分享受未來視覺動態帶來的高密度監督信號。
- 推理期「減負」:在實際部署中,模型果斷舍棄了沉重的視頻預測分支,僅保留輕量化的動作生成模塊。
這種「卸下包袱」的設計,從根本上規避了結構性計算冗余。與 Motus、Cosmos Policy 等當前主流模型相比,GigaWorld-Policy 在保證高質量策略輸出的同時,推理速度實現了 10 倍的跨越式提升,其緊湊的多視角拼接表征也大幅降低了顯存占用,為工業級的大規模部署鋪平了道路。
![]()
![]()
視頻地址:https://mp.weixin.qq.com/s/1TtkZLC-gS4RoH8cyod7Zg?click_id=41
壓榨視頻數據價值:
分層訓練法帶來 10 倍效率飛躍
如何用更少的數據、更短的時間訓練出聰明的「具身大腦」?GigaWorld-Policy 給出的答案是三段式高效訓練 Pipeline,將海量視頻數據的價值挖掘到了極致:
- 通用物理世界預訓練:首先,利用海量互聯網視頻數據,讓 GigaWorld-0.5 建立起對通用物理規律和視覺動態的基礎認知。
- 具身場景沉浸式微調:隨后,引入數千小時涵蓋第一人稱、真機及仿真的多源操作視頻。在這一階段,模型專攻「具身交互」場景,掌握特定空間下的時空演變規律。
- 極小樣本的動作對齊:最后,在擁有強大「世界觀」的基礎上,僅需極少量的真機動作標簽數據進行訓練,即可將預訓練世界模型與機器人的動作預測精準對齊,快速打通「觀測 - 動作 - 未來視覺」的因果映射。
這種「基礎能力大規模預訓練 + 任務適配小樣本微調」的分層范式,相較傳統 VLA 訓練方案,實現了整體訓練效率 10 倍提升。
![]()
真機實測霸榜:
成功率絕對值暴漲 30%
拋開理論數據,真機實操才是檢驗具身智能的唯一標準。在涵蓋了抓取、裝配、物品整理等多種典型機器人任務的嚴苛評測中,GigaWorld-Policy 在「成功率 - 推理速度」的權衡曲線上找到了當前行業的最優解,是唯一同時實現高成功率與高實時控制頻率的模型。
- 成功率斷層領先GigaWorld-Policy 在真機任務中的平均成功率逼近 85%。面對 Cosmos-Policy 等強勁對手,其成功率絕對值提升了超過 30%。即便對比某些主打極速推理的 Pi 系列模型,它依然憑借對物理世界規律的深刻理解穩占上風。
- 跨越實時控制門檻:對比 Motus,GigaWorld-Policy 不僅大幅縮減了顯存占用,更實現了 10 倍的推理提速。這種毫秒級的響應能力至關重要——只有高效的執行速度,機器人才能游刃有余地應對現實環境中的動態干擾和執行誤差,這也是其高成功率的底層基石。
![]()
GigaWorld-Policy 的誕生,是對傳統具身智能策略學習的一次重要范式重構。它切中了傳統 WAM 架構「推理延遲高、視覺與動作表征耦合過深」的問題。在訓練時,利用未來視頻生成為動作學習提供密集的動力學約束;在推理時,則輕裝上陣,實現了效率與性能的雙重躍升。GigaWorld-Policy 讓世界模型在機器人領域的落地應用更具實用性,也為機器人在真實物理世界中的實時、高效操控,提供了一套極具價值的全新解法。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.