網易首頁 > 網易號 > 正文申請入駐

智元發布GO-2基座模型，定義具身智能“知行合一”新高度 | 前沿在線

2026-04-17 00:25:30　來源: 前沿在線

北京舉報

分享至

編輯：前沿在線編輯部

當一個機器人站在你面前，你對它說一句：“把杯子拿過來。”它聽懂了，也知道杯子是什么、在哪里，甚至已經在 “腦海里” 規劃出一條看似完美的路徑。可真正伸手去執行的那一刻，動作卻常常偏離規劃，無法穩定完成。

為什么會這樣？過去很長一段時間里，機器人系統始終被困在一種深層割裂之中：高層語義與推理足夠聰明，底層動態運動能力也已日趨成熟，像平衡、跑跳、空翻這類動作早已實現穩定流暢。

但一旦進入真實場景、面向復雜任務、需要精準可靠地與物理世界交互時，從 “理解意圖” 到 “穩定完成” 之間，依然隔著一道看不見的門檻。

機器人可以生成合理規劃，卻難以在真實擾動中穩定執行；可以 “想得明白”，卻未必 “做得可靠”。這才是具身智能真正走向現實世界、走向實用化最核心的挑戰。

今天，智元機器人正式發布新一代具身基座大模型Genie Operator-2（以下簡稱GO-2）。

GO-2 首次在統一架構中打通從邏輯推理到精準動作執行的“最后一公里”，結合數萬小時的數據訓練，在多個機器人基準測試中刷新行業 SOTA，讓機器人從“黑盒摸索”邁向真正的 “知行合一”。

GO 系列的關鍵進化：從感知理解到動作執行

一年前，智元發布了Genie Operator-1（簡稱GO-1）基座模型，通過創新的ViLLA架構，首次實現了視覺-語言-動作的統一建模。那是一個里程碑式的突破——GO-1 獲得了當年IROS最佳論文提名，被機器人頂級期刊TRO接收，榮獲世界人工智能大會SAIL之星，并且已經內置到智元的一站式具身開發平臺Genie Studio中，真正賦能給用戶部署模型，在真實場景完成了大規模應用驗證。

GO-1 讓機器人學會了“理解”。它能看懂指令，能識別場景，能規劃任務。

然而，當系統進入更加復雜的真實環境后，一個關鍵問題逐漸顯現：機器人雖然能生成合理的規劃，但動作并不總能嚴格按照規劃執行。

想象一下，你讓機器人幫你整理廚房。它明明知道要先把碗碟從水池取出，再放進洗碗機，最后啟動程序。單看規劃，一切完美無缺。可真正執行時，它可能因為微小的視覺偏差抓偏碗沿，或是轉身時手臂軌跡偏離預設，最終導致碗碟滑落、任務失敗。

這不是規劃不夠聰明，而是從 “規劃” 到 “執行” 之間的斷裂。其核心，正是機器人系統中長期存在的語義?運動鴻溝（Semantic?Actuation Gap）。

在傳統具身模型中，鏈路往往是割裂的：高層語義推理 → 抽象指令 → 控制系統 → 機器人動作。高層模型輸出的抽象信號，與真實世界所需的精細動作之間，仍隔著巨大落差。到了執行環節，控制模塊常常繞過規劃、直接依賴瞬時視覺生成動作，最終導致：長程任務誤差不斷累積、動作持續偏離規劃、系統整體穩定性大幅下降。

而新一代基座模型 GO?2 要做的，正是彌合這道鴻溝。GO?2 的目標清晰而堅定：讓機器人不只理解世界，更能穩定、可靠地作用于世界。

GO-2 的核心理念：讓機器人真正“知行合一”

進一步把問題拆解來看，要讓機器人真正做到知行合一，系統需要同時解決兩個關鍵問題：

如何生成“可執行”的動作規劃；
如何在真實環境中“穩定執行”該規劃。

GO-2 圍繞這一問題構建了一套完整架構：先通過動作思維鏈完成高層動作推理，再通過異步雙系統穩定執行。

首創動作思維鏈：在動作空間推理規劃

在傳統方法中，模型通常直接從感知輸入生成控制信號。這意味著“思考”和“執行”被壓縮在同一個瞬間完成，缺乏明確的中間結構。模型既要理解任務，又要完成精細控制，往往難以兼顧。但人類的行為并不是這樣發生的。投籃之前，我們會在腦海中預演出手的軌跡；倒水之前，會先想象水流的路徑。動作并不是憑空產生，而是在內部形成一個清晰的過程之后自然展開。

GO-2 將這一過程顯式化，引入了動作思維鏈 (Action Chain-of-Thought)。與其在語言或視覺空間中進行推理，再將結果轉換為動作，GO-2 直接在動作空間中完成這一過程。模型不會立即輸出控制信號，而是先生成一段高層動作序列，作為任務的整體規劃。這一序列描述了行為的方向、結構以及執行路徑，是一種可以直接被執行系統理解的中間表示。

通過這種方式，復雜任務被自然拆解為有序的動作步驟。執行過程不再依賴即時反應，而是建立在已經形成的結構化路徑之上。機器人從“邊看邊做”轉變為“想清楚再做”，執行偏差隨之顯著降低，整體行為也更加穩定。這一能力的提出，使得“推理”和“執行”之間不再存在明顯斷層，規劃本身就已經具備了可執行性。這一成果也已被AI頂級會議 CVPR 2026 接收，成為具身智能領域的重要進展。

（論文地址：https://arxiv.org/abs/2601.11404）

異步雙系統：讓規劃被穩定地執行

為了解決執行穩定性問題，GO-2 引入了一種異步雙系統架構，將“規劃”和“執行”拆分為兩個不同節奏的模塊，同時保持它們之間的緊密協同。其核心目標并不是簡單地提高控制精度，而是確保高層規劃在真實環境中能夠被持續、穩定地跟隨。

在這一架構中，動作思維鏈自然成為慢系統的一部分。慢系統以較低頻率運行，負責生成結構化的高層動作序列。這些動作并不會直接展開為控制信號，而是以逐步細化的方式持續提供指導，從宏觀動作到子動作，再到更細粒度的行為片段，形成一個具有層次結構的動作表示。通過這種方式，高層規劃不再是一次性的結果，而是一個持續約束執行方向的“意圖流”。

與之對應，快系統以更高頻率運行。它持續接收來自慢系統的動作規劃，并結合當前的視覺觀測生成具體控制信號。在這一過程中，執行并不是對規劃的簡單復現，而是圍繞規劃進行實時對齊。系統需要不斷應對環境變化，因此在跟隨的同時持續進行局部修正與動態調整。例如，當桌面高度與預期不一致時，系統會自動調整手臂的下探幅度；當物體摩擦特性發生變化時，會實時調整抓取力度。這種連續修正，使執行始終貼合規劃，而不是逐步偏離。

這種穩定跟隨能力的關鍵，在于規劃與執行之間的緊密對齊。在訓練階段，GO-2 引入了帶噪聲的強制教學 (teacher forcing) 機制，在訓練執行模塊時使用真實的高層動作序列作為條件，同時加入一定擾動，以模擬規劃誤差。這使得模型能夠在“接近正確但不完美”的規劃條件下依然保持穩定執行，從而在實際部署中具備更強的魯棒性。

最終，這種低頻規劃與高頻執行的組合，使機器人既能保持整體行為的一致性，又能夠靈活應對局部變化。規劃不再停留在“想法”，而是能夠在動態環境中被持續兌現，從而真正實現按規劃行事的能力。這一成果，也已被AI頂級會議 ACL 2026 接收。

（論文地址：https://libra-vla.github.io/）

性能表現：刷新行業SOTA

當“思考”與“執行”真正被打通，帶來的改變，并不僅僅是指標上的提升，而是系統行為方式的躍遷。在新的架構設計下，GO-2在多個主流具身智能基準測試（benchmark）中取得了全面 SOTA（現有最佳技術），在任務成功率、環境魯棒性以及跨場景泛化能力上均顯著領先當前主流模型(如：π0.5、NVIDIA GR00T)。

LIBERO Benchmark：GO-2 模型在 Spatial、Object、Goal 與 Long 四類任務上均排名第一，平均成功率達到 98.5%
LIBERO-Plus Benchmark：在包含相機、光照、背景和噪聲等多種環境擾動的設置下，GO-2零樣本測試取得 86.6% 平均成功率，顯著超過現有方法，表現出了超強的泛化能力。
VLABench Benchmark：在跨類別與紋理泛化測試中，GO-2 平均達到 47.4，特別是紋理泛化任務上顯著優于其他方法。
Genie Sim 3.0 Benchmark (Sim-to-Real)：在面向真實世界遷移的 Genie Sim 3.0 評測中，GO-2 展示了良好的零樣本跨域遷移能力，在僅使用仿真數據訓練的前提下，在真實環境測試中取得了 82.9% 的平均成功率，顯著優于 π0.5() （77.5%）。

規模化落地：從模型能力到真實世界部署

GO-2 的價值，并不止于模型本身。

在 GO-2 的基礎上，智元進一步打通模型能力與真實場景部署之間的閉環。通過“基座模型+分布式強化學習”的協同范式，讓機器人在真實環境中持續學習、持續進化。

依托Genie Studio開發平臺，系統構建了面向真實世界的閉環學習能力：通過云端與多機器人協同，不斷采集交互數據并進行在線后訓練，使模型在真實環境中持續優化，而非依賴離線數據或仿真。每一次執行，都是一次數據積累；每一次反饋，都是一次能力提升。

通過這一“預訓練 + 后訓練 + 數據閉環”的體系，GO-2 不再是靜態模型，而是能夠在真實世界中持續學習、不斷進化的生產力系統。

具身智能的終極追求，是知行合一

從 GO?1 到 GO?2，智元完成了一次從能力到價值的關鍵躍遷：從 “理解世界”，走向真正作用于世界；從 “偶爾成功”，走向持續穩定完成；從 “單純完成動作”，走向在物理世界中精準交互、穩定落地。

GO?2 基座模型所做的，正是為具身智能打造真正會思考、可信賴、能落地的通用大腦，打破語義與動作的割裂，讓規劃與執行真正合一，讓機器人的每一個動作，都能適配物理世界的復雜變量、穩定作用于真實場景。

它體現在精準的推理與規劃中，體現在穩定可靠的執行里，更體現在從虛擬仿真到真實世界、從實驗室驗證研發態到產業落地部署態的實踐中——這份實踐，從來不是單純的動作運動，而是機器人與物理世界精準、可靠、可復用的交互。

我們希望，它不僅是一個模型，更是一個讓機器人從 “理解世界”，走向“真正作用于世界”的里程碑。

前沿動態前沿大會
前沿人物

點「在看」，給前前加雞腿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.