![]()
![]()
編輯:前沿在線 編輯部
當一個機器人站在你面前,你對它說一句:“把杯子拿過來。”它聽懂了,也知道杯子是什么、在哪里,甚至已經在 “腦海里” 規劃出一條看似完美的路徑。可真正伸手去執行的那一刻,動作卻常常偏離規劃,無法穩定完成。
為什么會這樣?過去很長一段時間里,機器人系統始終被困在一種深層割裂之中:高層語義與推理足夠聰明,底層動態運動能力也已日趨成熟,像平衡、跑跳、空翻這類動作早已實現穩定流暢。
但一旦進入真實場景、面向復雜任務、需要精準可靠地與物理世界交互時,從 “理解意圖” 到 “穩定完成” 之間,依然隔著一道看不見的門檻。
機器人可以生成合理規劃,卻難以在真實擾動中穩定執行;可以 “想得明白”,卻未必 “做得可靠”。這才是具身智能真正走向現實世界、走向實用化最核心的挑戰。
今天,智元機器人正式發布新一代具身基座大模型Genie Operator-2(以下簡稱GO-2)。
GO-2 首次在統一架構中打通從邏輯推理到精準動作執行的“最后一公里”,結合數萬小時的數據訓練,在多個機器人基準測試中刷新行業 SOTA,讓機器人從“黑盒摸索”邁向真正的 “知行合一”。
![]()
![]()
GO 系列的關鍵進化:從感知理解到動作執行
一年前,智元發布了Genie Operator-1(簡稱GO-1)基座模型,通過創新的ViLLA架構,首次實現了視覺-語言-動作的統一建模。那是一個里程碑式的突破——GO-1 獲得了當年IROS最佳論文提名,被機器人頂級期刊TRO接收,榮獲世界人工智能大會SAIL之星,并且已經內置到智元的一站式具身開發平臺Genie Studio中,真正賦能給用戶部署模型,在真實場景完成了大規模應用驗證。
GO-1 讓機器人學會了“理解”。它能看懂指令,能識別場景,能規劃任務。
然而,當系統進入更加復雜的真實環境后,一個關鍵問題逐漸顯現:機器人雖然能生成合理的規劃,但動作并不總能嚴格按照規劃執行。
想象一下,你讓機器人幫你整理廚房。它明明知道要先把碗碟從水池取出,再放進洗碗機,最后啟動程序。單看規劃,一切完美無缺。可真正執行時,它可能因為微小的視覺偏差抓偏碗沿,或是轉身時手臂軌跡偏離預設,最終導致碗碟滑落、任務失敗。
這不是規劃不夠聰明,而是從 “規劃” 到 “執行” 之間的斷裂。其核心,正是機器人系統中長期存在的語義?運動鴻溝(Semantic?Actuation Gap)。
在傳統具身模型中,鏈路往往是割裂的:高層語義推理 → 抽象指令 → 控制系統 → 機器人動作。高層模型輸出的抽象信號,與真實世界所需的精細動作之間,仍隔著巨大落差。到了執行環節,控制模塊常常繞過規劃、直接依賴瞬時視覺生成動作,最終導致:長程任務誤差不斷累積、動作持續偏離規劃、系統整體穩定性大幅下降。
而新一代基座模型 GO?2 要做的,正是彌合這道鴻溝。GO?2 的目標清晰而堅定:讓機器人不只理解世界,更能穩定、可靠地作用于世界。
![]()
GO-2 的核心理念:讓機器人真正“知行合一”
進一步把問題拆解來看,要讓機器人真正做到知行合一,系統需要同時解決兩個關鍵問題:
如何生成“可執行”的動作規劃;
如何在真實環境中“穩定執行”該規劃。
GO-2 圍繞這一問題構建了一套完整架構: 先通過動作思維鏈完成高層動作推理,再通過異步雙系統穩定執行。
![]()
![]()
首創動作思維鏈:在動作空間推理規劃
在傳統方法中,模型通常直接從感知輸入生成控制信號。這意味著“思考”和“執行”被壓縮在同一個瞬間完成,缺乏明確的中間結構。模型既要理解任務,又要完成精細控制,往往難以兼顧。但人類的行為并不是這樣發生的。投籃之前,我們會在腦海中預演出手的軌跡;倒水之前,會先想象水流的路徑。動作并不是憑空產生,而是在內部形成一個清晰的過程之后自然展開。
GO-2 將這一過程顯式化,引入了動作思維鏈 (Action Chain-of-Thought)。與其在語言或視覺空間中進行推理,再將結果轉換為動作,GO-2 直接在動作空間中完成這一過程。模型不會立即輸出控制信號,而是先生成一段高層動作序列,作為任務的整體規劃。這一序列描述了行為的方向、結構以及執行路徑,是一種可以直接被執行系統理解的中間表示。
通過這種方式,復雜任務被自然拆解為有序的動作步驟。執行過程不再依賴即時反應,而是建立在已經形成的結構化路徑之上。機器人從“邊看邊做”轉變為“想清楚再做”,執行偏差隨之顯著降低,整體行為也更加穩定。這一能力的提出,使得“推理”和“執行”之間不再存在明顯斷層,規劃本身就已經具備了可執行性。這一成果也已被AI頂級會議 CVPR 2026 接收,成為具身智能領域的重要進展。
(論文地址:https://arxiv.org/abs/2601.11404)
![]()
![]()
異步雙系統:讓規劃被穩定地執行
為了解決執行穩定性問題,GO-2 引入了一種異步雙系統架構,將“規劃”和“執行”拆分為兩個不同節奏的模塊,同時保持它們之間的緊密協同。其核心目標并不是簡單地提高控制精度,而是確保高層規劃在真實環境中能夠被持續、穩定地跟隨。
在這一架構中,動作思維鏈自然成為慢系統的一部分。慢系統以較低頻率運行,負責生成結構化的高層動作序列。這些動作并不會直接展開為控制信號,而是以逐步細化的方式持續提供指導,從宏觀動作到子動作,再到更細粒度的行為片段,形成一個具有層次結構的動作表示。通過這種方式,高層規劃不再是一次性的結果,而是一個持續約束執行方向的“意圖流”。
與之對應,快系統以更高頻率運行。它持續接收來自慢系統的動作規劃,并結合當前的視覺觀測生成具體控制信號。在這一過程中,執行并不是對規劃的簡單復現,而是圍繞規劃進行實時對齊。系統需要不斷應對環境變化,因此在跟隨的同時持續進行局部修正與動態調整。例如,當桌面高度與預期不一致時,系統會自動調整手臂的下探幅度;當物體摩擦特性發生變化時,會實時調整抓取力度。這種連續修正,使執行始終貼合規劃,而不是逐步偏離。
這種穩定跟隨能力的關鍵,在于規劃與執行之間的緊密對齊。在訓練階段,GO-2 引入了帶噪聲的強制教學 (teacher forcing) 機制,在訓練執行模塊時使用真實的高層動作序列作為條件,同時加入一定擾動,以模擬規劃誤差。這使得模型能夠在“接近正確但不完美”的規劃條件下依然保持穩定執行,從而在實際部署中具備更強的魯棒性。
最終,這種低頻規劃與高頻執行的組合,使機器人既能保持整體行為的一致性,又能夠靈活應對局部變化。規劃不再停留在“想法”,而是能夠在動態環境中被持續兌現,從而真正實現按規劃行事的能力。這一成果,也已被AI頂級會議 ACL 2026 接收。
(論文地址:https://libra-vla.github.io/)
![]()
![]()
性能表現:刷新行業SOTA
當“思考”與“執行”真正被打通,帶來的改變,并不僅僅是指標上的提升,而是系統行為方式的躍遷。在新的架構設計下,GO-2在多個主流具身智能基準測試(benchmark) 中取得了全面 SOTA(現有最佳技術),在任務成功率、環境魯棒性以及跨場景泛化能力上均顯著領先當前主流模型(如:π0.5、NVIDIA GR00T)。
LIBERO Benchmark:GO-2 模型 在 Spatial、Object、Goal 與 Long 四類任務上均排名第一,平均成功率達到 98.5%
LIBERO-Plus Benchmark:在包含相機、光照、背景和噪聲等多種環境擾動的設置下,GO-2零樣本測試取得 86.6% 平均成功率,顯著超過現有方法,表現出了超強的泛化能力。
VLABench Benchmark:在跨類別與紋理泛化測試中,GO-2 平均達到 47.4,特別是紋理泛化任務上顯著優于其他方法。
Genie Sim 3.0 Benchmark (Sim-to-Real):在面向真實世界遷移的 Genie Sim 3.0 評測中,GO-2 展示了良好的零樣本跨域遷移能力,在僅使用仿真數據訓練的前提下,在真實環境測試中取得了 82.9% 的平均成功率,顯著優于 π0.5() (77.5%)。
![]()
![]()
規模化落地:從模型能力到真實世界部署
GO-2 的價值,并不止于模型本身。
在 GO-2 的基礎上,智元進一步打通模型能力與真實場景部署之間的閉環。通過“基座模型+分布式強化學習”的協同范式,讓機器人在真實環境中持續學習、持續進化。
依托Genie Studio開發平臺,系統構建了面向真實世界的閉環學習能力:通過云端與多機器人協同,不斷采集交互數據并進行在線后訓練,使模型在真實環境中持續優化,而非依賴離線數據或仿真。每一次執行,都是一次數據積累;每一次反饋,都是一次能力提升。
通過這一“預訓練 + 后訓練 + 數據閉環”的體系,GO-2 不再是靜態模型,而是能夠在真實世界中持續學習、不斷進化的生產力系統。
![]()
具身智能的終極追求,是知行合一
從 GO?1 到 GO?2,智元完成了一次從能力到價值的關鍵躍遷:從 “理解世界”,走向真正作用于世界;從 “偶爾成功”,走向持續穩定完成;從 “單純完成動作”,走向在物理世界中精準交互、穩定落地。
GO?2 基座模型所做的,正是為具身智能打造真正會思考、可信賴、能落地的通用大腦,打破語義與動作的割裂,讓規劃與執行真正合一,讓機器人的每一個動作,都能適配物理世界的復雜變量、穩定作用于真實場景。
它體現在精準的推理與規劃中,體現在穩定可靠的執行里,更體現在從虛擬仿真到真實世界、從實驗室驗證研發態到產業落地部署態的實踐中——這份實踐,從來不是單純的動作運動,而是機器人與物理世界精準、可靠、可復用的交互。
我們希望,它不僅是一個模型,更是一個讓機器人從 “理解世界”,走向“真正作用于世界”的里程碑。
![]()
前沿動態前沿大會
前沿人物
點「在看」,給前前加雞腿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.