網易首頁 > 網易號 > 正文申請入駐

智源新具身智能大腦來了！拿下多個SOTA，讓機器人看懂3D世界，做事更靠譜

2026-01-28 10:27:22　來源: 機器人前瞻

北京舉報

分享至

機器人前瞻（公眾號：robot_pro）
作者程茜
編輯漠影

機器人前瞻1月27日報道，昨日晚間，智源研究院正式發布新一代具身智能大腦基礎模型RoboBrain 2.5，該模型在空間推理與時序價值估計的多項基準測試中取得SOTA。這一模型的兩大升級點為，空間定位更精準，以及執行過程實時反饋以強化操作穩定性。

對應到技術細節就是精確3D空間推理（Precise 3D Spatial Reasoning）與稠密時序價值預測（Dense Temporal Value Estimation）。

可以看到在下面的空間關系推理案例中，搭載RoboBrain 2.5模型的機械臂準確判斷了離相機最近的盤子、左邊的蘋果是哪個，然后對運動路徑進行規劃完成操作。

具體來看，RoboBrain 2.5在空間感知和推理能力，以及稠密時序價值方面分別實現了三大升級：

1、空間維度升級：從預測2D圖像上的坐標點升級為預測3D空間中帶有深度信息的坐標點。

2、度量精度升級：從理解相對空間關系到測量絕對3D空間度量信息，模型能夠精確理解“懸停在上方1～5厘米處等物理約束指令；

3、操作規劃升級：從預測拾取和放置的單個目標點升級為預測描述完整操作過程的系列關鍵點，具備帶有3D絕對度量的空間規劃能力。

4、密集進度預測：能夠在不同任務、視角和形態之間進行多粒度任務進度預測。

5、執行狀態估計：理解任務目標，并在執行過程中估計各種狀態（例如，成功、失敗、錯誤發生）。

6、賦能VLA強化學習：為VLA強化學習提供實時、密集的反饋信號和獎勵。僅通過一次演示，在復雜、細粒度的操作中即可實現95%以上的任務成功率。

值得一提的是，RoboBrain 2.5已經在摩爾線程等多種AI芯片集群上，完成了完整的端到端訓練與對齊驗證。智源研究院在Hugging Face上發布了RoboBrain 2.5-8B檢查點：RoboBrain 2.5-8B-NV和RoboBrain 2.5-8B-MT，這兩個變體具有相同的架構和訓練數據、性能相似，不同之處在于NV在NVIDIA GPU集群上訓練，MT在摩爾線程GPU集群上訓練。

GitHub地址：https://github.com/FlagOpen/RoboBrain2.5

Hugging Face地址：https://huggingface.co/collections/BAAI/robobrain25

一、雜亂房間準確規劃運動路徑，長時跟蹤參考信號不偏移

智源研究院放出了不少RoboBrain 2.5的實測演示。

在3D空間推理上，下面展示了RoboBrain 2.5在面向機器人空間軌跡推理的專用評測基準TraceSpatial-Bench的表現，其中黃色遮罩標記了目標物體，粉色3D框標記了正確的末端區域。可以看出，RoboBrain 2.5產生的空間軌跡比通用VLM更準確。

RoboBrain 2.5還可以生成更準確的3D空間軌跡，下面的機械臂遵循該模型生成的3D空間軌跡，成功完成了拿取、移動物體等一系列多樣的操作任務。

在雜亂場景，該模型也可以進行空間追蹤。

對于稠密時序價值方面的能力升級，研究人員將人類標注的參考獎勵、VLAC基線和RoboBrain 2.5沿著相同軌跡進行繪制。可以看到，RoboBrain 2.5可以做到更忠實地跟蹤參考信號，對錯誤的插入、低位置和錯位進行嚴厲懲罰，并且只在成功完成任務附近分配高獎勵。

二、兩大技術升級，讓機器人在三維空間里精準定位

當前通用模型有兩個局限性。在空間維度上，模型存在度量盲區，其雖能理解2D圖像中的目標與關系，卻缺乏將其轉化為真實尺度下可執行3D軌跡的能力；在時間維度上，多數模型仍將動作生成簡化為靜態序列預測，無法對操作過程中出現的打滑、偏移等動態變化做出實時評估與調整，致使長任務難以穩定完成。

為了彌合這一差距，具身智能基礎模型需要將空間感知能力從“2D指點”升級為“精確3D規劃”，簡言之就是，之前的空間感知能力是在平面圖片上指點，需要升級為在真實三維空間里精準判斷位置、距離、規劃操作路徑。

基于此，智源研究院提出RoboBrain 2.5，引入兩項增強功能。

首先，研究人員引入了精確3D空間推理（Precise 3D Spatial Reasoning）框架。

機器人通常需要根據日益復雜且空間受限的指令執行動作，如讓機器人“用噴壺從左到右給花朵澆水，在每朵花上方1～5厘米處懸停”，但目前VLA模型難以勝任此類任務。

因此需要為其生成3D位置序列，來指導機器人生成實際動作軌跡，每個推理步驟需要兩個關鍵組成部分，一是3D空間參照，用于解析空間關系并精確定位軌跡生成過程中涉及的物體，如識別花朵及其從左到右的順序并確定它們的位置；二是3D空間測量，用于理解與所捕獲場景中軌跡相關的絕對真實世界度量量，如量化每朵花的實際高度以及其上方1～5厘米的高度。

接著需要進行3D任務制定，其將三維空間追蹤形式化為，通過視覺語言模型，根據RGB圖像等視覺輸入和文本指令，預測一個有序的三維點序列。然后讓其輸出“符合碰撞約束的可執行關鍵點軌跡”，讓機器人具備更強的幾何可行性與動作連貫性。

第二大升級是稠密時序價值預測（Dense Temporal Value Estimation），可以提供實時、步進感知的進度評估作為時間值反饋，為機器人提供過程監督，如當前執行在哪一步？任務在有效推進還是發生偏離、已經失敗？

為降低長軌跡執行中的誤差累積、提升多視角魯棒性，RoboBrain 2.5從三個互補視角生成并融合進度估計信號：增量式（Incremental）精細捕捉局部動態，但易累積漂移；前向錨定（Forward-anchored）以初始狀態為全局參照，更穩定；后向錨定（Backward-anchored）以目標狀態為參照，對接近完成階段更敏感。

這三個環節的融合，可以讓模型得到更具抗漂移能力的價值信號，用于支持長時閉環執行。

與此同時，RoboBrain 2.5還保留了2.0版本的三大核心能力，包括支持具有長時規劃與閉環反饋的交互推理、從復雜指令中進行精確點與 bbox 預測的空間感知、用于未來軌跡估計的時間感知，以及通過實時結構化記憶構建和更新進行場景推理。

三、在英偉達、摩爾線程平臺上訓練，多個測試基準達到SOTA

從基準測試的評估結果來看，在多項空間推理與時序價值估計基準任務上，RoboBrain 2.5取得了新的SOTA表現。

2D空間推理基準測試的評估結果顯示，在NVIDIA GPU平臺和摩爾線程MTT GPU平臺上訓練的RoboBrain-2.5模型變體均取得了75.82的平均分，相比通用基線和具身基線有提升。

▲RoboBrain 2.5各訓練階段的詳細配置

與通用基線相比，RoboBrain-2.5的2D空間推理平均分高于Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst、GPT-5.2。

在更強調可執行性的3D任務上，RoboBrain 2.5在評估雜亂3D場景中基于度量的多步空間追蹤測試集TraceSpatial上，表現優于Gemini-3-Pro-Preview、Qwen3-VL-8B-Inst、GPT-5.2。

此外評估操作進展的精細時間價值估計上，RoboBrain 2.5在多個數據測試中，對操作對錯的判斷能力更均衡、更一致，能讓模型更好地邊做邊學，還能實時發現并糾正操作中的錯誤。

在工程可擴展性方面，智源研究院基于其眾智FlagOS多芯片統一AI系統軟件棧，推出了面向具身智能的訓推一體化多芯片框架FlagOS-Robo。

基于智源研究院推出的面向具身智能的訓推一體化多芯片框架FlagOS-Robo，RoboBrain2.5在摩爾線程等多個AI芯片集群上，完成了完整的端到端訓練與對齊驗證。

實驗結果表明，其訓練損失值（loss）對齊，訓練趨勢一致，最終loss差異為0.62%。

借助FlagOS-Robo，開發者可以將基于摩爾線程、華為昇騰等各類AI芯片平臺的訓練成果，無縫遷移至天數智芯、英偉達等多種端側AI芯片平臺進行推理驗證。

四、超千萬高質量樣本訓練，雙階段漸進訓練策略

在訓練數據上，研究人員為RoboBrain 2.5的訓練構建了包含約1240萬個高質量樣本的統一語料庫，并將其分為三個核心領域：用于魯棒語義感知的通用MLLM數據，涵蓋從二維感知到度量感知三維追蹤的空間推理數據，用于分層規劃和密集值估計的時間預測數據。

▲訓練數據分布圖

在訓練策略方面，與RoboBrain 2.0類似，RoboBrain 2.5通過漸進式的雙階段訓練策略實現了具身認知能力提升。

訓練流程分為兩個不同的階段：通用時空基礎階段建立廣泛的視覺語義、二維空間基礎和開環規劃能力；特定時空增強階段，在定量三維空間推理和密集時間值估計方面對模型進行微調，以確保精確的、度量感知的物理交互。

RoboBrain 2.5先通過大規模通用時空學習搭建“Generalist Brain（通用大腦）”，使其能夠理解多模態指令、將物體定位在二維空間中，并掌握高級規劃邏輯。

這一階段的作用是提供一個強魯棒、強泛化的初始化，讓模型先“看得懂、想得通”，為后續引入更嚴格的物理約束與精確監督打下可遷移的通用底座。

第二階段是特定時空增強，重點在于精確的定量推理。

研究人員通過兩條強化路徑把語義推理落到真實動作層面：一方面引入面向度量的3D軌跡學習（Metric-Aware 3D Tracing），讓模型從定性空間關系邁向定量幾何約束，能夠學習絕對3D坐標、深度軌跡以及可度量距離，從而輸出在真實尺度下可執行的操作關鍵點與軌跡；另一方面升級時序建模為稠密價值估計（Dense Value Estimation），把原先的兩兩比較式時間價值學習推進為顯式的Hop/進度預測，使模型具備可直接用作價值函數（critic）的在線反饋能力，進而支持策略排序、過程監控與錯誤恢復等閉環需求。

結語：四大升級重點，要讓具身智能具備可持續優化能力

在未來的研究中，智源研究院計劃從以下四個主要方向擴展RoboBrain模型系列的功能和效率：

統一生成與理解范式：其目標是將RoboBrain打造為融合時空理解與生成能力的統一架構，整合圖像、視頻的下一階段預測能力，使其成為具身世界模型，支撐智能體動作預模擬，提升復雜環境下規劃的安全性與魯棒性。

在移動操作和人形機器人上的部署：其將廣泛驗證模型，并在各種真實世界平臺上部署模型。研究人員的重點是利用精確的3D空間推理來實現無需訓練的操作泛化，同時利用密集時間值估計作為高保真獎勵信號，以在物理世界中驅動高效的強化學習。

可擴展模型系列和專用變體：為了適應不同的計算約束和延遲要求，智源研究院計劃發布一系列具有不同參數規模的綜合模型，包括針對邊緣設備部署和高頻推理優化的輕量級版本，以及將架構解耦為不同的“指令”（快速執行）和“思考”（慢速推理）版本，以平衡響應速度和推理深度。

自演化數據引擎：其計劃構建一個閉環數據引擎，通過利用密集值估計器自動過濾和標注大規模未經整理的視頻，使得該模型可以通過自監督學習迭代改進自身，從而形成持續提升能力的飛輪效應。

與此同時，RoboBrain2.5的技術突破也揭示了，具身智能規模化發展的核心，不僅在于強化推理能力，更關鍵是實現與物理世界的對齊，以及具備可持續的閉環優化能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.