網易首頁 > 網易號 > 正文申請入駐

機器人的健忘癥有救了！阿里達摩院一口氣開源7個具身模型

2026-02-10 17:53:58　來源: 機器人前瞻

北京舉報

分享至

機器人前瞻（公眾號：robot_pro）
作者許麗思
編輯漠影

機器人前瞻2月10日報道，今天，阿里巴巴達摩院發布具身智能大腦基礎模型RynnBrain。全系列共計7個模型，其中包括 RynnBrain-30B-A3B。

RynnBrain全系列共計7個模型，包含2B、8B、30B三種參數規模的RynnBrain基礎模型，以及針對特定場景的后訓練專有模型RynnBrain-Nav（導航）與RynnBrain-Plan-30B（規劃）等共計7個。其中，RynnBrain-30B-A3B是業界首個MoE具身基礎模型，其只需要3B的推理激活參數就全面超越了當前規模最大的具身基礎模型Palican-VL-72B，讓機器人動作更快、更絲滑。

RynnBrain是業內首個擁有時空記憶的具身大腦基礎模型，引入了時空記憶和物理世界推理，讓機器人具有理解“時”與“空”的能力。

簡單來說，就是機器人可以記得過去的軌跡，看懂現在的畫面，還能預判未來的動作，具有了全局時空回溯能力，減少了幻覺問題。

比如，在雜亂的桌子面前，機器人正忙著給桌上的食物分類。

突然，它收到了“請幫我拿一個面包”的指令，選擇先停下手里的動作，把面包遞給人類。

然后，它再繼續轉頭處理剛剛的未完成的分類整理工作。

在16項具身開源評測榜單上，RynnBrain刷新了紀錄（SOTA），超越谷歌Gemini Robotics ER 1.5等行業頂尖模型。

GitHub：https://github.com/alibaba-damo-academy/RynnBrain

項目主頁：https://alibaba-damo-academy.github.io/RynnBrain.github.io/

hugging face：https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

一、訓練速度提升兩倍，讓機器人擁有全局時空回溯能力

RynnBrain在Qwen3-VL的基礎上訓練，還使用了自研的RynnScale架構對Dense模型和MOE模型進行訓練優化，能夠在同等資源下，訓練速度提升兩倍。同時，訓練數據超過2000萬對。

▲RynnBrain模型架構

RynnBrain能夠讓機器人實現堪比人類的全局時空回溯能力，關鍵在于做到了涵蓋空間、位置、事件、軌跡等多維度信息的統一表征。其所構建的統一框架，能夠把機器人所接觸到的各種各樣的信息統一映射到模型的輸出空間里，將時間維度、空間坐標與語義理解融為一體。

RynnBrain具有物理空間推理的能力，采用了一種全新的“文本與空間定位交錯”的推理策略，使得模型在推理時，不僅生成語言判斷，還會同步給出對應的空間指向信息。

RynnBrain還擁有良好的可拓展性，能夠快速后訓練出導航、規劃、動作等多種具身模型。以具身規劃模型為例，其需要強大預測能力和場景解析能力，但基于RynnBrain為基礎，只需幾百條數據微調，效果就能超越Gemini 3 Pro，輕松實現SOTA。

▲RynnBrain具有認知、定位、推理、規劃等多重能力

達摩院這次不僅開源了RynnBrain模型，而且配套開放了完整的推理訓練代碼。

另外，達摩院還開源了全新評測基準RynnBrain-Bench。這是一個用于評估具身理解能力的高維基準測試，從物體認知、空間認知、語義定位和指向交互四個核心維度全面評估模型性能，重點關注模型在連續視頻序列中對細粒度信息的理解能力與時空定位精度。

二、實現了16個SOTA，超越谷歌、英偉達的具身頂尖模型

結果顯示，RynnBrain，在16項具身開源評測榜單上刷新紀錄（SOTA），包括環境感知與對象推理、第一人稱視覺問答、空間推理、軌跡預測等，超越了谷歌Gemini Robotics ER 1.5、英偉達 Cosmos Reason 2等具身頂尖模型。

來看看模型在宇樹G1上的部署情況：

在執行“把盤子放回原位”的任務時候，G1能夠準確識別盤子，并在盤子不停移動的情況下保持對其空間位置的記憶，具有物體記憶與空間記憶能力。

面臨三個面包分兩個盤子的難題時，機器人的空間規劃與長程規劃能力使它能找到合適的分配方法，把多出的一個面包疊在中間。

物體記憶能力與復雜視頻理解能力，使機器人能夠認出之前被喝過的礦泉水，并在復雜的變換中始終保持對物體的記憶。

常識理解與中文OCR能力，讓機器人能夠根據用戶“尋找低卡低糖的飲料”的需求，觀察瓶身的文字標簽，選擇出合適的飲料。

結語：具身模型智能水平，已成為業內亟需解決的關鍵瓶頸

目前，具身模型的智能水平成了行業發展的關鍵瓶頸，泛化能力亟待提升。業內主要探索兩條技術路線：一條是動作模型，以VLA模型為代表，能直接操控物理世界，但因數據稀缺，泛化能力不足；另一條是大腦模型，比如VLM模型，本身有一定泛化能力，卻缺少記憶、動態認知有限，還會出現物理認知偏差，無法支撐人形機器人完成復雜的移動與操作任務。

RynnBrain的出現，在一定程度上解決了具身模型在時空記憶與物理空間推理的短板。達摩院不僅開源了RynnBrain模型，還配套開放了完整的推理訓練代碼、全新評測基準RynnBrain-Bench，為產業帶來了統一的基礎設施和評估標準，推動降低了具身智能領域的研發門檻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.