![]()
編輯|張倩
2026 年,那么多機器人上春晚,能給大家表演個包餃子嗎?相信這是很多人會好奇的一個問題。
但根據最近的彩排報道,這個可能性不大,機器人更有可能被設計為托著托盤呈上餃子。
其實業(yè)內人士都知道,如果不靠編程或搖操,讓機器人包餃子這事兒遠比移動、導航要復雜,還涉及到「餃子皮」這種堪稱機器人圖靈測試的柔性物體,沒有一個足夠聰明的「大腦」肯定是做不到的。這也是為什么,在過去的一年,越來越多的研究力量和資金開始涌向「大腦」
阿里達摩院最近的一項工作 ——RynnBrain也瞄準了這一方向。不過和一些表演疊衣服、做早餐的研究不同,他們關注的問題還要更底層一些:如果機器人在做家務的時候被打斷,臨時去門口接收快遞,它還能不能回來接著刷碗?如果機器人被要求完成一件需要借助很多工具的任務,它制定的計劃會不會包含手頭壓根沒有的工具?
在關于機器人的各種宏大敘事里,這些問題可能沒有那么起眼,甚至連相關的 benchmark 都是缺失的,但卻是機器人走出實驗室必須邁過的門檻。在 RynnBrain 的構建中,達摩院具身智能團隊選擇從底層出發(fā),將時空記憶物理空間推理直接訓進模型里,并且達到了不錯的效果,在 16 項具身的 Benchmark 上實現了 SOTA
![]()
面對「三個面包、兩個盤子」的約束條件,模型能夠進行空間與長程規(guī)劃,推導出合理的分配方案,體現了其在受限物理條件下的規(guī)劃與推理能力。
![]()
在對雜亂桌面進行分揀規(guī)劃的過程中,機器人能夠在任務被打斷后,準確記住已完成的步驟并繼續(xù)執(zhí)行,展示了多任務交錯下的記憶與規(guī)劃能力。
達摩院還一口氣開源了 RynnBrain 全系列共計 7 個模型,其中包括RynnBrain-30B-A3B。這是業(yè)界首個 MoE 具身基礎模型,其只需要 3B 的推理激活參數就全面超越了當前規(guī)模最大的具身基礎模型 Palican-VL-72B。使用這個模型,可以讓機器人在保持最強大感知和規(guī)劃能力的基礎上擁有更加快速的動作響應和更加絲滑的行為模式。目前,包括模型權重、評測基準及完整訓推代碼在內的全套資源均已向社區(qū)開放。
![]()
- Github鏈接: https://github.com/alibaba-damo-academy/RynnBrain
- HuggingFace鏈接: https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
- 項目主頁:https://alibaba-damo-academy.github.io/RynnBrain.github.io/
把大模型塞進機器人?
這事兒真沒那么簡單
關于具身大腦,業(yè)界流傳著一個有趣的調侃 ——「把 DeepSeek 等大模型放進宇樹不就行了」。當然,做過的人都知道這完全行不通。
本質上,在 2D 世界數據上訓練出的模型,在走進物理世界的時候面臨的是一個完全不同的環(huán)境
還是以機器人包餃子任務為例,在原來的 2D 世界里,頂尖的 VLM(視覺語言模型)早就能夠看懂包餃子的完整流程,模型的任務本質上是對靜態(tài)畫面做出理解,不需要與環(huán)境交互。而在真實的年夜飯廚房 —— 那個物品散落、空間逼仄的高熵戰(zhàn)場 —— 一個僅憑 VLM 語言、視覺經驗行事的機器人往往會顯得手足無措:比如機器人剛將餃子皮搟好、放上餡料、正準備捏合,但不小心碰倒了旁邊的調料瓶,想要拿抹布擦拭但眼前并沒有抹布,也想不起來放在哪兒,于是就卡住了。再比如,它「看到」桌上有餡料,便自信地規(guī)劃出「用挖餡勺取餡」的動作,卻對「挖餡勺沒有被拿上桌」這一關鍵缺失視而不見,最終導致任務失敗。
這些場景尖銳地揭示出當前通用大模型的局限:它們雖「見多識廣」,但在物理世界里往往是「紙上談兵」,缺乏連續(xù)的三維空間感,不懂真實的物理交互邏輯,更難以避免因脫離物理約束而產生的幻覺式規(guī)劃。
這正是達摩院推出 RynnBrain 所要解決的核心問題。他們的思路是通過系統(tǒng)性地引入時空記憶、物理空間推理等能力,將這個原本「飄在云端」的認知大腦,強行拽回物理世界。
從 RynnEC 到 RynnBrain
讓大模型長出「物理直覺」
讓大模型扎根物理世界不是一蹴而就的。在 RynnBrain 之前,達摩院還做過一項奠基性的研究 ——RynnEC。
簡單來說,RynnEC 就像給大模型賦予一雙「眼睛」。它可以精確回答關于物體(屬性、數量、功能、分割等)或空間(以自我為中心的世界感知 + 以世界為中心的尺度感知)的問題。比如在執(zhí)行「將平板電腦放到書架上」這個任務時,它會先思考「電腦有多寬,能不能放書架上不掉下來?」;而在伸手拿醬油之前,它會先算一下自己和醬油瓶之間的距離,判斷原地不動能不能夠得著。
![]()
圖源:RynnEC 論文。鏈接:https://arxiv.org/pdf/2508.14160
這雙「眼睛」所帶來的細粒度認知輸入,是連接高層規(guī)劃與底層控制的關鍵橋梁。而 RynnBrain 不僅完整地繼承了這些能力,還擴展出了多樣化的時空記憶以及物理空間推理能力。
先說時空記憶。這一能力的引入,直指當前具身大模型的「視野」痛點。現有的大腦模型往往只能解決當前視野(圖片)內的定位任務,一旦需要尋找的目標物體或關鍵點處于視野之外(比如前面提到的「抹布」),模型便無能為力。盡管業(yè)界存在一種通用的「暴力解法」,也就是把所有的歷史圖片重新過一遍模型來尋找目標,但在達摩院看來,這種方式割裂了時空,忽略了具身場景本質上是一個連續(xù)的、整體的三維世界。
因此,RynnBrain 選擇了一條更符合認知的路徑:它利用歷史記憶來幫助模型構建起一個更加完整的三維認知。這意味著,機器人的決策與理解不再受限于眼前的瞬間場景,而是能夠真正基于一個完備的三維世界模型進行全局考量。
![]()
在復雜的視頻變化與干擾下,模型能夠持續(xù)追蹤并識別被使用過的礦泉水,展示了對動態(tài)場景中物體的長期記憶與理解能力。
![]()
機器人在主要物體被移動后,仍能保持對其空間位置的記憶,并將物體準確放回原處,體現了穩(wěn)定的物體記憶與空間記憶能力。
那么,這種「類人」的全局時空回溯是如何實現的?其背后的核心在于涵蓋空間、位置、事件、軌跡等多維度信息的「統(tǒng)一表征」。
![]()
RynnBrain 擁有認知、定位、推理、規(guī)劃等多種能力
在復雜的具身交互中,機器人所面對的信息是高度異構的。傳統(tǒng)的模型往往難以兼容這些異構的信息,而 RynnBrain 的突破在于,它構建了一套統(tǒng)一的框架,將這些信息全部統(tǒng)一映射到模型的輸出空間里。這意味著,模型在「腦海」里處理的不再是割裂的視覺切片,而是將時間維度、空間坐標與語義理解融為一體,從而在底層邏輯上實現了對物理世界的精準「拿捏」。
![]()
RynnBrain 模型架構圖。
接下來看物理空間推理能力。在傳統(tǒng)的 VLM 中,推理主要發(fā)生在語言層面,并未被強制與具體的空間位置或物理狀態(tài)綁定。模型可能會生成看似完美的計劃,比如前面提到的「用挖餡勺取餡」,但實際上,它眼前并沒有挖餡勺,也不知道這個工具在哪里。這種「語義與空間解耦」的模式,是導致機器人產生「物理幻覺」的根源。于是,指令發(fā)出去了,任務卻完不成。
為了消除這種割裂,RynnBrain 采用了一種「文本與空間定位交錯」的推理策略。簡單來說,就是要求模型「邊說邊指」。在 RynnBrain 生成推理文本的過程中,每當涉及到具體的物理對象或位置時,它必須同步預測出對應的空間坐標或區(qū)域掩碼。這種強制性的約束,迫使模型在生成「拿起挖餡勺」這句話的同時,必須在像素級或三維坐標系中精準地標出那個挖餡勺。
通過這種機制,RynnBrain 將抽象的語言邏輯與具象的物理環(huán)境強力鎖定。這種扎根于物理世界的推理方式,極大地降低了任務執(zhí)行中的不確定性,讓每一個決策 Token 都有據可依。
從 SOTA 刷榜到下游實戰(zhàn)
一個「六邊形基座」的誕生
說了這么多,RynnBrain 到底表現如何?其實,如果只是拿現有的 Benchmark 去測,RynnBrain 的部分能力是很難測出來的,如時空定位、操作點識別等。目前的開源評測基準,普遍缺少對這些細粒度信息理解能力與時空定位能力的評估。
為了填補這一空白,達摩院推出了一個名叫 RynnBrain Bench 的新基準。這個基準涵蓋物體認知、空間認知、物體定位、具身點預測四大維度,共計 20 項具身相關任務。它和現有的其他 benchmark 一起,對模型能力提出了綜合考驗。
![]()
在這套嚴苛的「試卷」面前,RynnBrain 首先展現出了全面且扎實的基礎模型能力。其 8B 版本不僅在具身認知與定位任務上全面領先于 Gemini Robotics ER 1.5、Mimo-Embodied、RoboBrain 2.0、Pelican-VL、Cosmos-reason 2 等業(yè)內最先進的模型,在許多細分能力上甚至實現了 30% 以上的性能飛躍
![]()
RynnBrain 在 16 項具身評測上實現 SOTA
更難得的是,RynnBrain 在泛化性方面并沒有明顯的損失。我們知道,許多專門為機器人任務訓練的「具身大腦」模型,容易過擬合到特定任務上,導致其喪失作為通用大模型原有的強大能力(比如文檔理解、文本推理等)。而 RynnBrain 在取得具身任務 SOTA 的同時,繼承了基座模型(Qwen3-VL)通用視覺能力。
![]()
模型能夠理解用戶的飲食需求,結合常識判斷與中文 OCR 識別,從多個帶文字標簽的物品中篩選出符合條件的選項。
此外,其開源的 MOE 版本(RynnBrain-30B-A3B)讓機器人在保持最強感知與規(guī)劃能力的同時擁有更快的響應速度。它僅需 3B 的推理激活參數,就在各項指標上擊敗了當前規(guī)模最大的具身基礎模型 Pelican-VL-72B,真正實現了以小博大。
作為一個旨在賦能下游任務的基座,RynnBrain 還在后訓練階段爆發(fā)出了巨大的潛力
實驗數據表明,其預訓練成果對下游任務有顯著的加持作用:在導航任務中,僅作為基座進行微調(RynnBrain-Nav),就能比使用 Qwen3-VL 的模型能力提升 5%,且在不修改架構的情況下,導航成功率比當前的 SOTA 模型 StreamVLN 高出 2%-3%。
![]()
而在操作規(guī)劃方面,RynnBrain 展現了驚人的數據效率,僅需幾百條樣本微調,其 RynnBrain-Plan 模型就能具備強大的長周期規(guī)劃能力,無論是在域內還是域外任務上均全面超越了 Gemini 3 Pro。這種「一點就通」的特質,充分驗證了其獨創(chuàng)的「文本與定位交錯」推理方式比傳統(tǒng)模式更適應復雜多變的物理世界,其強泛化能力的保留使其能夠更快地遷移到所需場景。
![]()
至此,RynnBrain 不僅具備了系統(tǒng)性的認知架構,更補全了從「理解」到「行動」的關鍵環(huán)節(jié),成為首個支持移動操作的具身基礎模型。
與其押注路線
不如先給行業(yè)「打地基」
關于機器人「大腦」該怎么做,業(yè)內其實一直沒有標準答案。達摩院的研究人員在交流中提到,當前的探索大致分成兩種思路:一種從動作出發(fā),直接學習如何操作真實世界,這條路發(fā)展出了 VLA 模型,但問題也很現實 —— 高質量數據難找,泛化始終受限;另一種則試圖利用大模型本就擁有的泛化能力,希望先讓模型看懂世界,再談行動,但如何把這種理解準確對齊到真實、連續(xù)的物理空間,依然是繞不開的難點。
在這種背景下,達摩院沒有急著選邊站,而是選擇先把基礎能力補齊。RynnEC 負責打好對物理世界的感知與理解,RynnBrain 則在此之上繼續(xù)往時空記憶、空間推理和長程規(guī)劃推進。這些基礎打好之后,RynnBrain 既可以作為下游模型的「大腦」參與真實操作,也有機會通過后訓練直接演進為操作基座。這些能力被開源出來,也是希望社區(qū)能在同一套底座上繼續(xù)探索,而不是各自重復造輪子。
與此同時,達摩院也在并行推進以視覺為主導的 VLA 路線(如 RynnVLA),并通過 RCP 等系統(tǒng)級技術,把模型、數據和真實機器人連成一條完整鏈路,從「看見」到「決定」再到「動手」。
談及更遠的未來,達摩院透露,他們在思考一種更平臺化的方案,試圖在碎片化的硬件和算法生態(tài)之上,搭起一套更統(tǒng)一的具身智能基礎設施。畢竟,要解決具身智能這道世紀難題,需要的不是某一家機構的孤軍奮戰(zhàn),而是整個開源社區(qū)的共同進化。
文中視頻鏈接:https://mp.weixin.qq.com/s/53UMfJL6VG-TAA4KJNv8Mg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.