<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      想讓機器人春晚包餃子?阿里達摩院:別急,先把「大腦」優(yōu)化一下

      0
      分享至



      編輯|張倩

      2026 年,那么多機器人上春晚,能給大家表演個包餃子嗎?相信這是很多人會好奇的一個問題。

      但根據最近的彩排報道,這個可能性不大,機器人更有可能被設計為托著托盤呈上餃子。

      其實業(yè)內人士都知道,如果不靠編程或搖操,讓機器人包餃子這事兒遠比移動、導航要復雜,還涉及到「餃子皮」這種堪稱機器人圖靈測試的柔性物體,沒有一個足夠聰明的「大腦」肯定是做不到的。這也是為什么,在過去的一年,越來越多的研究力量和資金開始涌向「大腦」

      阿里達摩院最近的一項工作 ——RynnBrain也瞄準了這一方向。不過和一些表演疊衣服、做早餐的研究不同,他們關注的問題還要更底層一些:如果機器人在做家務的時候被打斷,臨時去門口接收快遞,它還能不能回來接著刷碗?如果機器人被要求完成一件需要借助很多工具的任務,它制定的計劃會不會包含手頭壓根沒有的工具?

      在關于機器人的各種宏大敘事里,這些問題可能沒有那么起眼,甚至連相關的 benchmark 都是缺失的,但卻是機器人走出實驗室必須邁過的門檻。在 RynnBrain 的構建中,達摩院具身智能團隊選擇從底層出發(fā),將時空記憶物理空間推理直接訓進模型里,并且達到了不錯的效果,在 16 項具身的 Benchmark 上實現了 SOTA



      面對「三個面包、兩個盤子」的約束條件,模型能夠進行空間與長程規(guī)劃,推導出合理的分配方案,體現了其在受限物理條件下的規(guī)劃與推理能力。



      在對雜亂桌面進行分揀規(guī)劃的過程中,機器人能夠在任務被打斷后,準確記住已完成的步驟并繼續(xù)執(zhí)行,展示了多任務交錯下的記憶與規(guī)劃能力。

      達摩院還一口氣開源了 RynnBrain 全系列共計 7 個模型,其中包括RynnBrain-30B-A3B。這是業(yè)界首個 MoE 具身基礎模型,其只需要 3B 的推理激活參數就全面超越了當前規(guī)模最大的具身基礎模型 Palican-VL-72B。使用這個模型,可以讓機器人在保持最強大感知和規(guī)劃能力的基礎上擁有更加快速的動作響應和更加絲滑的行為模式。目前,包括模型權重、評測基準及完整訓推代碼在內的全套資源均已向社區(qū)開放。



      • Github鏈接: https://github.com/alibaba-damo-academy/RynnBrain
      • HuggingFace鏈接: https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain
      • 項目主頁:https://alibaba-damo-academy.github.io/RynnBrain.github.io/

      把大模型塞進機器人?

      這事兒真沒那么簡單

      關于具身大腦,業(yè)界流傳著一個有趣的調侃 ——「把 DeepSeek 等大模型放進宇樹不就行了」。當然,做過的人都知道這完全行不通。

      本質上,在 2D 世界數據上訓練出的模型,在走進物理世界的時候面臨的是一個完全不同的環(huán)境

      還是以機器人包餃子任務為例,在原來的 2D 世界里,頂尖的 VLM(視覺語言模型)早就能夠看懂包餃子的完整流程,模型的任務本質上是對靜態(tài)畫面做出理解,不需要與環(huán)境交互。而在真實的年夜飯廚房 —— 那個物品散落、空間逼仄的高熵戰(zhàn)場 —— 一個僅憑 VLM 語言、視覺經驗行事的機器人往往會顯得手足無措:比如機器人剛將餃子皮搟好、放上餡料、正準備捏合,但不小心碰倒了旁邊的調料瓶,想要拿抹布擦拭但眼前并沒有抹布,也想不起來放在哪兒,于是就卡住了。再比如,它「看到」桌上有餡料,便自信地規(guī)劃出「用挖餡勺取餡」的動作,卻對「挖餡勺沒有被拿上桌」這一關鍵缺失視而不見,最終導致任務失敗。

      這些場景尖銳地揭示出當前通用大模型的局限:它們雖「見多識廣」,但在物理世界里往往是「紙上談兵」,缺乏連續(xù)的三維空間感,不懂真實的物理交互邏輯,更難以避免因脫離物理約束而產生的幻覺式規(guī)劃。

      這正是達摩院推出 RynnBrain 所要解決的核心問題。他們的思路是通過系統(tǒng)性地引入時空記憶、物理空間推理等能力,將這個原本「飄在云端」的認知大腦,強行拽回物理世界。

      從 RynnEC 到 RynnBrain

      讓大模型長出「物理直覺」

      讓大模型扎根物理世界不是一蹴而就的。在 RynnBrain 之前,達摩院還做過一項奠基性的研究 ——RynnEC。

      簡單來說,RynnEC 就像給大模型賦予一雙「眼睛」。它可以精確回答關于物體(屬性、數量、功能、分割等)或空間(以自我為中心的世界感知 + 以世界為中心的尺度感知)的問題。比如在執(zhí)行「將平板電腦放到書架上」這個任務時,它會先思考「電腦有多寬,能不能放書架上不掉下來?」;而在伸手拿醬油之前,它會先算一下自己和醬油瓶之間的距離,判斷原地不動能不能夠得著。



      圖源:RynnEC 論文。鏈接:https://arxiv.org/pdf/2508.14160

      這雙「眼睛」所帶來的細粒度認知輸入,是連接高層規(guī)劃與底層控制的關鍵橋梁。而 RynnBrain 不僅完整地繼承了這些能力,還擴展出了多樣化的時空記憶以及物理空間推理能力。

      先說時空記憶。這一能力的引入,直指當前具身大模型的「視野」痛點。現有的大腦模型往往只能解決當前視野(圖片)內的定位任務,一旦需要尋找的目標物體或關鍵點處于視野之外(比如前面提到的「抹布」),模型便無能為力。盡管業(yè)界存在一種通用的「暴力解法」,也就是把所有的歷史圖片重新過一遍模型來尋找目標,但在達摩院看來,這種方式割裂了時空,忽略了具身場景本質上是一個連續(xù)的、整體的三維世界。

      因此,RynnBrain 選擇了一條更符合認知的路徑:它利用歷史記憶來幫助模型構建起一個更加完整的三維認知。這意味著,機器人的決策與理解不再受限于眼前的瞬間場景,而是能夠真正基于一個完備的三維世界模型進行全局考量。



      在復雜的視頻變化與干擾下,模型能夠持續(xù)追蹤并識別被使用過的礦泉水,展示了對動態(tài)場景中物體的長期記憶與理解能力。



      機器人在主要物體被移動后,仍能保持對其空間位置的記憶,并將物體準確放回原處,體現了穩(wěn)定的物體記憶與空間記憶能力。

      那么,這種「類人」的全局時空回溯是如何實現的?其背后的核心在于涵蓋空間、位置、事件、軌跡等多維度信息的「統(tǒng)一表征」。



      RynnBrain 擁有認知、定位、推理、規(guī)劃等多種能力

      在復雜的具身交互中,機器人所面對的信息是高度異構的。傳統(tǒng)的模型往往難以兼容這些異構的信息,而 RynnBrain 的突破在于,它構建了一套統(tǒng)一的框架,將這些信息全部統(tǒng)一映射到模型的輸出空間里。這意味著,模型在「腦海」里處理的不再是割裂的視覺切片,而是將時間維度、空間坐標與語義理解融為一體,從而在底層邏輯上實現了對物理世界的精準「拿捏」。



      RynnBrain 模型架構圖。

      接下來看物理空間推理能力。在傳統(tǒng)的 VLM 中,推理主要發(fā)生在語言層面,并未被強制與具體的空間位置或物理狀態(tài)綁定。模型可能會生成看似完美的計劃,比如前面提到的「用挖餡勺取餡」,但實際上,它眼前并沒有挖餡勺,也不知道這個工具在哪里。這種「語義與空間解耦」的模式,是導致機器人產生「物理幻覺」的根源。于是,指令發(fā)出去了,任務卻完不成。

      為了消除這種割裂,RynnBrain 采用了一種「文本與空間定位交錯」的推理策略。簡單來說,就是要求模型「邊說邊指」。在 RynnBrain 生成推理文本的過程中,每當涉及到具體的物理對象或位置時,它必須同步預測出對應的空間坐標或區(qū)域掩碼。這種強制性的約束,迫使模型在生成「拿起挖餡勺」這句話的同時,必須在像素級或三維坐標系中精準地標出那個挖餡勺。

      通過這種機制,RynnBrain 將抽象的語言邏輯與具象的物理環(huán)境強力鎖定。這種扎根于物理世界的推理方式,極大地降低了任務執(zhí)行中的不確定性,讓每一個決策 Token 都有據可依。

      從 SOTA 刷榜到下游實戰(zhàn)

      一個「六邊形基座」的誕生

      說了這么多,RynnBrain 到底表現如何?其實,如果只是拿現有的 Benchmark 去測,RynnBrain 的部分能力是很難測出來的,如時空定位、操作點識別等。目前的開源評測基準,普遍缺少對這些細粒度信息理解能力與時空定位能力的評估。

      為了填補這一空白,達摩院推出了一個名叫 RynnBrain Bench 的新基準。這個基準涵蓋物體認知、空間認知、物體定位、具身點預測四大維度,共計 20 項具身相關任務。它和現有的其他 benchmark 一起,對模型能力提出了綜合考驗。



      在這套嚴苛的「試卷」面前,RynnBrain 首先展現出了全面且扎實的基礎模型能力。其 8B 版本不僅在具身認知與定位任務上全面領先于 Gemini Robotics ER 1.5、Mimo-Embodied、RoboBrain 2.0、Pelican-VL、Cosmos-reason 2 等業(yè)內最先進的模型,在許多細分能力上甚至實現了 30% 以上的性能飛躍



      RynnBrain 在 16 項具身評測上實現 SOTA

      更難得的是,RynnBrain 在泛化性方面并沒有明顯的損失。我們知道,許多專門為機器人任務訓練的「具身大腦」模型,容易過擬合到特定任務上,導致其喪失作為通用大模型原有的強大能力(比如文檔理解、文本推理等)。而 RynnBrain 在取得具身任務 SOTA 的同時,繼承了基座模型(Qwen3-VL)通用視覺能力。



      模型能夠理解用戶的飲食需求,結合常識判斷與中文 OCR 識別,從多個帶文字標簽的物品中篩選出符合條件的選項。

      此外,其開源的 MOE 版本(RynnBrain-30B-A3B)讓機器人在保持最強感知與規(guī)劃能力的同時擁有更快的響應速度。它僅需 3B 的推理激活參數,就在各項指標上擊敗了當前規(guī)模最大的具身基礎模型 Pelican-VL-72B,真正實現了以小博大。

      作為一個旨在賦能下游任務的基座,RynnBrain 還在后訓練階段爆發(fā)出了巨大的潛力

      實驗數據表明,其預訓練成果對下游任務有顯著的加持作用:在導航任務中,僅作為基座進行微調(RynnBrain-Nav),就能比使用 Qwen3-VL 的模型能力提升 5%,且在不修改架構的情況下,導航成功率比當前的 SOTA 模型 StreamVLN 高出 2%-3%。



      而在操作規(guī)劃方面,RynnBrain 展現了驚人的數據效率,僅需幾百條樣本微調,其 RynnBrain-Plan 模型就能具備強大的長周期規(guī)劃能力,無論是在域內還是域外任務上均全面超越了 Gemini 3 Pro。這種「一點就通」的特質,充分驗證了其獨創(chuàng)的「文本與定位交錯」推理方式比傳統(tǒng)模式更適應復雜多變的物理世界,其強泛化能力的保留使其能夠更快地遷移到所需場景。



      至此,RynnBrain 不僅具備了系統(tǒng)性的認知架構,更補全了從「理解」到「行動」的關鍵環(huán)節(jié),成為首個支持移動操作的具身基礎模型。

      與其押注路線

      不如先給行業(yè)「打地基」

      關于機器人「大腦」該怎么做,業(yè)內其實一直沒有標準答案。達摩院的研究人員在交流中提到,當前的探索大致分成兩種思路:一種從動作出發(fā),直接學習如何操作真實世界,這條路發(fā)展出了 VLA 模型,但問題也很現實 —— 高質量數據難找,泛化始終受限;另一種則試圖利用大模型本就擁有的泛化能力,希望先讓模型看懂世界,再談行動,但如何把這種理解準確對齊到真實、連續(xù)的物理空間,依然是繞不開的難點。

      在這種背景下,達摩院沒有急著選邊站,而是選擇先把基礎能力補齊。RynnEC 負責打好對物理世界的感知與理解,RynnBrain 則在此之上繼續(xù)往時空記憶、空間推理和長程規(guī)劃推進。這些基礎打好之后,RynnBrain 既可以作為下游模型的「大腦」參與真實操作,也有機會通過后訓練直接演進為操作基座。這些能力被開源出來,也是希望社區(qū)能在同一套底座上繼續(xù)探索,而不是各自重復造輪子。

      與此同時,達摩院也在并行推進以視覺為主導的 VLA 路線(如 RynnVLA),并通過 RCP 等系統(tǒng)級技術,把模型、數據和真實機器人連成一條完整鏈路,從「看見」到「決定」再到「動手」。

      談及更遠的未來,達摩院透露,他們在思考一種更平臺化的方案,試圖在碎片化的硬件和算法生態(tài)之上,搭起一套更統(tǒng)一的具身智能基礎設施。畢竟,要解決具身智能這道世紀難題,需要的不是某一家機構的孤軍奮戰(zhàn),而是整個開源社區(qū)的共同進化。

      文中視頻鏈接:https://mp.weixin.qq.com/s/53UMfJL6VG-TAA4KJNv8Mg

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      從排隊3000桌到閉店80%!文和友的敗局,給網紅餐飲上了一課

      從排隊3000桌到閉店80%!文和友的敗局,給網紅餐飲上了一課

      青眼財經
      2026-02-07 22:22:53
      4.5萬被抽走4.4萬,真正的“悲哀”你沒看出來!

      4.5萬被抽走4.4萬,真正的“悲哀”你沒看出來!

      走讀新生
      2026-02-09 14:18:52
      官宣!熱刺宣布弗蘭克下課,8輪不勝+排英超倒數,2億引援全廢

      官宣!熱刺宣布弗蘭克下課,8輪不勝+排英超倒數,2億引援全廢

      阿超他的體育圈
      2026-02-11 19:10:42
      湖南第一庸官,好面子導致政府負債1000億,為政績騙劉強東100億

      湖南第一庸官,好面子導致政府負債1000億,為政績騙劉強東100億

      芊芊子吟
      2026-01-15 10:20:03
      繼女訂婚,我送一套婚房,婚宴前晚她來電:叔叔,明天你別坐主桌

      繼女訂婚,我送一套婚房,婚宴前晚她來電:叔叔,明天你別坐主桌

      堇色夜行
      2025-12-06 14:47:59
      女兒送了父親一條好煙,父親不舍得抽,3年后打開淚流滿面

      女兒送了父親一條好煙,父親不舍得抽,3年后打開淚流滿面

      蘭姐說故事
      2024-11-06 21:00:02
      銀行內部實話:存款達這個金額,會被系統(tǒng)盯上

      銀行內部實話:存款達這個金額,會被系統(tǒng)盯上

      小陸搞笑日常
      2026-02-10 03:30:26
      內存現泡沫信號!DDR4價格閃崩近20%已走到盡頭

      內存現泡沫信號!DDR4價格閃崩近20%已走到盡頭

      3DM游戲
      2026-02-11 17:41:04
      55分+14板+14助,又一次無緣全明星!哈登要逆天改命沖擊總冠軍

      55分+14板+14助,又一次無緣全明星!哈登要逆天改命沖擊總冠軍

      世界體育圈
      2026-02-11 10:24:19
      我去!塔圖姆被下放了!!

      我去!塔圖姆被下放了!!

      柚子說球
      2026-02-11 17:20:08
      散戶攥著手機發(fā)抖:比特幣跟風入場才半月,43萬爆倉大軍就有我

      散戶攥著手機發(fā)抖:比特幣跟風入場才半月,43萬爆倉大軍就有我

      二大爺觀世界
      2026-02-11 16:26:30
      每周二“發(fā)對象”!華裔研究生研發(fā)約會軟件,斯坦福超5000名學生“淪陷”

      每周二“發(fā)對象”!華裔研究生研發(fā)約會軟件,斯坦福超5000名學生“淪陷”

      紅星新聞
      2026-02-11 14:15:36
      Seedance2.0刷爆全網!知名財作家:女主播找工作時間不會很多了

      Seedance2.0刷爆全網!知名財作家:女主播找工作時間不會很多了

      火山詩話
      2026-02-11 06:17:37
      NBA宣布!再見了,哈登!又喂出一個全明星中鋒

      NBA宣布!再見了,哈登!又喂出一個全明星中鋒

      籃球實戰(zhàn)寶典
      2026-02-11 14:37:42
      又表白了!董宇輝最有名的才女粉絲留言火了,是26歲的博士研究生

      又表白了!董宇輝最有名的才女粉絲留言火了,是26歲的博士研究生

      火山詩話
      2026-02-11 16:56:41
      大勝20分到潰敗!哈登被低估,杜蘭特賽后明牌,并向火箭提出要求

      大勝20分到潰敗!哈登被低估,杜蘭特賽后明牌,并向火箭提出要求

      巴叔GO聊體育
      2026-02-11 15:42:21
      房貸利率,又要降了!

      房貸利率,又要降了!

      新浪財經
      2026-02-11 18:17:32
      一路走好!離春節(jié)僅剩1周,5位名人接連去世,最小20歲令人唏噓

      一路走好!離春節(jié)僅剩1周,5位名人接連去世,最小20歲令人唏噓

      青梅侃史啊
      2026-02-10 17:09:08
      71歲成龍自曝患終身多動癥!帶病搏命60年,自律煉成真功夫!

      71歲成龍自曝患終身多動癥!帶病搏命60年,自律煉成真功夫!

      世界王室那些事
      2026-02-11 08:30:11
      第一次對“硫磺皂”產生了敬意!2塊錢的東西,居然用途這么廣

      第一次對“硫磺皂”產生了敬意!2塊錢的東西,居然用途這么廣

      裝修秀
      2026-02-07 11:30:03
      2026-02-11 20:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12290文章數 142565關注度
      往期回顧 全部

      科技要聞

      V4來了?DeepSeek 灰度測試新版本

      頭條要聞

      中方回應"若中加達成貿易協(xié)議中方會終止加冰球運動"

      頭條要聞

      中方回應"若中加達成貿易協(xié)議中方會終止加冰球運動"

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      習酒節(jié)前價格雪崩控量穩(wěn)價變空談

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態(tài)度原創(chuàng)

      健康
      手機
      本地
      家居
      公開課

      轉頭就暈的耳石癥,能開車上班嗎?

      手機要聞

      紅米K100系列沖高:芯片、屏幕、影像、充電全線升級,或背刺小米

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      家居要聞

      簡雅閑居 靜享時光柔

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版