小米開源首個跨域具身基座模型MiMo-Embodied，29個榜單SOTA

2025-11-26 17:29:56　來源: 機器之心Pro

天津舉報

分享至

該研究由小米具身智能團隊（Xiaomi Embodied Intelligence Team）共同完成。由該團隊的郝孝帥擔任核心貢獻第一作者，項目負責人則是小米智駕團隊首席科學家陳龍。團隊致力于打破單一領域的界限，構建能夠同時理解物理世界并進行復雜推理的通用智能體（模型），匯聚了自動駕駛與具身智能領域的頂尖研究力量。

大語言模型（LLM）與多模態(tài)大語言模型（MLLM）的浪潮正以前所未有的速度席卷 AI 領域，但當算法試圖走出數(shù)字世界，邁入物理實體時，卻遭遇了嚴重的“水土不服”。

在傳統(tǒng)的具身智能研發(fā)范式中，自動駕駛（Autonomous Driving）與具身智能（Embodied AI）長期被視為兩條平行線。前者在戶外高速動態(tài)環(huán)境中，通過激光雷達與相機感知車流與紅綠燈；后者則在室內靜態(tài)或低速環(huán)境中，依賴機器人本體進行精細的導航和操作任務。

這種“各管一攤”的局面，導致了嚴重的領域割裂。現(xiàn)有的專用模型往往“偏科”嚴重：自動駕駛模型（如 DriveLMM）缺乏對物體部件級的精細理解，而機器人模型（如 RoboBrain2.0）則難以應對復雜的交通博弈與高動態(tài)場景。

結果就是，我們始終缺乏一個能夠打通室內外、融合動靜態(tài)感知的統(tǒng)一“大腦”。

在11.21日發(fā)表的技術報告《MiMo-Embodied: X-Embodied Foundation Model》中，小米具身智能團隊指出了這一痛點，并發(fā)布了MiMo-Embodied——這是首個開源的、成功融合了自動駕駛與具身智能的跨域基座模型。

研究數(shù)據(jù)顯示，MiMo-Embodied 在17個具身智能基準和12個自動駕駛基準上均刷新了記錄（SOTA），不僅大幅超越了開源基線，更在空間推理與規(guī)劃等關鍵指標上擊敗了 GPT-4o、Gemini-Pro 等閉源模型，證明了跨域知識融合的巨大潛力。

論文題目：

MiMo-Embodied: X-Embodied Foundation Model

論文鏈接：

https://arxiv.org/abs/2511.16518

項目主頁：

https://github.com/XiaomiMiMo/MiMo-Embodied

統(tǒng)一物理世界的認知基座

要解決領域割裂，不能簡單地進行模型拼接。MiMo-Embodied 的核心在于構建了一個統(tǒng)一的感知與推理模型架構。

該模型基于小米自研的MiMo-VL架構（包含 Vision Transformer 視覺編碼器與 MLP 投影層），將物理世界的交互能力解構為六大核心維度：

在自動駕駛側，模型不僅要進行環(huán)境感知（識別車道、障礙物），更需具備狀態(tài)預測（Status Prediction）與駕駛規(guī)劃（Driving Planning）能力——即像老司機一樣，預測旁車意圖，并生成符合交通規(guī)則的駕駛軌跡。

在具身智能側，模型重點攻克可供性預測（Affordance Prediction）與空間理解（Spatial Understanding）。這意味著模型不僅要識別物體，還要理解物體“哪里能抓”、“哪里能放”，并能解析復雜的空間介詞（如“在...左邊的物體，在...的前方區(qū)域”）。

四階段進化：從“看懂”到“決策”

如何在單一模型中融合差異巨大的跨域數(shù)據(jù)，同時避免“災難性遺忘”？小米團隊設計了一套嚴謹?shù)?strong>四階段漸進式訓練策略（Progressive Four-stage Training Strategy），這也是該模型性能卓越的關鍵。

簡單的混合訓練往往會導致“災難性遺忘”。團隊首先利用海量通用數(shù)據(jù)與具身數(shù)據(jù)奠定基礎，建立模型對物體與空間的初級認知；隨后引入大規(guī)模自動駕駛數(shù)據(jù)，通過混合監(jiān)督學習，讓模型在掌握高速動態(tài)感知的同時，保留對室內精細操作的理解。

階段一：具身與通用知識奠基。這一階段類似于人類的“通識教育”。模型利用海量通用圖文數(shù)據(jù)（Visual Grounding、OCR）和具身智能數(shù)據(jù)（如 RoboRefIt、Cosmos-Reason1）進行監(jiān)督微調。這建立了模型對細粒度物體部件的定位能力，以及對基礎空間關系的理解，使其學會“看懂”靜態(tài)物理世界。

階段二：自動駕駛知識注入與混合監(jiān)督。模型隨后進入“駕校”。團隊引入了包括 CODA-LM（長尾場景）、nuScenes-QA 在內的大規(guī)模自動駕駛數(shù)據(jù)。關鍵創(chuàng)新在于混合監(jiān)督（Mixed Supervision）——在注入高速動態(tài)駕駛知識的同時，保留部分具身數(shù)據(jù)。這確保模型在學習識別紅綠燈和車道線時，不會遺忘如何識別室內的水杯和把手。

階段三：思維鏈推理（CoT）的邏輯升華。只會感知還不夠，智能體必須具備邏輯推理能力。團隊構建了包含顯式推理步驟（Rationale）的數(shù)據(jù)集，利用Chain-of-Thought (CoT)技術進行微調。例如，在面對“車輛是否應該變道？”的問題時，模型不再直接輸出“是/否”，而是生成一段完整的思考路徑：“檢測到前方擁堵 -> 左側車道空閑 -> 且后方無快速來車 -> 因此建議變道”。這種顯式的邏輯生成，極大提升了模型在長尾復雜場景下的魯棒性與可解釋性。

階段四：強化學習（RL）的終極打磨。這是畫龍點睛的一筆。針對多模態(tài)模型常有的“幻覺”問題（如生成的坐標不準確），團隊利用GRPO算法。通過設計針對性的獎勵函數(shù)，RL 算法迫使模型在面對同一個問題時，從多個候選答案中收斂到邏輯更嚴密、坐標更精準的輸出。這就像是考前的“高強度刷題”，將模型的執(zhí)行精度推向了極致。

總體數(shù)據(jù)集規(guī)模與配置如下：

實驗結果：正向遷移引發(fā)的性能躍升

這種“四步走”策略帶來的效果是結構性的。實驗表明，MiMo-Embodied 并非兩個領域的簡單疊加，而是實現(xiàn)了正向遷移。

具身智能基準測試：17項SOTA全面突破

在17個具身智能基準測試中，MiMo-Embodied 在可供性預測（Affordance Prediction）、任務規(guī)劃（Task Planning）和空間理解（Spatial Understanding）三大核心能力上全面刷新記錄。

可供性預測能力

MiMo-Embodied 模型在 RoboRefIt、Where2Place、VABench-Point、Part-Afford 和 RoboAfford-Eval 五個專業(yè)基準上均達到最優(yōu)性能。特別值得注意的是，MiMo-Embodied 在 VABench-Point、Part-Afford 和 RoboAfford-Eval 上大幅領先其他具身智能模型，展現(xiàn)出在精細可供性推理方面的強大能力。

任務規(guī)劃能力

MiMo-Embodied 在 RoboVQA 基準上表現(xiàn)最優(yōu)，展示了在因果推理和目標導向結果理解方面的卓越能力。在長時規(guī)劃基準 EgoPlan2 上也取得了極具競爭力的成績，充分證明了模型在長時推理方面的有效性。

空間理解能力

MiMo-Embodied在綜合空間智能任務 CV-Bench 上取得最優(yōu)結果，在空間關系推理的 RoboSpatial、RefSpatial-Bench 和 CRPE 關系子集上均領先。這些結果驗證了 MiMo-Embodied 在物理世界具身推理方面的強大能力。

自動駕駛基準測試：12項指標全面領先

MiMo-Embodied 在12個自動駕駛基準上表現(xiàn)卓越，涵蓋環(huán)境感知、狀態(tài)預測和駕駛規(guī)劃三大維度。

環(huán)境感知能力

在全景語義理解任務上展現(xiàn)最優(yōu)表現(xiàn)，在具有挑戰(zhàn)性的局部感知場景中也表現(xiàn)出卓越的魯棒性。實驗結果令人信服地證明，MiMo-Embodied 具備多層次、高保真的環(huán)境感知能力。

狀態(tài)預測能力

在單圖像基準 MME-RealWorld 和多視圖圖像基準 DriveLM 上均取得強勁表現(xiàn)，準確捕捉個體行為意圖并有效建模多智能體間的復雜交互。

駕駛規(guī)劃能力

在所有面向規(guī)劃的基準測試中均表現(xiàn)突出。這種持續(xù)的優(yōu)越性充分說明，模型不僅能生成準確、符合情境的駕駛決策，還能產生與現(xiàn)實世界交通邏輯和駕駛規(guī)范相符的連貫、可解釋的推理過程。

真實世界場景驗證：從仿真到實戰(zhàn)

具身導航與操作

團隊在具身導航和操作兩個基礎下游應用中驗證了模型的實用性。在導航任務中，MiMo-Embodied 在四個家庭導航場景中表現(xiàn)優(yōu)異：定位臥室中的床、在餐廳找到吸塵器、在書房識別植物、在浴室定位馬桶。

在操作任務中，模型展現(xiàn)了出色的可供性預測和空間推理整合能力，在識別粉色勺子的可抓取把手、定位底排橙子之間的中間放置位置、選擇最左側面包等功能導向任務中均表現(xiàn)出色。

自動駕駛軌跡規(guī)劃

公開基準表現(xiàn)。在 NAVSIM 基準上，MiMo-Embodied 顯著超越競爭模型，在模仿學習（IL）階段和強化學習（RL）階段均取得最優(yōu)性能。

定性結果表明，MiMo-Embodied 能夠處理多樣化的自動駕駛場景并完成具有挑戰(zhàn)性的任務，包括路口轉彎、彎道掉頭、跟車和變道超車。

專有數(shù)據(jù)集驗證。在大規(guī)模專有數(shù)據(jù)集上的評估顯示，MiMo-Embodied 在所有評估類別中均顯著超越基線。特別值得注意的是，在復雜的交互任務（如轉彎、繞障和變道）中性能提升最為顯著。

這種在高復雜度場景中的大幅改進，有力證明了具身訓練范式賦予模型在復雜駕駛情境中更強的推理能力，并轉化為更準確、更符合人類專家駕駛行為的軌跡生成。

消融實驗：多階段策略的關鍵作用

為驗證多階段訓練策略的有效性，團隊進行了系統(tǒng)性消融實驗。結果顯示：

僅使用具身數(shù)據(jù)訓練的模型在兩個領域均表現(xiàn)強勁，但僅使用自動駕駛數(shù)據(jù)訓練的模型在具身任務上性能顯著下降
直接混合訓練兩個領域的數(shù)據(jù)，具身任務有所改進，但自動駕駛性能略有下降
采用多階段訓練策略的 MiMo-Embodied 在具身任務上平均達到62.4%（相比混合訓練提升4%），在自動駕駛任務上達到最優(yōu)的63.3%（相比混合訓練提升8.1%）

這充分證明，多階段訓練策略能夠在不犧牲單一任務性能的前提下，實現(xiàn)具身智能和自動駕駛能力的協(xié)同提升，為構建統(tǒng)一的具身基座模型提供了有效的訓練范式。

結語

MiMo-Embodied 的出現(xiàn)，標志著具身智能研究進入了一個新的階段。

它證明了物理世界的認知邏輯是統(tǒng)一的——無論是控制機器人還是駕駛汽車，都依賴于對三維空間、因果關系及行為預測的深刻理解。小米具身智能團隊通過構建統(tǒng)一的跨域基座模型，成功打破了長期以來的領域壁壘，讓數(shù)據(jù)在不同具身形態(tài)間產生了“化學反應”。

這項工作不僅為構建通用的VLA（Vision-Language-Action）模型提供了基礎，也讓“一個大腦，通用于百變機身”的未來愿景變得觸手可及。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.