<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      小米開源首個跨域具身基座模型MiMo-Embodied,29個榜單SOTA

      0
      分享至



      該研究由小米具身智能團隊(Xiaomi Embodied Intelligence Team)共同完成。由該團隊的郝孝帥擔任核心貢獻第一作者,項目負責人則是小米智駕團隊首席科學家陳龍。團隊致力于打破單一領域的界限,構建能夠同時理解物理世界并進行復雜推理的通用智能體(模型),匯聚了自動駕駛與具身智能領域的頂尖研究力量。



      大語言模型(LLM)與多模態(tài)大語言模型(MLLM)的浪潮正以前所未有的速度席卷 AI 領域,但當算法試圖走出數(shù)字世界,邁入物理實體時,卻遭遇了嚴重的“水土不服”。

      在傳統(tǒng)的具身智能研發(fā)范式中,自動駕駛(Autonomous Driving)與具身智能(Embodied AI)長期被視為兩條平行線。前者在戶外高速動態(tài)環(huán)境中,通過激光雷達與相機感知車流與紅綠燈;后者則在室內靜態(tài)或低速環(huán)境中,依賴機器人本體進行精細的導航和操作任務。

      這種“各管一攤”的局面,導致了嚴重的領域割裂。現(xiàn)有的專用模型往往“偏科”嚴重:自動駕駛模型(如 DriveLMM)缺乏對物體部件級的精細理解,而機器人模型(如 RoboBrain2.0)則難以應對復雜的交通博弈與高動態(tài)場景。

      結果就是,我們始終缺乏一個能夠打通室內外、融合動靜態(tài)感知的統(tǒng)一“大腦”。

      在11.21日發(fā)表的技術報告《MiMo-Embodied: X-Embodied Foundation Model》中,小米具身智能團隊指出了這一痛點,并發(fā)布了MiMo-Embodied——這是首個開源的、成功融合了自動駕駛與具身智能的跨域基座模型。

      研究數(shù)據(jù)顯示,MiMo-Embodied 在17個具身智能基準和12個自動駕駛基準上均刷新了記錄(SOTA),不僅大幅超越了開源基線,更在空間推理與規(guī)劃等關鍵指標上擊敗了 GPT-4o、Gemini-Pro 等閉源模型,證明了跨域知識融合的巨大潛力。



      論文題目:

      MiMo-Embodied: X-Embodied Foundation Model

      論文鏈接:

      https://arxiv.org/abs/2511.16518

      項目主頁:

      https://github.com/XiaomiMiMo/MiMo-Embodied

      統(tǒng)一物理世界的認知基座

      要解決領域割裂,不能簡單地進行模型拼接。MiMo-Embodied 的核心在于構建了一個統(tǒng)一的感知與推理模型架構。



      該模型基于小米自研的MiMo-VL架構(包含 Vision Transformer 視覺編碼器與 MLP 投影層),將物理世界的交互能力解構為六大核心維度:

      自動駕駛側,模型不僅要進行環(huán)境感知(識別車道、障礙物),更需具備狀態(tài)預測(Status Prediction)駕駛規(guī)劃(Driving Planning)能力——即像老司機一樣,預測旁車意圖,并生成符合交通規(guī)則的駕駛軌跡。

      具身智能側,模型重點攻克可供性預測(Affordance Prediction)與空間理解(Spatial Understanding)。這意味著模型不僅要識別物體,還要理解物體“哪里能抓”、“哪里能放”,并能解析復雜的空間介詞(如“在...左邊的物體,在...的前方區(qū)域”)。

      四階段進化:從“看懂”到“決策”



      如何在單一模型中融合差異巨大的跨域數(shù)據(jù),同時避免“災難性遺忘”?小米團隊設計了一套嚴謹?shù)?strong>四階段漸進式訓練策略(Progressive Four-stage Training Strategy),這也是該模型性能卓越的關鍵。

      簡單的混合訓練往往會導致“災難性遺忘”。團隊首先利用海量通用數(shù)據(jù)與具身數(shù)據(jù)奠定基礎,建立模型對物體與空間的初級認知;隨后引入大規(guī)模自動駕駛數(shù)據(jù),通過混合監(jiān)督學習,讓模型在掌握高速動態(tài)感知的同時,保留對室內精細操作的理解。

      階段一:具身與通用知識奠基。這一階段類似于人類的“通識教育”。模型利用海量通用圖文數(shù)據(jù)(Visual Grounding、OCR)和具身智能數(shù)據(jù)(如 RoboRefIt、Cosmos-Reason1)進行監(jiān)督微調。這建立了模型對細粒度物體部件的定位能力,以及對基礎空間關系的理解,使其學會“看懂”靜態(tài)物理世界。

      階段二:自動駕駛知識注入與混合監(jiān)督。模型隨后進入“駕校”。團隊引入了包括 CODA-LM(長尾場景)、nuScenes-QA 在內的大規(guī)模自動駕駛數(shù)據(jù)。關鍵創(chuàng)新在于混合監(jiān)督(Mixed Supervision)——在注入高速動態(tài)駕駛知識的同時,保留部分具身數(shù)據(jù)。這確保模型在學習識別紅綠燈和車道線時,不會遺忘如何識別室內的水杯和把手。

      階段三:思維鏈推理(CoT)的邏輯升華。只會感知還不夠,智能體必須具備邏輯推理能力。團隊構建了包含顯式推理步驟(Rationale)的數(shù)據(jù)集,利用Chain-of-Thought (CoT)技術進行微調。 例如,在面對“車輛是否應該變道?”的問題時,模型不再直接輸出“是/否”,而是生成一段完整的思考路徑:“檢測到前方擁堵 -> 左側車道空閑 -> 且后方無快速來車 -> 因此建議變道”。這種顯式的邏輯生成,極大提升了模型在長尾復雜場景下的魯棒性與可解釋性。

      階段四:強化學習(RL)的終極打磨。這是畫龍點睛的一筆。針對多模態(tài)模型常有的“幻覺”問題(如生成的坐標不準確),團隊利用GRPO算法。通過設計針對性的獎勵函數(shù),RL 算法迫使模型在面對同一個問題時,從多個候選答案中收斂到邏輯更嚴密、坐標更精準的輸出。這就像是考前的“高強度刷題”,將模型的執(zhí)行精度推向了極致。

      總體數(shù)據(jù)集規(guī)模與配置如下:



      實驗結果:正向遷移引發(fā)的性能躍升

      這種“四步走”策略帶來的效果是結構性的。實驗表明,MiMo-Embodied 并非兩個領域的簡單疊加,而是實現(xiàn)了正向遷移

      具身智能基準測試:17項SOTA全面突破

      在17個具身智能基準測試中,MiMo-Embodied 在可供性預測(Affordance Prediction)、任務規(guī)劃(Task Planning)和空間理解(Spatial Understanding)三大核心能力上全面刷新記錄。

      可供性預測能力

      MiMo-Embodied 模型在 RoboRefIt、Where2Place、VABench-Point、Part-Afford 和 RoboAfford-Eval 五個專業(yè)基準上均達到最優(yōu)性能。特別值得注意的是,MiMo-Embodied 在 VABench-Point、Part-Afford 和 RoboAfford-Eval 上大幅領先其他具身智能模型,展現(xiàn)出在精細可供性推理方面的強大能力。

      任務規(guī)劃能力

      MiMo-Embodied 在 RoboVQA 基準上表現(xiàn)最優(yōu),展示了在因果推理和目標導向結果理解方面的卓越能力。在長時規(guī)劃基準 EgoPlan2 上也取得了極具競爭力的成績,充分證明了模型在長時推理方面的有效性。



      空間理解能力

      MiMo-Embodied在綜合空間智能任務 CV-Bench 上取得最優(yōu)結果,在空間關系推理的 RoboSpatial、RefSpatial-Bench 和 CRPE 關系子集上均領先。這些結果驗證了 MiMo-Embodied 在物理世界具身推理方面的強大能力。



      自動駕駛基準測試:12項指標全面領先

      MiMo-Embodied 在12個自動駕駛基準上表現(xiàn)卓越,涵蓋環(huán)境感知、狀態(tài)預測和駕駛規(guī)劃三大維度。

      環(huán)境感知能力

      在全景語義理解任務上展現(xiàn)最優(yōu)表現(xiàn),在具有挑戰(zhàn)性的局部感知場景中也表現(xiàn)出卓越的魯棒性。實驗結果令人信服地證明,MiMo-Embodied 具備多層次、高保真的環(huán)境感知能力。

      狀態(tài)預測能力

      在單圖像基準 MME-RealWorld 和多視圖圖像基準 DriveLM 上均取得強勁表現(xiàn),準確捕捉個體行為意圖并有效建模多智能體間的復雜交互。

      駕駛規(guī)劃能力

      在所有面向規(guī)劃的基準測試中均表現(xiàn)突出。這種持續(xù)的優(yōu)越性充分說明,模型不僅能生成準確、符合情境的駕駛決策,還能產生與現(xiàn)實世界交通邏輯和駕駛規(guī)范相符的連貫、可解釋的推理過程。



      真實世界場景驗證:從仿真到實戰(zhàn)

      具身導航與操作

      團隊在具身導航和操作兩個基礎下游應用中驗證了模型的實用性。在導航任務中,MiMo-Embodied 在四個家庭導航場景中表現(xiàn)優(yōu)異:定位臥室中的床、在餐廳找到吸塵器、在書房識別植物、在浴室定位馬桶。



      在操作任務中,模型展現(xiàn)了出色的可供性預測和空間推理整合能力,在識別粉色勺子的可抓取把手、定位底排橙子之間的中間放置位置、選擇最左側面包等功能導向任務中均表現(xiàn)出色。



      自動駕駛軌跡規(guī)劃

      公開基準表現(xiàn)。在 NAVSIM 基準上,MiMo-Embodied 顯著超越競爭模型,在模仿學習(IL)階段和強化學習(RL)階段均取得最優(yōu)性能。

      定性結果表明,MiMo-Embodied 能夠處理多樣化的自動駕駛場景并完成具有挑戰(zhàn)性的任務,包括路口轉彎、彎道掉頭、跟車和變道超車。



      專有數(shù)據(jù)集驗證。在大規(guī)模專有數(shù)據(jù)集上的評估顯示,MiMo-Embodied 在所有評估類別中均顯著超越基線。特別值得注意的是,在復雜的交互任務(如轉彎、繞障和變道)中性能提升最為顯著。

      這種在高復雜度場景中的大幅改進,有力證明了具身訓練范式賦予模型在復雜駕駛情境中更強的推理能力,并轉化為更準確、更符合人類專家駕駛行為的軌跡生成。



      消融實驗:多階段策略的關鍵作用

      為驗證多階段訓練策略的有效性,團隊進行了系統(tǒng)性消融實驗。結果顯示:

      • 僅使用具身數(shù)據(jù)訓練的模型在兩個領域均表現(xiàn)強勁,但僅使用自動駕駛數(shù)據(jù)訓練的模型在具身任務上性能顯著下降
      • 直接混合訓練兩個領域的數(shù)據(jù),具身任務有所改進,但自動駕駛性能略有下降
      • 采用多階段訓練策略的 MiMo-Embodied 在具身任務上平均達到62.4%(相比混合訓練提升4%),在自動駕駛任務上達到最優(yōu)的63.3%(相比混合訓練提升8.1%)



      這充分證明,多階段訓練策略能夠在不犧牲單一任務性能的前提下,實現(xiàn)具身智能和自動駕駛能力的協(xié)同提升,為構建統(tǒng)一的具身基座模型提供了有效的訓練范式。

      結語

      MiMo-Embodied 的出現(xiàn),標志著具身智能研究進入了一個新的階段。

      它證明了物理世界的認知邏輯是統(tǒng)一的——無論是控制機器人還是駕駛汽車,都依賴于對三維空間、因果關系及行為預測的深刻理解。小米具身智能團隊通過構建統(tǒng)一的跨域基座模型,成功打破了長期以來的領域壁壘,讓數(shù)據(jù)在不同具身形態(tài)間產生了“化學反應”。

      這項工作不僅為構建通用的VLA(Vision-Language-Action)模型提供了基礎,也讓“一個大腦,通用于百變機身”的未來愿景變得觸手可及。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男子7年給媽存54萬養(yǎng)老,得癌癥后打算取錢救命,看到余額崩潰了

      男子7年給媽存54萬養(yǎng)老,得癌癥后打算取錢救命,看到余額崩潰了

      飯小妹說歷史
      2025-12-08 10:14:06
      29歲雙向變勇士老大?小說都不敢編的劇情!最不可思議的NBA童話

      29歲雙向變勇士老大?小說都不敢編的劇情!最不可思議的NBA童話

      阿浪的籃球故事
      2025-12-08 16:54:02
      超1700億成交!今天,漲停潮

      超1700億成交!今天,漲停潮

      新浪財經(jīng)
      2025-12-08 16:45:05
      夢回巔峰!湖人112-108力克76人,看數(shù)據(jù):他是頭號功臣!

      夢回巔峰!湖人112-108力克76人,看數(shù)據(jù):他是頭號功臣!

      籃壇籃談
      2025-12-08 09:48:41
      奎因大贊廣東隊1人:不管是傳球,還是進攻都非常出色

      奎因大贊廣東隊1人:不管是傳球,還是進攻都非常出色

      體育哲人
      2025-12-08 11:12:45
      小米推出米家智能燃氣熱水器2瀑布洗零冷水18L

      小米推出米家智能燃氣熱水器2瀑布洗零冷水18L

      IT之家
      2025-12-08 18:14:09
      西伯利亞有多可怕?零下73度,千斤存糧百罐腌菜,砍柴一個月才行

      西伯利亞有多可怕?零下73度,千斤存糧百罐腌菜,砍柴一個月才行

      霽寒飄雪
      2025-11-04 09:19:58
      賽力斯,90億銷售費用之謎!

      賽力斯,90億銷售費用之謎!

      新浪財經(jīng)
      2025-12-06 18:52:11
      尖叫之夜紅毯:王楚然資源降級,白鹿比肩楊冪,柯淳壓軸出場

      尖叫之夜紅毯:王楚然資源降級,白鹿比肩楊冪,柯淳壓軸出場

      君笙的拂兮
      2025-12-07 16:07:47
      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯(lián)系,正約時間送出禮物

      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯(lián)系,正約時間送出禮物

      極目新聞
      2025-12-07 16:35:20
      醪糟被關注!醫(yī)生:常吃醪糟的人,不用多久,腸道或迎來3個變化

      醪糟被關注!醫(yī)生:常吃醪糟的人,不用多久,腸道或迎來3個變化

      阿兵科普
      2025-11-30 20:53:55
      杯賽八強出爐!廣廈山西大概率四強會面,上海廣東首輪對決成焦點

      杯賽八強出爐!廣廈山西大概率四強會面,上海廣東首輪對決成焦點

      籃球資訊達人
      2025-12-08 17:15:53
      謝霆鋒沒想到,離婚12年李亞鵬公開曬王菲照片,有一件事他真做對

      謝霆鋒沒想到,離婚12年李亞鵬公開曬王菲照片,有一件事他真做對

      做一個合格的吃瓜群眾
      2025-12-08 18:10:21
      2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

      2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

      歷史龍元閣
      2025-12-03 13:50:04
      1945年,換了美式裝備的國民黨軍,便能在湘西一舉擊潰10余萬日軍

      1945年,換了美式裝備的國民黨軍,便能在湘西一舉擊潰10余萬日軍

      老范談史
      2025-11-26 16:39:35
      杭州承辦世預賽票房破5000萬,據(jù)估創(chuàng)10億級別的綜合經(jīng)濟效益

      杭州承辦世預賽票房破5000萬,據(jù)估創(chuàng)10億級別的綜合經(jīng)濟效益

      懂球帝
      2025-12-08 12:10:08
      偷雞不成蝕把米,本想“毀掉”張柏芝,不料自己先被扒了個底朝天

      偷雞不成蝕把米,本想“毀掉”張柏芝,不料自己先被扒了個底朝天

      老謝談史
      2025-12-08 16:44:04
      跌破1499元,茅臺都賣不動了

      跌破1499元,茅臺都賣不動了

      豹變
      2025-12-08 08:03:25
      臺海戰(zhàn)爭爆發(fā),西方可凍結 3.2 萬億中國資產,但中國手里也有王炸

      臺海戰(zhàn)爭爆發(fā),西方可凍結 3.2 萬億中國資產,但中國手里也有王炸

      藍色海邊
      2025-12-03 14:27:26
      天空:薩拉赫在上午9:30抵達訓練基地,斯洛特更早抵達

      天空:薩拉赫在上午9:30抵達訓練基地,斯洛特更早抵達

      懂球帝
      2025-12-08 18:34:08
      2025-12-08 19:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11873文章數(shù) 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經(jīng)要聞

      重磅!政治局會議定調明年經(jīng)濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態(tài)度原創(chuàng)

      本地
      家居
      數(shù)碼
      游戲
      健康

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      家居要聞

      有限無界 打破慣有思維

      數(shù)碼要聞

      華為Mate 80 RS率先實現(xiàn)BT.2020色域 李小龍:過于先進!

      《冒險島》游輪發(fā)布會放大招!這些新內容都堪稱王炸!

      甲狀腺結節(jié)到這個程度,該穿刺了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 元码人妻精品一区二区三区9| 亚洲熟女www一区二区三区| 国模无码在线| 97精品国产91久久久久久久| wwww亚洲熟妇久久久久| av色综合久久天堂av色综合在| 9久精品视频| 少妇被粗大的猛烈进出免费视频| 2018天天拍拍天天爽视频| 成人AV天堂| 人人妻人人插视频| 国产精品17p| 成A人片亚洲日本久久| 亚洲色无码国产精品网站可下载| 无码日韩人妻精品久久蜜桃| 亚洲偷偷色| 成人高h视频| 久久无码一区二区三区| 亚洲成人综合网站| 亚洲精品综合| 精品人妻人人做人人爽夜夜爽| 国产av大全| 一区二区AV| 成人性爱视频网站| 97人人模人人爽人人喊网| 亚洲欧美日韩综合一区二区 | 99xa视频在线观看| 91日日剧网| 级毛片内射视频| 国产色精品久久人妻| 谷城县| 欧美色综合| 国产精品疯狂输出jk草莓视频| 中国丰满少妇人妻xxx性董鑫洁| 天天躁日日躁狠狠| 91精品国产综合久久久蜜臀酒店| 亚洲综合乱| 视频二区国产精品职场同事| 婷婷丁香社区| 中国国语毛片免费观看视频| 美女内射毛片在线看3d|