衡宇 發自 麥蒿寺
量子位 | 公眾號 QbitAI
就是說,這幾天還有哪檔晚會節目是沒有機器人現身的嗎?
光是過年全家樂的央視除夕春晚,就有好幾家具身智能公司的機器人宣布將亮相。
大廠小廠密集入局,資本追逐、媒體傳播……具身機器人幾乎成了繼AI大模型后,下一輪科技敘事的中心。
![]()
具身機器人行業也確實處在一個非常有意思的坐標點上:
一邊是繁花似錦的視覺盛宴,各種高難度動作頻頻刷屏,讓大眾因為“看見”而開始對具身智能的未來深信不疑。
另一邊,充滿了行業對“真實價值”的迫切期待,大家開始關心,這些機器人什么時候能真正走進工廠、處理瑣碎,釋放出實實在在的生產力。
這種期待,其實折射出具身智能正在經歷的一場范式演進。
機器人要真正成為生產力,核心含金量終究要落在“自主性”上。目前的“人工輔助”或“單步遙操”在技術驗證階段是合理路徑,也有助于積累數據與經驗。
但如果一個機器人在執行過程中頻繁停頓、修正緩慢,人類就不得不高頻次介入,打斷自動化流程。
如果每臺機器人都需要一個人類兜底,那……(不講不講.gif)
只有一個人能同時監管十臺甚至一百臺、一千臺機器人的時候,只有每臺具身機器人都能在長時間任務中持續決策、持續修正、持續執行的時候,大家密切關注的具身智能才不是一種空談。
![]()
所以不難理解為什么小米的第一個具身VLA大模型,抓住的是具身機器人間歇停頓這個問題。
在4.7B參數規模下,Xiaomi-Robotics-0實現80ms推理延遲、30Hz實時控制頻率,在消費級顯卡(4090)上就能跑得飛起。
在LIBERO、CALVIN、SimplerEnv等仿真+真實環境的主流基準上,Xiaomi-Robotics-0均刷新SOTA。
And,最重要的事情說三遍:
這模型是開源的,開源的,開源的。
解讀Xiaomi-Robotics-0三大技術創新
為了實現上述效果,小米在Xiaomi-Robotics-0上做了三項核心技術創新,分別落在架構設計、預訓練策略與后訓練機制上。
三部分共同指向一個目標,讓機器人既能理解復雜環境,又能連續、穩定、精準地執行動作。
雙腦協同:用DiT做小腦,一次性生成連續動作塊
首先是架構層面的大動刀。
小米采用了目前主流的MoT(Mixture-of-Transformers)架構,但巧妙地將工作細分成了“大腦”和“小腦”。
大腦部分是VLM(視覺語言模型),負責全局的看、聽、理解和決策;小腦部分則引入了只有16層的DiT(Diffusion Transformer)架構。
這個設計的高明之處在于,大腦輸出的KV cache會傳遞給小腦,由小腦專門負責輸出連續的動作塊,這就改變了動作生成的粒度。
傳統離散token方式會對連續動作進行離散化編碼,精度容易被截斷,軌跡會有細微不連續。
DiT配合流匹配技術,可以直接生成連續動作向量,動作更平滑靈巧。
同時,通過引入flow matching流匹配訓練機制,Xiaomi-Robotics-0在訓練階段直接學習連續動作分布之間的概率流映射,推理階段所需采樣步數從傳統擴散模型(如DDPM)通常需要的數十至數百步,壓縮至五步。推理鏈路顯著縮短,為低延遲實時控制提供了基礎。
由于DiT與底層VLM同為Transformer結構,可以直接復用VLM的KV Cache,減少重復計算。
從整體架構看,大腦與小腦之間通過KV緩存松耦合連接,既保證理解能力,又控制了計算量。
這種松耦合的設計大幅降低了推理延遲,讓機器人的動作不僅平滑靈巧,反應速度也達到了毫秒級——4.7B總參數的模型,推理延遲80ms,支持30Hz控制頻率,在消費級顯卡(RTX 4090)上可以實時絲滑運行。
![]()
兩階段預訓練:學會動作,也保住視覺理解能力
小米在Xiaomi-Robotics-0的第二項創新中,解決了一個具身模型長期存在的“顧此失彼”難題。
很多模型在學了大量的機器人動作數據后,原本強大的視覺理解能力(VL能力)會迅速退化,結果只會干活,腦子不會思考了。
為了確保模型不變傻,小米在預訓練階段采用了兩階段特訓。
第一階段,通過Choice Policy與跨平臺機器人軌跡數據,讓VLM在理解圖像與指令的同時,能夠粗粒度預測動作塊。
這一步的核心是對齊視覺特征空間與動作空間,讓模型在“看見什么”與“如何動”之間建立映射。
與此同時,在預訓練中混合視覺語言數據,避免VLM遺忘原有的視覺推理能力,建立起一種“看到這個畫面,就該有這種手感”的直覺。
![]()
在進入第二階段精細化動作訓練時,小米會有意識地保護模型原有的多模態通識能力。
具體來說,在第二階段凍結VLM,單獨訓練DiT進行流匹配精細化生成。此時VLM只負責提供穩定的多模態理解,小腦專注于連續動作軌跡的高精度生成。
這種分工確保模型在引入動作能力后依然保持強大的視覺語言能力,那么機器人在執行任務時就既能讀懂復雜指令,又能規劃連續動作。
對長程任務與人機交互來說,這種能力是居家旅行必備基礎。
![]()
改良異步:用Λ形注意力掩碼解決動作慣性
第三項創新則直指“動作跑偏”這個頑疾,Xiaomi-Robotics-0團隊在后訓練階段引入了一種改良版異步方案。
傳統異步執行會把上一次動作作為輸入前綴,讓動作銜接平滑,卻容易產生動作慣性。模型過度依賴歷史動作,忽視當前視覺信息,環境變化時修正滯后。
小米創新性地在后訓練階段引入了Λ-shape attention(Lambda形掩碼機制)。
![]()
我們可以把它理解為給機器人裝了一個帶后視鏡的瞄準鏡:
動作塊中緊鄰前綴的動作會回看先前動作,確保前后銜接不抖動;遠離前綴的部分則強迫眼睛死死盯著當下的視覺反饋,確保動作根據環境實時修正。
這種機制讓模型在保證動作連續性的同時,強制重新審視環境,在真實任務中實現“連貫且可修正”,實現了既絲滑又精準的理想狀態。
![]()
這套改良異步機制,讓模型同時實現動作流暢+精度保持+吞吐領先。
仿真與真實環境的硬核成績單
在三重技術創新的加持下,Xiaomi-Robotics-0展現出了極為硬核的測評結果。
首先,我們來看Xiaomi-Robotics-0在VLA仿真benchmark上的成績。
在具身智能最看重的VLA仿真benchmark中,小米幾乎是全場橫掃。
在LIBERO、CALVIN、SimplerEnv等六個仿真環境中,Xiaomi-Robotics-0全面超過現有的包括π0、π0.5、OpenVLA、RT-1、RT-2等頭部模型在內的約30個模型。
(注:詳見論文https://xiaomi-robotics-0.github.io/assets/paper.pdf)
無論是考察多任務泛化能力的LIBERO,還是考察長程操作穩定性的CALVIN,Xiaomi-Robotics-0都刷新了紀錄,其成功率超過了公認的開源標桿π0.5。
![]()
尤其是在Libero-Object任務上,Xiaomi-Robotics-0達到了100%成功率,并以98.7%的平均成績位列Libero測試機前列。
![]()
接著來看Xiaomi-Robotics-0在MathVista、ScienceQA等針對視覺理解和數學推理的VLM benchmark中的表現。
在MMBench、MME、POPE、SeedBench、AI2D、M3MU、ScienceQA、MathVista、ERQA等九個測試集中,Xiaomi-Robotics-0的大多數指標都高于對比模型。
模型在引入動作能力后仍保持高分,這證明它沒有通過犧牲理解能力來換取控制能力。
![]()
當然,對于具身智能來說,物理世界中的真實任務表現顯然更具說服力。
![]()
“疊毛巾”是現實世界需要,又對具身機器人有高要求的任務——機器人需要處理非結構化的軟體。
Xiaomi-Robotics-0測試了6張不同毛巾,連續作業30分鐘,均保持高成功率與高吞吐。
而“拆卸樂高”這種需要極致微操和高頻反饋的任務,它需要先將樂高組件拆卸成積木塊,再根據顏色將每個積木放入相應的存儲箱中。
模型也展現出了極高的完成度:在MA與LA-10場景達到100%成功率,吞吐量領先約25%。
結合三類測試集的表現數據來看,Xiaomi-Robotics-0打通了仿真-視覺理解-真實機器人操作的閉環,已經是一個非常成熟的一體化VLA模型了。
![]()
小米的,進廠的,開源的
綜合來看,Xiaomi-Robotics-0在目前的具身智能模型梯隊里,絕對是一個不折不扣的A+級選手。
由此引出一個一定要弄清楚的問題,即:
- 小米發力具身智能領域,到底是想做什么?
目前市面上的機器人落地,大約可以劃分為兩大派系。
一類是黑科技表演派。
它們主攻硬件能力,擅長翻跟頭、跳舞,展示極高的動態平衡能力,動作復雜,視覺效果震撼,適合舞臺與視頻傳播。
另一類則是務實進廠派。
強調工業落地,它們更關注穩定性、吞吐量與可部署性,以及重視對復雜環境的適應性。
![]()
結合小米近期的一系列動作——就在幾天前,小米剛剛開源了觸覺驅動的精細抓取微調模型TacRefineNet——我想,小米在具身技術方面的路線已經不難猜了。
TacRefineNet是一個純觸覺驅動的精細抓取微調模型,它依賴11×9壓阻式觸覺陣列,觸點間距1.1mm,通過多模態融合,實現毫米級位姿微調。
它無需視覺、無需物體三維模型,Zero-shot就能部署于真實產線。

就目前小米公開的具身技術成果來看,Xiaomi-Robotics-0提供快速響應與連續控制,TacRefineNet提供末端精細調整。兩者結合,構成“眼-腦-手”協同體系。
這直接切中工業場景中最難的非結構化環境作業難題。
進廠干活嘛,只有腦子干不了活不行,能做精細的事兒但不懂得怎么干活也不行。
所以,現在基本可以斷定,小米在兩大派系選擇了走務實路線。
最后想強調一下,無論是TacRefineNet還是Xiaomi-Robotics-0,小米都選擇了開源。
所有架構細節、算法方案都全盤托出。
從技術角度看,這次開源讓行業看清了“低延遲+高智能”在消費級硬件上運行的可行路徑,打破了“具身大模型必然面臨思維卡頓”的思維定式。
從行業視角來看,這意味著廣大的中小開發者不需要再從零開始燒錢去訓練昂貴的基座模型。
大家完全可以站在小米這樣的開源先行者的肩膀上,去開發各種細分的垂直應用。
![]()
具身機器人屬于重資產、長周期賽道。
開源行為降低門檻,提升透明度,推動技術討論從營銷轉向工程細節。而且在這個階段開源高質量的基礎模型,無疑是隱形承擔了行業基礎設施建設者的角色。
這不僅是企業行為,更是產業行為。
在機器人這樣一個需要長期投入的領域,這種開放姿態釋放出的信號十分明確。小米這一波,確實展現了科技大廠應有的擔當。
技術主頁:
https://xiaomi-robotics-0.github.io
GitHub:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
抱抱臉模型權重:
https://huggingface.co/XiaomiRobotics
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.