網易首頁 > 網易號 > 正文申請入駐

如何看小米人形機器人的“進廠時刻”？

2026-03-04 22:05:28　來源: 機器人大講堂

安徽舉報

分享至

3月4日，在第十四屆全國人民代表大會第四次會議開幕前，全國人大代表，小米集團創始人、董事長兼CEO雷軍向大會提交五份建議案，聚焦人形機器人等領域。雷軍在建議案中指出，當前行業仍面臨大規模工程化應用的挑戰，要進一步推動人形機器人從“學徒工”向“正式工”轉變。

不久前，小米人形機器人已經第一次在真實產線上“打卡上班”了，其走進了一家真實的汽車工廠，要干的活竟然是“自攻螺母上件”這個汽車制造中非常枯燥也考驗作業柔性的工序之一。

這個工站的任務是這樣的：機器人從自動送釘設備里抓取螺母，然后把它放到自攻擰緊的定位工裝上，配合滑臺輸送和自動定位鎖定，最終在汽車一體化壓鑄后地板零件上完成自攻擰緊。整個過程涉及抓取、對準、放置、避讓等多個動作序列，而最難的部分，是自攻螺母安裝時的“精準對位”。

為什么難？因為自攻螺母內側有花鍵結構，每次抓取后，螺母在手里的姿態是隨機的；定位銷軸帶有磁吸力，靠近時會產生拉扯干擾；再加上產線本身的震動、來料的公差、光照的變化，這些因素疊加在一起，讓這個看似簡單的“放螺母”動作，對人形機器人來說變成了一個頗具難度的工程學難題。

小米官方公布的數據是：人形機器人連續自主運行了3小時，雙側同時安裝成功率90.2%，同時滿足了最快76秒的產線生產節拍。

這個數據發布后，行業內議論紛紛。有人不屑一顧，說90.2%的成功率在汽車廠根本沒法用；也有人認為，這是人形機器人第一次在真實產線上跑通完整工序，意義大于數據本身。

作為一個長期關注機器人技術落地的行業媒體，我們試圖從技術縱深的角度，把這90.2%掰開揉碎，看看它到底意味著什么。

01.

90.2%是否不夠看？

先說不好的那部分。

在汽車制造領域，良率是一個極其殘酷的指標。一條成熟的自動化產線，對設備的核心要求不是“能做”，而是“一直能做”。對于裝配類工站，行業通用的良率標準是99.5%以上，核心工站甚至要求99.9%。這意味著每1000次作業，最多只能有1次失敗，乃至不能存在失敗。

為什么這么苛刻？因為汽車產線是連續流生產，一個工站的失誤會直接導致整條線停擺。以年產10萬輛的工廠計算，90.2%的成功率意味著每年將有9800輛車需要人工干預或返工。自攻螺母如果打歪了，輕則人工補擰，重則拆車重來，單次返工成本少則幾百，多則上千。算下來，僅這一項如果不加以干預就可能造成數百萬元甚至上千萬元的損失。

更重要的是，90.2%意味著不確定性。在精益生產的語境里，不確定性比低效率更可怕。效率低可以提速，但不確定會讓整個生產計劃崩塌。班組長沒法安排生產，因為不知道下一臺車會不會出問題；質量部門沒法把控，因為不良品是隨機出現的。這也是為什么工廠老師傅會直言：你這機器人，還不如我花兩萬塊請的臨時工，臨時工至少穩定，該干多少活就干多少活。

但話又說回來，這個對比本身就不公平。臨時工干的活，是人經過幾十年進化才學會的；而機器人面對的，是一個對它來說完全陌生的物理世界。

自攻螺母這個工藝，在工業自動化領域屬于“難啃的骨頭”。它不是簡單的“對準－擰緊”，而是“鉆孔+攻絲+擰緊”三合一。過程中要克服材料硬度波動、來料公差、定位偏差等多重干擾。傳統工業機器人解決這個問題，靠的是“剛性自動化”，也就是基于高精度夾具，把零件死死固定，視覺系統做精準引導，力控傳感器實時反饋扭矩，再加上工程師的現場調試。這套方案有效，但代價是成本高、柔性差，換一種零件、調一個車型，就得重新編程、重新標定。

小米這次用的是人形機器人，走的是完全不同的技術路線。所以，單看90.2%這個數字，確實不夠看，但如果看這個數字是怎么來的，結論可能不一樣。

02.

這是第一次用“大腦”替代“程序”

小米這次的技術方案，核心是端到端的數據驅動控制。

傳統工業機器人的邏輯是“規則編程”，也就是由工程師把任務拆解成一個個步驟，寫成代碼，機器人按部就班執行。這套邏輯在結構化環境里很好用，環境固定、物體固定、動作固定，程序可以精確控制每一步。

但自攻螺母這個場景，恰恰是非結構化的高柔性作業。螺母姿態隨機、磁吸力干擾、產線震動，這些變量無法在編程時全部預判。規則寫得再細，總有覆蓋不到的角落，總有無法規避的問題。

小米的解法是試圖實現一個自主化的工位，并且不讓工程師頻繁改寫規則，讓機器人自己學。他們用的Xiaomi-Robotics-0其實也是VLA架構，也就是一種Vision-Language-Action具身模型。這個模型扮演“大腦”的角色，負責理解任務、感知環境、做出決策。大腦輸出的不是具體的關節角度，而是“意圖”，比如“我要把螺母對準定位銷”。

隨后，意圖交給“小腦”執行。小米人形機器人的小腦是一個只有16層的DiT（Diffusion Transformer），它的任務是把意圖翻譯成連續的動作軌跡。這里的關鍵是“連續”，傳統方法往往把動作離散化成token，就像動畫片的逐幀畫面，容易卡頓和不連貫。DiT配合流匹配技術，直接生成平滑的動作流，相當于從逐幀動畫升級到高清視頻。

執行過程中，觸覺系統全程參與。小米TacRefineNet是一個純觸覺驅動的微調模型，依賴11×9的壓阻式觸覺陣列，觸點間距1.1毫米，可以實現毫米級的位姿修正。當視覺因為光照或遮擋看不清時，觸覺補償會告訴機器人“是不是對準了”、“有沒有滑脫”。

這套架構的底層邏輯是：讓機器人在真實環境中迭代優化。不是在仿真里跑一萬次，而是在產線上跑一次，學一次；失敗一次，改進一次。90.2%的成功率，意味著在3小時里，這套“大腦－小腦－觸覺”閉環跑通了，雖然還不穩，但方向是對的。

03.

技術創新點還有哪些？

小米這次公開的技術細節里，有幾個值得深入分析的點。

第一個是大小腦架構的設計取舍。VLM做大腦，DiT做小腦，這個分工figure等公司也在嘗試。因為VLM處理的是全局理解，例如圖像里有什么、指令是什么意思、下一步該干什么。這些任務需要大參數、大算力，但對實時性要求沒那么苛刻。DiT處理的是動作生成，包括關節怎么動、軌跡怎么走、力怎么控。這些任務對延遲極其敏感，必須毫秒級響應。兩者通過KV緩存連接。大腦算好的結果緩存起來，小腦直接調用，避免了重復計算。這個設計兼顧了理解能力和實時性，是VLA落地的一個可行路徑。

第二個是Λ形注意力掩碼的工程價值。異步執行在VLA里是個常見問題，模型輸出動作塊后，執行過程中環境可能已經變了，但模型還在按老路子走。這就像開車不看后視鏡，遲早要出事。小米在后訓練階段引入Λ形注意力掩碼，相當于給動作塊加了一個“近看歷史、遠看現實”的機制。動作塊的開始部分回看歷史動作，保證連貫不抖動；后面部分強迫盯著當前視覺反饋，確保動作根據環境實時修正。這個機制讓模型在“保持流暢”和“響應變化”之間找到了平衡。

第三個是觸覺感知的工業意義。視覺在工廠環境里容易失效，光照變化、粉塵遮擋、反光干擾，都是家常便飯。而觸覺不會騙人。小米的TacRefineNet走的是純觸覺微調路線，不需要視覺、不需要物體三維模型，Zero-shot就能部署。這意味著在某些環節，機器人可以“不看只聽手感”。當視覺被焊渣擋住時，它靠觸覺知道螺母有沒有滑脫；當光照不足時，它靠觸覺感知對準的力度。這種多模態的冗余感知，是非結構化環境作業的關鍵能力。

這三項技術疊加，構成了一個完整的“感知－決策－執行”閉環。90.2%的成功率，說明小米人形機器人這個技術閉環在真實產線上跑通了，這無疑是一個從0到1的突破。

04.

下一步問題在哪？

從90.2%到99.5%，差的不是技術理念，而是工程數據。

具身智能的底層邏輯是“數據驅動”，也就是模型再強，沒見過足夠多的失敗場景，就不知道怎么避坑。自攻螺母的失效率分布里，有多少是來料批次問題？有多少是車身震動導致？有多少是視覺被遮擋？有多少是磁吸力干擾？這些細分場景，沒有成千上萬小時的現場跑，根本積累不出來。

小米這次只跑了3小時。3小時能驗證技術路徑，但優化不了長尾問題。

舉個例子。那9.8%的失敗里，可能有2%是因為某批次螺母的毛刺超標，機器人力控沒反應過來；可能有3%是因為產線傳送帶的細微震動，視覺定位偏了；可能有2%是因為花鍵和鍵槽在特定角度下卡死；剩下的是各種隨機干擾。每一個失敗原因，都需要對應的數據來訓練模型應對。

這就是工業落地和實驗室研究的根本區別。實驗室里，失敗可以重來一千次；生產線上，每失敗一次都是真金白銀的損失。小米接下來要做的，不是在實驗室里調算法，而是讓機器人在產線上跑下去，跑出數據，跑出失效案例，跑出針對每個失效場景的應對策略。這個過程沒有捷徑，只有時間堆出來的魯棒性。

05.

具身智能的“工業化”落地才剛剛開始

如果把小米人形這件事放在“具身智能產業化”的大背景下看，意義會更清晰。

過去幾年，人形機器人火得一塌糊涂。但大多數展示都停留在“走路”“跑步”“跳舞”的層面，這些技能很酷，但離實際應用很遠。真正缺的，是在真實場景里干活的能力。

工業場景是具身智能最好的試金石。它的苛刻在于，不給試錯空間。你要么達標，要么走人。這反而是一種殘酷的篩選機制，能在產線上活下來的技術，才是真技術。

從這個意義上說，小米這次的測試，價值不在于“成功了90.2%”，而在于暴露了那9.8%的失敗。那些失敗案例，才是具身智能距離成功落地下一步要啃的硬骨頭。

波士頓動力做了三十年，Atlas能后空翻，但進不了工廠。為什么？因為跳舞和后空翻是開環控制，工廠干活是閉環控制，你得根據環境變化實時調整動作，優化變量和環境表現，而不是按預設程序走一遍。小米這條路，本質上是把機器人從“程序執行者”變成“任務完成者”。程序執行者需要環境適配它；任務完成者可以適配環境。后者才是具身智能落地的終極形態。

當然，這條路還很長。90.2%到99.5%的距離，可能比0到90.2%還要遠。但方向有了，剩下的就是更多跑起來，并且嘗試更多可能性。

06.

結語與未來

小米機器人進廠這件事，如果只看結果，確實“不太行”。但如果看過程和技術路線，它無疑是一次有價值的探索。如果給這件事打分，工業維度上只有50分，技術維度80分。工業維度不及格，因為90.2%確實沒法用；但技術維度良好，因為小米在真實產線上跑通了VLA閉環，驗證了一條可能的路。

接下來要看的是，小米能不能把這條路走下去。能不能從3小時跑到300小時？能不能從90.2%跑到99.5%？能不能把那9.8%的失敗案例一個個吃透，轉化成模型的泛化能力？

這些問題，沒有標準答案，只有時間能給。

但有一點是確定的：具身智能的工業化，不是靠一兩篇論

文、一兩個demo就能完成的。它需要在真實產線上，一臺車一臺車地打螺絲，一個螺母一個螺母地積累數據。這個過程枯燥、緩慢，但它是必經之路。

為此，在開頭的兩會提案中，雷軍也提出三項具體建議：

一是加快突破工程化落地難題，推動規模化量產。建議以智能制造的實際需求為導向，重點提升人形機器人的工藝穩定性，力爭到2027年，在特定工業場景下實現平均無故障工作時間突破1萬小時，任務成功率超過99%。同時，通過政策引導，降低單體成本，提升工程化能力。

二是擴大智能制造應用場景，提高人形機器人使用率。鼓勵工廠開放更多生產工位，支持人形機器人在具體產線落地，承擔中高強度勞動任務，逐步推進規模化部署，建設全機器人生產線。

三是加強安全標準體系建設，推動人形機器人規范化應用。雷軍特別提到，應加快推動人形機器人唯一編碼的制定與實施，保障生產過程安全，強化數據安全與倫理隱私保護。同時，加強國際交流合作，推動“人形機器人+智能制造”全球標準制定，助力中國機器人走向全球。

如今，小米邁出了第一步。這一步不大，也不穩，但它是朝著正確方向邁的。

其實這就夠了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.