3月4日,在第十四屆全國人民代表大會第四次會議開幕前,全國人大代表,小米集團創始人、董事長兼CEO雷軍向大會提交五份建議案,聚焦人形機器人等領域。雷軍在建議案中指出,當前行業仍面臨大規模工程化應用的挑戰,要進一步推動人形機器人從“學徒工”向“正式工”轉變。
不久前,小米人形機器人已經第一次在真實產線上“打卡上班”了,其走進了一家真實的汽車工廠,要干的活竟然是“自攻螺母上件”這個汽車制造中非常枯燥也考驗作業柔性的工序之一。
![]()
這個工站的任務是這樣的:機器人從自動送釘設備里抓取螺母,然后把它放到自攻擰緊的定位工裝上,配合滑臺輸送和自動定位鎖定,最終在汽車一體化壓鑄后地板零件上完成自攻擰緊。整個過程涉及抓取、對準、放置、避讓等多個動作序列,而最難的部分,是自攻螺母安裝時的“精準對位”。
為什么難?因為自攻螺母內側有花鍵結構,每次抓取后,螺母在手里的姿態是隨機的;定位銷軸帶有磁吸力,靠近時會產生拉扯干擾;再加上產線本身的震動、來料的公差、光照的變化,這些因素疊加在一起,讓這個看似簡單的“放螺母”動作,對人形機器人來說變成了一個頗具難度的工程學難題。
![]()
小米官方公布的數據是:人形機器人連續自主運行了3小時,雙側同時安裝成功率90.2%,同時滿足了最快76秒的產線生產節拍。
這個數據發布后,行業內議論紛紛。有人不屑一顧,說90.2%的成功率在汽車廠根本沒法用;也有人認為,這是人形機器人第一次在真實產線上跑通完整工序,意義大于數據本身。
作為一個長期關注機器人技術落地的行業媒體,我們試圖從技術縱深的角度,把這90.2%掰開揉碎,看看它到底意味著什么。
01.
90.2%是否不夠看?
先說不好的那部分。
在汽車制造領域,良率是一個極其殘酷的指標。一條成熟的自動化產線,對設備的核心要求不是“能做”,而是“一直能做”。對于裝配類工站,行業通用的良率標準是99.5%以上,核心工站甚至要求99.9%。這意味著每1000次作業,最多只能有1次失敗,乃至不能存在失敗。
為什么這么苛刻?因為汽車產線是連續流生產,一個工站的失誤會直接導致整條線停擺。以年產10萬輛的工廠計算,90.2%的成功率意味著每年將有9800輛車需要人工干預或返工。自攻螺母如果打歪了,輕則人工補擰,重則拆車重來,單次返工成本少則幾百,多則上千。算下來,僅這一項如果不加以干預就可能造成數百萬元甚至上千萬元的損失。
![]()
更重要的是,90.2%意味著不確定性。在精益生產的語境里,不確定性比低效率更可怕。效率低可以提速,但不確定會讓整個生產計劃崩塌。班組長沒法安排生產,因為不知道下一臺車會不會出問題;質量部門沒法把控,因為不良品是隨機出現的。這也是為什么工廠老師傅會直言:你這機器人,還不如我花兩萬塊請的臨時工,臨時工至少穩定,該干多少活就干多少活。
但話又說回來,這個對比本身就不公平。臨時工干的活,是人經過幾十年進化才學會的;而機器人面對的,是一個對它來說完全陌生的物理世界。
自攻螺母這個工藝,在工業自動化領域屬于“難啃的骨頭”。它不是簡單的“對準-擰緊”,而是“鉆孔+攻絲+擰緊”三合一。過程中要克服材料硬度波動、來料公差、定位偏差等多重干擾。傳統工業機器人解決這個問題,靠的是“剛性自動化”,也就是基于高精度夾具,把零件死死固定,視覺系統做精準引導,力控傳感器實時反饋扭矩,再加上工程師的現場調試。這套方案有效,但代價是成本高、柔性差,換一種零件、調一個車型,就得重新編程、重新標定。
小米這次用的是人形機器人,走的是完全不同的技術路線。所以,單看90.2%這個數字,確實不夠看,但如果看這個數字是怎么來的,結論可能不一樣。
02.
這是第一次用“大腦”替代“程序”
小米這次的技術方案,核心是端到端的數據驅動控制。
傳統工業機器人的邏輯是“規則編程”,也就是由工程師把任務拆解成一個個步驟,寫成代碼,機器人按部就班執行。這套邏輯在結構化環境里很好用,環境固定、物體固定、動作固定,程序可以精確控制每一步。
但自攻螺母這個場景,恰恰是非結構化的高柔性作業。螺母姿態隨機、磁吸力干擾、產線震動,這些變量無法在編程時全部預判。規則寫得再細,總有覆蓋不到的角落,總有無法規避的問題。
小米的解法是試圖實現一個自主化的工位,并且不讓工程師頻繁改寫規則,讓機器人自己學。他們用的Xiaomi-Robotics-0其實也是VLA架構,也就是一種Vision-Language-Action具身模型。這個模型扮演“大腦”的角色,負責理解任務、感知環境、做出決策。大腦輸出的不是具體的關節角度,而是“意圖”,比如“我要把螺母對準定位銷”。
![]()
隨后,意圖交給“小腦”執行。小米人形機器人的小腦是一個只有16層的DiT(Diffusion Transformer),它的任務是把意圖翻譯成連續的動作軌跡。這里的關鍵是“連續”,傳統方法往往把動作離散化成token,就像動畫片的逐幀畫面,容易卡頓和不連貫。DiT配合流匹配技術,直接生成平滑的動作流,相當于從逐幀動畫升級到高清視頻。
執行過程中,觸覺系統全程參與。小米TacRefineNet是一個純觸覺驅動的微調模型,依賴11×9的壓阻式觸覺陣列,觸點間距1.1毫米,可以實現毫米級的位姿修正。當視覺因為光照或遮擋看不清時,觸覺補償會告訴機器人“是不是對準了”、“有沒有滑脫”。
這套架構的底層邏輯是:讓機器人在真實環境中迭代優化。不是在仿真里跑一萬次,而是在產線上跑一次,學一次;失敗一次,改進一次。90.2%的成功率,意味著在3小時里,這套“大腦-小腦-觸覺”閉環跑通了,雖然還不穩,但方向是對的。
03.
技術創新點還有哪些?
小米這次公開的技術細節里,有幾個值得深入分析的點。
第一個是大小腦架構的設計取舍。VLM做大腦,DiT做小腦,這個分工figure等公司也在嘗試。因為VLM處理的是全局理解,例如圖像里有什么、指令是什么意思、下一步該干什么。這些任務需要大參數、大算力,但對實時性要求沒那么苛刻。DiT處理的是動作生成,包括關節怎么動、軌跡怎么走、力怎么控。這些任務對延遲極其敏感,必須毫秒級響應。兩者通過KV緩存連接。大腦算好的結果緩存起來,小腦直接調用,避免了重復計算。這個設計兼顧了理解能力和實時性,是VLA落地的一個可行路徑。
第二個是Λ形注意力掩碼的工程價值。異步執行在VLA里是個常見問題,模型輸出動作塊后,執行過程中環境可能已經變了,但模型還在按老路子走。這就像開車不看后視鏡,遲早要出事。小米在后訓練階段引入Λ形注意力掩碼,相當于給動作塊加了一個“近看歷史、遠看現實”的機制。動作塊的開始部分回看歷史動作,保證連貫不抖動;后面部分強迫盯著當前視覺反饋,確保動作根據環境實時修正。這個機制讓模型在“保持流暢”和“響應變化”之間找到了平衡。
![]()
第三個是觸覺感知的工業意義。視覺在工廠環境里容易失效,光照變化、粉塵遮擋、反光干擾,都是家常便飯。而觸覺不會騙人。小米的TacRefineNet走的是純觸覺微調路線,不需要視覺、不需要物體三維模型,Zero-shot就能部署。這意味著在某些環節,機器人可以“不看只聽手感”。當視覺被焊渣擋住時,它靠觸覺知道螺母有沒有滑脫;當光照不足時,它靠觸覺感知對準的力度。這種多模態的冗余感知,是非結構化環境作業的關鍵能力。
這三項技術疊加,構成了一個完整的“感知-決策-執行”閉環。90.2%的成功率,說明小米人形機器人這個技術閉環在真實產線上跑通了,這無疑是一個從0到1的突破。
04.
下一步問題在哪?
從90.2%到99.5%,差的不是技術理念,而是工程數據。
具身智能的底層邏輯是“數據驅動”,也就是模型再強,沒見過足夠多的失敗場景,就不知道怎么避坑。自攻螺母的失效率分布里,有多少是來料批次問題?有多少是車身震動導致?有多少是視覺被遮擋?有多少是磁吸力干擾?這些細分場景,沒有成千上萬小時的現場跑,根本積累不出來。
小米這次只跑了3小時。3小時能驗證技術路徑,但優化不了長尾問題。
舉個例子。那9.8%的失敗里,可能有2%是因為某批次螺母的毛刺超標,機器人力控沒反應過來;可能有3%是因為產線傳送帶的細微震動,視覺定位偏了;可能有2%是因為花鍵和鍵槽在特定角度下卡死;剩下的是各種隨機干擾。每一個失敗原因,都需要對應的數據來訓練模型應對。
![]()
這就是工業落地和實驗室研究的根本區別。實驗室里,失敗可以重來一千次;生產線上,每失敗一次都是真金白銀的損失。小米接下來要做的,不是在實驗室里調算法,而是讓機器人在產線上跑下去,跑出數據,跑出失效案例,跑出針對每個失效場景的應對策略。這個過程沒有捷徑,只有時間堆出來的魯棒性。
05.
具身智能的“工業化”落地才剛剛開始
如果把小米人形這件事放在“具身智能產業化”的大背景下看,意義會更清晰。
過去幾年,人形機器人火得一塌糊涂。但大多數展示都停留在“走路”“跑步”“跳舞”的層面,這些技能很酷,但離實際應用很遠。真正缺的,是在真實場景里干活的能力。
工業場景是具身智能最好的試金石。它的苛刻在于,不給試錯空間。你要么達標,要么走人。這反而是一種殘酷的篩選機制,能在產線上活下來的技術,才是真技術。
從這個意義上說,小米這次的測試,價值不在于“成功了90.2%”,而在于暴露了那9.8%的失敗。那些失敗案例,才是具身智能距離成功落地下一步要啃的硬骨頭。
![]()
波士頓動力做了三十年,Atlas能后空翻,但進不了工廠。為什么?因為跳舞和后空翻是開環控制,工廠干活是閉環控制,你得根據環境變化實時調整動作,優化變量和環境表現,而不是按預設程序走一遍。小米這條路,本質上是把機器人從“程序執行者”變成“任務完成者”。程序執行者需要環境適配它;任務完成者可以適配環境。后者才是具身智能落地的終極形態。
當然,這條路還很長。90.2%到99.5%的距離,可能比0到90.2%還要遠。但方向有了,剩下的就是更多跑起來,并且嘗試更多可能性。
06.
結語與未來
小米機器人進廠這件事,如果只看結果,確實“不太行”。但如果看過程和技術路線,它無疑是一次有價值的探索。如果給這件事打分,工業維度上只有50分,技術維度80分。工業維度不及格,因為90.2%確實沒法用;但技術維度良好,因為小米在真實產線上跑通了VLA閉環,驗證了一條可能的路。
接下來要看的是,小米能不能把這條路走下去。能不能從3小時跑到300小時?能不能從90.2%跑到99.5%?能不能把那9.8%的失敗案例一個個吃透,轉化成模型的泛化能力?
這些問題,沒有標準答案,只有時間能給。
但有一點是確定的:具身智能的工業化,不是靠一兩篇論
文、一兩個demo就能完成的。它需要在真實產線上,一臺車一臺車地打螺絲,一個螺母一個螺母地積累數據。這個過程枯燥、緩慢,但它是必經之路。
為此,在開頭的兩會提案中,雷軍也提出三項具體建議:
一是加快突破工程化落地難題,推動規模化量產。建議以智能制造的實際需求為導向,重點提升人形機器人的工藝穩定性,力爭到2027年,在特定工業場景下實現平均無故障工作時間突破1萬小時,任務成功率超過99%。同時,通過政策引導,降低單體成本,提升工程化能力。
二是擴大智能制造應用場景,提高人形機器人使用率。鼓勵工廠開放更多生產工位,支持人形機器人在具體產線落地,承擔中高強度勞動任務,逐步推進規模化部署,建設全機器人生產線。
三是加強安全標準體系建設,推動人形機器人規范化應用。雷軍特別提到,應加快推動人形機器人唯一編碼的制定與實施,保障生產過程安全,強化數據安全與倫理隱私保護。同時,加強國際交流合作,推動“人形機器人+智能制造”全球標準制定,助力中國機器人走向全球。
如今,小米邁出了第一步。這一步不大,也不穩,但它是朝著正確方向邁的。
其實這就夠了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.