![]()
作者:彭堃方
編輯:呂鑫燚
出品:具身研習社
具身智能的數據卡點還沒解決,但好在我們走到了“數據平權”時刻。
此前,困住數據的無非是一個“荒”,百萬小時級的數據集別說還只是“望梅”階段,都不一定止渴。其本質在于當前數據量級遠沒有達到理想可行狀態,尤其是質量更高,數據金字塔最頂端的真機數據,其遙操作的采集方式,存在著結構性限制:本體成本高、部署復雜、采集效率低且數據受限于本體構型等。
遙操作存在明顯量級卡點,有量級優勢的仿真數據又有填不平的Embodiment Gap。
用一個并不嚴謹的比喻來說,數據就像是饑荒,但真機和仿真路線,一個有飯、一個有菜,誰都湊不出一桌能吃飽的飯菜。
今天,這番景象正在發生變化。
一個邁向規模化、多樣化、高質量的真實數據采集路徑,被真正走通了。它比仿真數據有著更小的GAP,比真機遙操作數據有更明顯的量級優勢:UMI(Universal Manipulation Interface,通用操作接口)
簡單來說,它是一種通過手持夾爪、攝像頭和位姿估計算法,將人類手勢動作直接轉化為機器人可學習軌跡的低成本數采方案。這種新范式,解決了真機數據采集成本高、效率低、數據跨本體不可復用、數據多樣性受限等一系列問題。
2026年,我們希望建立起100萬小時規模的具身真機數據產能。”鹿明機器人聯席CTO丁琰博士在對談中說道。穹徹智能RoboPocket的產品負責人呂峻博士也表示,他們已經開始進行眾包數采小規模測試,“全員數采的時代,可能比我們想象中來得更早”。
從范式本身來說,UMI通過更低的硬件成本,更高的產出效率讓數據不再只是昂貴的稀缺資源,也不再只是少數頭部企業的先天優勢。從生態來說,得益于umi范式的特殊性,數據采集不再需要困在數據采集工廠,而是走向真實物理世界中,還原更多真實任務。
UMI正在開啟一場某種意義上的“數據平權”。
在新技術的“向陽面”之下,新的問題也隨之而來。能通過簡單硬件輕松獲取數據,是否陷入了過度追求量級的極端路線?這場暴力美學如何平衡數據高質量與多樣性?
更重要的是,于具身智能而言,UMI意味著什么?
近一段時間,UMI的升級與改良產品密集出現,具身研習社圍繞UMI對話了國內代表性企業的技術專家,鹿明機器人聯席CTO丁琰博士和穹徹智能RoboPocket產品負責人呂峻博士。透過技術視角,我們將看到更真實的數據采集境況與未來發展趨勢。
![]()
UMI是什么?
在最初斯坦福的論文中,UMI被描述為一種“夾爪+視覺系統”的采集方案:通過在人類操作者手部或末端工具上部署輕量級傳感器與攝像頭,直接記錄操作過程中的軌跡、時序與環境反饋。
后來,Generalist、Sunday等團隊在此基礎上,將UMI從學術界帶到了產業屆,開啟大規模真機數據生產。(Sunday聯合創始人遲宬「ChengChi」,正是2024年UMI論文的兩位一作之一。)

圖片來源:Sunday
國內來看,鹿明的丁琰在美國讀博時曾嘗試用手柄遙操作機械臂采集數據,發現過程非常笨重且累人。他當時就有個愿望:能不能把笨重的機械臂“卸掉”,人直接拿著夾爪去操作 。2024年3月看到UMI相關工作后,他發現這與自己想“偷懶”、只關注前端操作的思路完全吻合 。
穹徹的團隊早在2021年就開始做遙操作數據集,但發現“數采工廠”模式存在三大瓶頸:成本極高、操作不直觀(隔空取物導致動作機械)、場景單一(遠不及真實世界)。因此,他們逐漸開展由“本體”到“外骨骼”再到“UMI”這種脫離機器,遠離實驗室環境的采集方案。
所以,今天我們看到UMI,其實某種程度上是用人代替機器人“本體”,讓人流動在現實環境中,讓人去操作一個機器夾爪產生操作數據。那如果一定要給UMI數據一個形態定義,它更像是介于Robot Data與Human Data之間的一種中間態:既不同于利用純互聯網視頻學習人類數據,也不同于強耦合的本體遙操數據。
但需要強調的是,這三者之間并非逐次替代關系,更談不上孰優孰劣。現實情況是,具身智能企業會根據自身的數據利用能力,進行混合使用、按需使用。
那么,為什么UMI會在短時間內讓一眾廠商“拍案稱絕”?這就是UMI數采范式最明顯的特點之一,就是價格足夠低。
最直觀來看,有兩個原因:一是它不斷刷新真實數據可規模化的上限,讓“真機數據難以規模化”這一長期共識出現松動;二是UMI數據與模型訓練之間形成了明確閉環,證明這類數據不僅能采,而且能訓出效果不錯的模型。
對整個具身智能行業而言,這是一場震動。行業并不只是為某一種采集技術而興奮,更是因為數據不再只屬于“頭號玩家”

圖片來源:鹿明機器人
以鹿明為例,其FastUMI Pro在成本與效率上相較傳統遙操方案有數量級的下降,僅測算人力成本UMI方案是遙操方案的1/5,如果計算硬件成本,則達到驚人的1/200;采集效率提升3倍。

圖片來源:穹徹智能
此外,穹徹智能另辟蹊徑,RoboPocket直接采用iPhone作為核心硬件方案,最大化復用現有智能終端,壓縮前期研發與部署成本。在呂峻博士看來“手機是一個很好的硬件”,想要超過它也并不容易。
這意味著,大規模真實數據,不再只是財力雄厚的頭部廠商的“專屬游戲”。過去受困于數據成本的第二、第三梯隊企業,也第一次具備了參與數據競爭的可能。
與此同時,UMI在數據層面實現了對機器人本體的解耦。同一套采集數據,可以適配不同構型的機械臂。這使得企業不再因為“數據綁定”而被迫鎖死構型選擇,也不必為某一既有數據框架所附著。
從結果來看,數據成本的下降,意味著行業不再只是“最多本體,誰就能暴力生產數據”。
![]()
事實上,在過去幾個月里,UMI并非一直被擺在臺面上討論。核心原因在于,業內始終對其數據質量存有疑問。畢竟,沒有高質量數據,UMI不只是無效,甚至可能成為一種“投毒”。
曾有說法認為,先前UMI方案采集的數據中,真正可用的比例可能只有10%。因此,一個關鍵問題長期懸而未決:用UMI采集的數據,真的能訓出一個可用的模型嗎?
在2025年底,情況開始發生變化。海外具身智能廠商在UMI數采范式下,先后訓練出了如Generalist的GEN-0、Sunday的ACT-1等模型,初步證明這條路徑是可走通的。
![]()
圖片說明:Sunday數采崗位JD,其中第一條即是要求遵循SOP,確保數據質量
也正是在這一階段,行業開始意識到,圍繞UMI真正需要被討論的,不是能不能采到很多數據,而是這些數據如何被治理,以確保質量
UMI容易被誤解成“用相機記錄人操作夾爪的過程”。但實際上,UMI是AI對物理世界的理解、對齊,并且在物理空間里面可以復現的交互行為記錄,必須在軌跡精度、時序一致性、畫面質量等多個維度同時達標。
丁琰博士曾撰文回答過為什么大量UMI設備采不出“能訓練模型的數據”,其中包括核心硬件性能不足,導致信息密度先天受限;設備并非系統級產品,而是傳感器拼裝體等原因。而這些導致采集的數據質量不夠高,無法進入訓練管線。
他認為“數據本質上是可Replay的具身交互軌跡”,從真實數據學習就是想要復現這種動作軌跡,如果數據質量得不到保證,如軌跡偏移、斷裂等等,機器人就無法把人類示教的動作復現。用他的話來說“這就像開卷考試,答案本身都不對,抄得再多也拿不到高分。”
這便催生出“前饋式”數據治理的解決方案。
鹿明機器人選擇重數據采集SOP,創立了含有8道工序的工業級數據質量評估體系。此前丁琰曾帶隊11個人在3個月時間里,采集了10萬條真機數據(FastUMI-100K),2000+小時的數據,帶給其團隊豐富的數據理解和大規模數據治理經驗。并且,FastUMI Pro設備可以直連電腦,用戶在采集過程中即可實時校驗數據有效性,從源頭避免低質量數據,將數據有效率提升至95%以上。
穹徹則更注重對采集人員的管理,在穹徹看來,數據采集人員在無本體、分布式采集過程中,會缺乏“約束”,即前者會使得采集人員缺乏與機器人本體同構的硬件約束,人類工作空間可能和機器本體出現出入;后者會使得采集人員的間接管理出現問題,包括遠程采集的指導、糾正、效率保障等。
穹徹智能此次發布的RoboPocket則將其對模型訓練的理解融為一個“數據導師App”,它能夠下發任務指導、實時交互提醒、多維度質量打分,也是通過采集階段的質量控制,避免后續數據處理存在的大量無效數據。據透露,穹徹智能內部正在小規模測試眾包數采模式,未來甚至可能將數據采集分包給更廣泛的普通人群。
![]()
圖片來源:穹徹智能
如呂博所說,穹徹將來可能面向普通用戶推出百元級的RoboPocket小型硬件套裝,用戶可通過手機搭配該硬件,在家庭場景中完成數據采集任務。此舉既能持續壓低數據采集成本,又能獲取多樣化的真實家庭場景數據,進而反哺模型優化迭代。
總之,在數據規模之上,數據還應該為訓出模型負責,而只有真正有用的高質量數據才能鍛造出能夠精細操作的模型。
![]()
近日著名投資機構a16z投資合伙人Oliver Hsu撰文《物理AI的部署鴻溝》中,指出橫亙在機器人落地過程中的第一個問題便是“分布偏移”——單一數據導致使實驗室模型在真實環境中失效。
“一個在機器人實驗室訓練的物體操作策略,在倉庫中會遇到不同的光照、不同的背景、不同的物體紋理和不同的物理特性。”所以,一個最簡單的辦法就是讓機器人見過更多真實環境數據。
![]()
圖片來源:鹿明機器人
實際上,UMI本身正是為了解決數據多樣性不足而誕生的。
如果你細看UMI產品的“定語”,無論是鹿明的FastUMI Pro,還是穹徹的RoboPocket,都反復強調一個關鍵詞——“無本體”。不過,擺脫機器人本體,并不只是因為本體成本高,更重要的是,它寄希望于讓數據采集走出實驗室。
穹徹在AirExo-2外骨骼產品階段就提出過“生產伴隨式數據采集”的概念:讓操作者在真實環境中完成生產任務的同時,自然完成數據采集。無論是在便利店上下貨,還是在倉儲、家庭等日常場景中,數據采集都可以被嵌入其中。
“人的想象力始終是貧瘠的”,“模型需要見到足夠多的數據,但數采廠任務場景有些局限,難以解決多樣性問題”。UMI讓數據采集以一種更分布式、更貼近日常生活的方式發生,從而獲得更豐富的場景數據。
但問題隨之而來,這是否意味著真機遙操作采集,已經走到“窮途末路”?
截至目前,全國已有數十家人形機器人訓練中心。能走出數采廠的UMI出現,看似對傳統真機數采工廠提出了挑戰。丁琰博士透露,在2024–2025年,遙操采集占據數采市場的絕大部分份額,但他判斷UMI的份額將迅速提升,目前已有近百家企業咨詢或采買FastUMI Pro設備。
然而這并不意味著“替代”。
呂峻博士指出,UMI本質上并非真機數據,仍然存在Embodiment Gap。丁琰博士也認為,在危險化工、重載搬運等場景中,遙操作機器人仍具備不可替代性;在某些高負載任務中,遙操反而更省力。
因此,更合理的判斷是:UMI數采與本體遙操數采,并非替代關系,而是一種長期的競合關系。
在中短期內,UMI這種重SOP、重人員管理的數據采集方式,反而更適合與現有數采工廠結合。它可以充分利用既有數采廠的管理經驗,在原有體系中引入新的采集范式,推動數采工廠升級,釋放更大的數據產能與價值。
據二位透露,目前鹿明機器人、穹徹智能都計劃在今年推動與G端、企業合作,建設數采廠或進入更多真實場景之中。
UMI的出現,并不是一次技術奇觀,更不是對既有路徑的“勝負裁決”。它之所以在這個時間點被迅速放大,本質原因只有一個:具身智能在真實世界的數據瓶頸,已經無法再單一靠堆本體、堆人力、堆預算來解決了。
因此,與其說UMI帶來了某種“顛覆”,不如說它提供了一種結構性緩解方案。它讓真實數據第一次有機會脫離重資產與實驗室,向規模化、分布式和日常化擴展。但這種擴展,并不意味著一條路線可以覆蓋所有場景。
歷史經驗反復證明,單一路徑的“過度共識”,往往比技術分歧更危險。當一種方案被過早地視為“標準答案”,行業很容易忽視它的邊界條件,也容易低估那些暫時看似低效、卻在關鍵場景中不可替代的能力。
UMI也是如此。它可能并不會取代真機遙操作、仿真數據或其他人類行為數據。更現實的圖景是,未來的具身智能數據體系,將是多源并存、按任務分層、按階段取舍的。
放在產業來看,具身智能的“數據荒”問題,或許并不會因為UMI而徹底消失,但它正在被拆解、被分流、被重新定義。而這,或許正是具身數據開始走向成熟的信號。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.