衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
“我們只交付100%可以復現的軌跡。”
具身智能創企鹿明機器人媒體溝通會上,聯席CTO丁琰對具身智能數據采集現狀、困境,以及最新興的采集方式UMI作了前沿的深度分享。
他在分享中反復強調,很多團隊以為具身模型訓不出來是卡在訓練階段,實際多數問題在數據生成的起點就已經埋下了。后面再堆模型、堆算力,只是在給錯誤輸入繼續加速。
丁琰的履歷能解釋他為什么會把“數據的可訓練性”看得這么重。
他的研究方向是機器人學與具身智能,2024年3月從美國紐約州立大學計算機學院博士畢業。去年年底加入鹿明之前,他做過一星機器人的CTO,更早則在上海AI Lab擔任研究員。
按他的說法,從2024年3月起,他就持續投入UMI方向,是大陸最早做UMI方向的人。
![]()
UMI全稱叫Universal Manipulation Interface,最早來自斯坦福在2024年2月提出的一套工作。
其核心是用與具體機器人本體解耦的方式,記錄人類在真實物理世界中的操作行為,把“操作意圖+運動軌跡+多模態感知”統一到一個通用接口里,供不同形態的機器人學習和復現。
在去年9月之前,UMI還是一個偏冷門的方向。
具身智能進入下半場后,數據的重要性與日俱增。
丁琰分享道,前段時間有人歸納了具身智能在解決數據難題時的四種解法。
- 遙操作數據,最著名的代表是智元機器人。
- 仿真數據,代表公司是銀河通用機器人。
- 人類視頻數據,它石智能就是這種解法的代表。
- UMI,去年9月開始冒頭,鹿明就是代表性公司。
鹿明基于現實需求,做出了一個名為FastUMI Pro的產品,這是一個無本體數采硬件。
系統適配市面主流機械臂和夾爪,機身重量在600多克量級,但能夾起兩三公斤物品,場景覆蓋工廠與家庭。
它還支持多模態輸入,包括觸覺、聽覺、六維力等。
在UMI設備最核心的空間精度上,丁琰稱FastUMI Pro的1mm是“全球最高精度”。
![]()
硬件產品背后,還有鹿明布局的數據采集、模型訓練生態。
以“可復現”作為第一性原理做數據治理,丁琰帶領團隊建立了8道工業級數據質量評估體系,并承諾只交付100%可復現軌跡。
(以下為丁琰分享的關于具身行業數采、UMI等相關內容,在不改變原意的基礎上作了編輯調整)
具身數采的現存痛點
2024年3月起,我就開始在做UMI,應該是大陸最早做這一塊的人。
大家都知道,具身智能最關鍵的就是數據,海量的數據是訓練的一個必經之路。
但是數據現在有很多痛點。
第一個痛點就是成本,成本異常高昂。
美國那邊,為了采集一個小時的訓練數據,大概要付出100-200美金的成本。
現在的具身模型都還很小,PI 0的訓練數據大概是1萬個小時,Generalist的GEN 0是27萬個小時。這個規模對比GPT-3的訓練數據,還是非常小的。
我們做了一個統計,大概相當于7.9億個小時的數據,才能在具身智能界訓出一個GPT-3規模的模型。按照現在的市場價格,需要耗費數百億美金。
![]()
另外,具身數據整體采集效率還是比較低的。
2023年到2024年左右,業內都是以遙操為主,一個小時大概能采集35條數據,效率異常低,成本也不可控。
遙操還有個問題是什么呢,就是采集時,因為攝像頭記錄的是機械臂本身的運動軌跡和畫面,但每家機器人長得又都不一樣,所以用A機器人做遙操作采集的數據是很難很難用到B機器人上的,這就產生了數據孤島問題。
大家重復造輪子,也會造成高昂的隱形成本。
這是我們想解決的關鍵問題所在。
用UMI數采,你為什么訓不出來模型?
前段時間我寫了一篇小紅薯,題目叫《你為什么訓練不出來UMI的模型?》。
我想就這次機會簡單跟大家介紹一下UMI行業的現狀。大家可能看到的更多的是冰山的一角,但浮在水下面的一個世界還是比較深的。
一個很明顯的現狀就是什么呢?
做UMI的人陸陸續續越來越多,但是訓出來模型的異常的少,可能一只手都數得過來。
很多UMI設備涌現出來,大家都會強調自己低成本、能即插即用、快速部署,但是基本上你看不到什么成功的案例,就這個是非常非常有意思的現象。
![]()
國外有兩家比較知名的公司,一個叫Sunday,一個叫Generalist,他們還是訓出模型了。
國內目前我們覺得訓模型訓得比較好的一家就是我們,再有就是清華一家,上交一家,總共也就兩、三家能訓得出來。
大多數情況下,要么訓不出來,要么即使是在相似的條件下能跑出來demo,時間也非常短,可能就3、4秒,也很卡頓,不絲滑。
關于為什么大家用UMI采集出來的數據訓不出模型,最常見的解釋是“算法不是很成熟”“模型不夠大”“數據規模不足”,但是其實這些解釋都不是真正的原因。
真正的原因根本不在于訓練階段,而在于訓練之初它就不是太對——
大量的UMI數據從生成開始就不具備進入訓練管線的這個條件。
說白了就是數據不合格。
![]()
什么是可以訓練的UMI數據
大家會有誤解,總覺得UMI數據就是人拿個夾爪,就把這個視頻數據記錄下來就行了,非常非常簡單,所有人都可以做。
其實完全不是。
UMI其實是AI對物理世界的理解對齊,并且在這個物理空間里面可以復現的這種交互行為。
它必須滿足幾個條件。
![]()
拆開了講,第一個就是說畫面要跟動作要嚴格對齊,要跟空間位置嚴格對齊;另外一個就是說因為UMI可以集成多個傳感器,每個傳感器之間也要做到毫秒級的同步。
舉個例子,一個人想去拿眼前的一瓶水,不對齊的話得反應好幾秒,水就可能拿不起來。
另外,一個好的軌跡必須可以在物理空間運動中可復現的。
本質要求是希望UMI采集的數據是高一致性的、高密度的,并且可復現的時序數據結構。
為什么大多數UMI設備采不到好的數據?
現在大量的UMI設備采不出滿足條件的數據,兩個根本原因。
一,核心問題是硬件能力完全不夠。
UMI的CMOS組件或者主控芯片,性能非常差。
導致的結果就是畫面覆蓋有限,畫質不怎么好,曝光也不怎么好,幀率比較抖動,這時候畫面就非常糟糕。
它破壞了動作和視覺的因果關系。本來模仿學習就是我看到什么畫面就做什么動作,結果畫面和動作完全無法對齊,就會導致這個模型根本沒辦法學習。
![]()
二,市面上很多產品不是系統設計的,而是很多現成模塊拼湊起來,用USB Hub連接的。
這樣一來,產品的貸款架構非常脆弱,每個模塊都會搶帶寬。一旦有什么負載,就會出現掉幀等一系列問題,所以數據的質量就非常糟糕,基本沒辦法穩定復現交互記錄。
也就是說,從硬件層面講,這些設備從一開始就沒辦法訓出模型需要的數據。
“臟數據”和“廢數據”
但即使設備好了,采的數據能不能訓出數據也不是一定的。
舉個例子,別人拿到我們的設備,也不一定能訓出好的數據。
為什么呢?這就要說數據的質量高低了。
數據質量的高低其實并不是干凈程度,而是說有效的信息密度。
低質量的數據,包含大量抖動、漂移、時間錯位,非常不利于學習。特別是在單視角情況(很多UMI是單個機械臂),這種噪聲不會因為你的數據量增大而被平滑掉,所以說你學出來的策略會非常非常糟糕,基本上訓不出來。
低價值數據不是完全沒有價值。
它還是有點價值,可以去認識這個世界,知道什么是杯子,什么是麥克風,但沒辦法從它身上學習到精確的物理交互信息。
它不知道桌上的麥克風我是怎么拿到的,我到底該正著拿還是反著拿,還是需要傾斜角度去拿。
除了低質量的臟數據,我還把一種數據叫“廢數據”。
![]()
廢數據是什么?
就是很多人拿著設備直接去眾包去采集了,人怎么采就拿它怎么采。
這種數據完全copy人類的自然行為,沒有任何設計和技巧,過于“天然去雕飾”了,基本上是不可能訓出來模型的。
現在都在做的疊衣服,其實是最需要采集技巧的一個任務。疊衣服的時候要抖一下,抖的過程中還要注意方向、速度,才能抖好。
但人在疊衣服的時候,很少會注意那么多tricks。
每家具身公司都有自己的采集技巧,所以如果沒有注入任何技巧,即便拿到很好的UMI設備,采集的數據很像人的行為,但其實是廢數據,基本上模型訓練不了。
能當然可能未來,十年、二十年,模型發展好了,這些數據可能就有用了。但目前很長一段階段這些數據基本上訓不了,所以稱為廢數據。
硬件、數據和算法環環相扣
正確的UMI的工程范式首先是一種系統的自洽,而不是一種簡單的功能拼接。
傳統的路徑下面大家做機器人,首先有個硬件,硬件弄完了之后再弄軟件,弄完軟件我再弄算法,我反過頭來我再去補點數據,把這個整個loop給跑通。
但在UMI這個很特殊的場景下,這個范式是失效的。
因為UMI是一個強耦合系統,數據會決定整個模型的性能,硬件會決定這個數據的質量;數據又會決定這個算法的性能,算法又會反向去約束我這個硬件的執行和這個數據的設計。
硬件、數據和算法環環相扣,任何單點的這種失效都會導致訓不出優秀的模型。
![]()
關于UMI,團隊做了什么
博士畢業后,我從2024年3月就開始在做面向UMI的工作。
去年9月之前,UMI在行業里還是比較冷門的,除了我和我的團隊基本沒人做。
當時我們就有一個愿景,希望能打破這個數據獲取的這個不可能的三角,把非常高質量的數據砍到白菜價,加速應用來推進這個整個具身智能行業的發展。
這里跟大家分享我和團隊近兩年的一些典型工作。
![]()
首先就是FastUMI,我是這篇工作的通訊作者。
FastUMI應該是全球首個將學術界(UMI,斯坦福,2024年2月)的工作升級成工業級別系統,然后推進它進入工業的。我們從2024年3月左右開始做這個工作,在7、8月左右完成,當年的9月中了CoRL 2025。
FastUMI主要解決的問題是提高采集效率和數據質量。
另外一個工作是FastUMI 100K。
在有了一個很穩定的軟硬件系統后,我們開始擴大規模去采數據。當時我在上海AI Lab建立了一個數采長,我帶著11個人在3個月時間里,采集了10萬條真機數據,為機器學習提供了非常高質量的數據支持。
這是全世界首個大型的UMI數據集。
從這個工作中FastUMI團隊獲得了大規模的數據治理的經驗。
我們還有一個工作叫Fastumi-MLM,它把UMI這項技術用于“狗+臂”。
之前UMI都應用在單臂、雙臂或者輪式雙臂工作上。這是大陸第一個能將UMI用在這種構型機器人上的工作。
除此之外,還有Spatial VLA、Agibot World、AskVLA等等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.