網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

鹿明聯(lián)席CTO丁琰：如何告別“臟、廢數(shù)據(jù)”，交付可復(fù)現(xiàn)的UMI數(shù)據(jù)？

2026-01-11 19:55:12　來(lái)源: 四木相對(duì)論

北京舉報(bào)

分享至

數(shù)據(jù)這個(gè)難題，一直在和具身從業(yè)者“相愛(ài)相殺”。

一方面，所有人都認(rèn)為高價(jià)值數(shù)據(jù)是決定機(jī)器人智能的關(guān)鍵，但另一方面，各種數(shù)據(jù)采集路徑依舊沒(méi)有統(tǒng)一。

不管是學(xué)習(xí)人類視頻、在仿真環(huán)境中生成無(wú)限合成數(shù)據(jù)，還是使用觸覺(jué)手套、高精度機(jī)械臂、靈巧手等設(shè)備遙操，具身數(shù)據(jù)始終難以突破采集成本高、效率低、難規(guī)模化、不同本體互通難、泛化能力不足等問(wèn)題。

甚至，國(guó)內(nèi)具身領(lǐng)域還出現(xiàn)了“數(shù)據(jù)四小龍”的名號(hào)。

在這個(gè)分類中，智元機(jī)器人被看作遙控真機(jī)數(shù)據(jù)派，銀河通用走仿真數(shù)據(jù)路線，它石智航則是人類視頻數(shù)據(jù)的代表，而大力落地UMI（無(wú)本體模仿學(xué)習(xí)）的公司，鹿明機(jī)器人是有些代表性的一家。

鹿明機(jī)器人成立于2024年9月，創(chuàng)始人喻超是前追覓人形機(jī)器人業(yè)務(wù)負(fù)責(zé)人，擁有近10年具身機(jī)器人研發(fā)經(jīng)驗(yàn)。曾帶隊(duì)完成了小米Cyberdog的研發(fā)量產(chǎn)項(xiàng)目。

過(guò)去一年，這家公司推出過(guò)多款機(jī)器人整機(jī)產(chǎn)品，還自主研發(fā)FastUMI Pro數(shù)據(jù)采集系統(tǒng)。這個(gè)系統(tǒng)是鹿明針對(duì)UMI落地的產(chǎn)品，也是它現(xiàn)在的業(yè)務(wù)重點(diǎn)。

*鹿明的整機(jī)和數(shù)據(jù)采集系統(tǒng)

UMI是一種比較新興的數(shù)據(jù)采集模式。

根據(jù)一些定義，它的核心目標(biāo)是通過(guò)一套統(tǒng)一的數(shù)據(jù)表達(dá)與采集方式，覆蓋不同形態(tài)、不同自由度的操作系統(tǒng)。這種模式首先將人類示教、視覺(jué)感知和操作軌跡映射到一個(gè)獨(dú)立于具體機(jī)器人形態(tài)的中間空間，并利用硬件設(shè)備記錄完整的運(yùn)動(dòng)軌跡和空間數(shù)據(jù)，再經(jīng)過(guò)模仿學(xué)習(xí)算法的加工，把人類在現(xiàn)實(shí)世界中的自然操作轉(zhuǎn)化為機(jī)器人可學(xué)習(xí)的數(shù)據(jù)。

相比其他數(shù)據(jù)采集方式，UMI的主要特點(diǎn)是成本低、采集效率高，可以跨本體，能夠讓同一份操作數(shù)據(jù)在不同硬件平臺(tái)上被理解和學(xué)習(xí)。

2025年下半年，海外的兩個(gè)明星產(chǎn)品，Generalist的新模型Gen 0，以及Sunday Robotics，都采用了UMI。

*利用鹿明FastUMI Pro采集數(shù)據(jù)，復(fù)現(xiàn)復(fù)雜任務(wù)

鹿明機(jī)器人也設(shè)計(jì)了UMI 數(shù)據(jù)采集系統(tǒng)——FastUMI Pro。目前，這家公司已經(jīng)與三菱電機(jī)、中遠(yuǎn)海運(yùn)、德馬科技等產(chǎn)業(yè)巨頭達(dá)成戰(zhàn)略合作，圍繞工業(yè)場(chǎng)景展開(kāi)探索。

在最近的一場(chǎng)分享中，喻超稱，2026年，鹿明將達(dá)成超100萬(wàn)小時(shí)的具身真機(jī)數(shù)據(jù)產(chǎn)能，目標(biāo)建設(shè)全球規(guī)模最大的高質(zhì)量真機(jī)數(shù)據(jù)集。

鹿明機(jī)器人的聯(lián)席CTO丁琰，此前在上海AI Lab擔(dān)任研究員，在一星機(jī)器人擔(dān)任過(guò)CTO，是國(guó)內(nèi)最早推動(dòng)UMI落地的從業(yè)者之一。

他觀察到，現(xiàn)在UMI正處于快速落地的階段，但同時(shí)也有很多不為人知的問(wèn)題：

首先，市場(chǎng)快速涌現(xiàn)出多種UMI數(shù)采設(shè)備，但訓(xùn)出來(lái)的UMI模型卻很少。

這是因?yàn)榇罅康腢MI數(shù)據(jù)從生成之初就不具備進(jìn)入訓(xùn)練管線的條件，也就是數(shù)據(jù)質(zhì)量不合格。

很多人認(rèn)為只要拿著夾爪、錄制一段視頻，就能生成UMI訓(xùn)練數(shù)據(jù)。但事實(shí)遠(yuǎn)非如此。真正的UMI 數(shù)據(jù)，本質(zhì)上是 AI 對(duì)物理世界的“對(duì)齊”與“復(fù)現(xiàn)”。

可以訓(xùn)練的UMI數(shù)據(jù)必須滿足幾個(gè)條件。第一是每一幀視覺(jué)和空間位姿都要嚴(yán)格對(duì)齊。另外，UMI可以集成多個(gè)傳感器，每個(gè)傳感器之間也要做到毫秒級(jí)的同步。比如，一個(gè)人想去拿眼前的一瓶水，不對(duì)齊的話得反應(yīng)好幾秒，水就可能拿不起來(lái)。

而且，一個(gè)好的軌跡必須可以在物理空間運(yùn)動(dòng)中可復(fù)現(xiàn)。本質(zhì)要求是希望UMI采集的數(shù)據(jù)是高一致性的、高密度的，并且有可復(fù)現(xiàn)的時(shí)序數(shù)據(jù)結(jié)構(gòu)。

而且，現(xiàn)在很多數(shù)據(jù)是低質(zhì)量的“臟數(shù)據(jù)”以及讓模型學(xué)習(xí)異常困難的“廢數(shù)據(jù)”。

“臟數(shù)據(jù)”中包含大量抖動(dòng)、漂移、時(shí)間錯(cuò)位，雖然有感知價(jià)值，但難以支撐動(dòng)作策略學(xué)習(xí)。在單視角UMl + imitation learning場(chǎng)景中，這些“噪聲”不會(huì)被海量數(shù)據(jù)抵消，反而會(huì)被模型持續(xù)放大。

“廢數(shù)據(jù)”，完全復(fù)制人在自然狀態(tài)下隨性的動(dòng)作，沒(méi)有注入采集技巧，無(wú)法用于模型訓(xùn)練。舉個(gè)疊衣服的例子，人類自然的疊衣服動(dòng)作對(duì)于機(jī)器人來(lái)說(shuō)往往是無(wú)效的，因?yàn)闄C(jī)器人需要特定的“技巧性動(dòng)作”（比如特定的抖動(dòng)、鋪平軌跡）才能理解物理特性。

沒(méi)有經(jīng)過(guò)設(shè)計(jì)的、缺乏“信息密度”的自然行為數(shù)據(jù)，機(jī)器人看了也學(xué)不會(huì)，數(shù)據(jù)不僅要“真”，還要“有教學(xué)意義”。

現(xiàn)在很多UMI設(shè)備采不出滿足條件的數(shù)據(jù)，有兩個(gè)根本原因。

第一個(gè)核心問(wèn)題是核心硬件模組能力不夠。如果UMI的CMOS組件或者主控芯片，性能非常差，就會(huì)導(dǎo)致畫面覆蓋有限，畫質(zhì)不好，曝光也不好，幀率比較抖動(dòng)，破壞了動(dòng)作和視覺(jué)的因果關(guān)系。模仿學(xué)習(xí)是機(jī)器看到什么畫面就做什么動(dòng)作，但畫面和動(dòng)作完全無(wú)法對(duì)齊，導(dǎo)致這個(gè)模型沒(méi)辦法學(xué)習(xí)。

第二，市面上很多產(chǎn)品不是系統(tǒng)設(shè)計(jì)的，而是很多現(xiàn)成模塊拼湊起來(lái)，用USB Hub連接的。這使得產(chǎn)品的帶寬架構(gòu)非常脆弱，每個(gè)模塊都會(huì)搶帶寬。一旦有什么負(fù)載，就會(huì)出現(xiàn)掉幀等一系列問(wèn)題，所以數(shù)據(jù)的質(zhì)量就非常糟糕，不能穩(wěn)定復(fù)現(xiàn)交互記錄。

丁琰介紹，正是希望UMI“正確”落地，鹿明在硬件產(chǎn)品、數(shù)據(jù)采集及模型訓(xùn)練生態(tài)等維度都做了布局。

首先是公司自主研發(fā)的FastUMI Pro（無(wú)本體模仿學(xué)習(xí)）數(shù)據(jù)采集系統(tǒng)，將單條數(shù)據(jù)采集時(shí)間從50秒縮短至10秒，效率提升5倍，同時(shí)將綜合成本降至傳統(tǒng)方法的五分之一。

并且，F(xiàn)astUMI Pro還集成了為UMI場(chǎng)景定制的高性能傳感器，能實(shí)現(xiàn)60Hz高頻記錄，讓多模態(tài)信息的毫秒級(jí)同步，使數(shù)據(jù)有效率從行業(yè)普遍的70%提升至95%以上。

據(jù)稱，現(xiàn)在全球具身智能圈里超過(guò)三分之二的團(tuán)隊(duì)，正在使用FastUMI Pro。

*鹿明FastUMI Pro

在這次交流中，鹿明的創(chuàng)始團(tuán)隊(duì)還向現(xiàn)場(chǎng)媒體分享了更多對(duì)具身數(shù)據(jù)和UMI的看法。

以下是交流節(jié)選：

Q：目前具身智能的數(shù)據(jù)獲取主要受限于高昂的成本與極低的效率。行業(yè)內(nèi)正圍繞遙控真機(jī)采集、仿真模擬、互聯(lián)網(wǎng)視頻學(xué)習(xí)三種方案展開(kāi)探索。怎么看待這三個(gè)方案？

鹿明：我習(xí)慣從控制論和信息熵的角度來(lái)看待這個(gè)問(wèn)題：

仿真數(shù)據(jù)不產(chǎn)生新的信息增量。仿真出的環(huán)境，跳不出構(gòu)建系統(tǒng)時(shí)設(shè)定的規(guī)則。它能讓動(dòng)作更絲滑，但給不了機(jī)器人面對(duì)物理世界時(shí)的“信息錨點(diǎn)”。

網(wǎng)絡(luò)視頻訓(xùn)練的是機(jī)器人的“大腦”，讓它看懂世界，但這離真正的“上手干活”還差一層。

真機(jī)數(shù)據(jù)是解決物理交互的唯一路徑。有多少真實(shí)的交互數(shù)據(jù)，機(jī)器人就有多少處理復(fù)雜物理問(wèn)題的能力。

視頻數(shù)據(jù)負(fù)責(zé)理解環(huán)境，真實(shí)數(shù)據(jù)負(fù)責(zé)物理交互，仿真增加信息的豐富度。

Q：你覺(jué)得未來(lái)UMI和遙操作分別占多大比例？

鹿明：我們覺(jué)得UMI可能是數(shù)據(jù)采集的終極解決方案。從第一性原理來(lái)看，人手直接操作是真實(shí)物理世界中效率最高的數(shù)據(jù)采集方式。如果將人手的采集效率定義為 00%，那么UMI這種“人手持夾爪”的采集效率已經(jīng)達(dá)到了90%，已經(jīng)逼近數(shù)據(jù)采集的效率極限。

從2024年P(guān)i0模型的1萬(wàn)小時(shí)真機(jī)數(shù)據(jù)，到2025年Gen-0模型使用的27萬(wàn)小時(shí)UMI數(shù)據(jù)，2026年的頭部算法公司的訓(xùn)練數(shù)據(jù)規(guī)模必然會(huì)突破百萬(wàn)小時(shí)。隨著需求的快速增長(zhǎng)，具身智能數(shù)據(jù)領(lǐng)域的市場(chǎng)需求必然爆發(fā)。

在2023年至2024年間，遙操作占據(jù)了絕大部分的市場(chǎng)份額，但進(jìn)入2025年和 2026年后，UMI的市場(chǎng)份額會(huì)迎來(lái)爆發(fā)式增長(zhǎng)。

Q：目前業(yè)內(nèi)主流的數(shù)采工廠大多是為輪式人形機(jī)器人設(shè)計(jì)的，場(chǎng)景往往局限于一張桌子、幾個(gè)積木或水杯，空間相對(duì)固定。相比之下，UMI似乎天然具備擺脫空間約束的優(yōu)勢(shì)。那么，一個(gè)理想的UMI數(shù)采工廠應(yīng)該如何設(shè)計(jì)？它的環(huán)境空間又該如何高效復(fù)刻？

鹿明：這是一個(gè)非常深刻的問(wèn)題，涉及行業(yè)內(nèi)的一個(gè)普遍誤區(qū)。

首先，關(guān)于UMI“不需要空間限制”或“可以隨意眾包”的觀點(diǎn)其實(shí)并不準(zhǔn)確。事實(shí)上，高質(zhì)量的UMI數(shù)據(jù)采集依然需要嚴(yán)密的物理空間設(shè)計(jì)，甚至有著極其嚴(yán)苛的規(guī)則限制。如果任由數(shù)采員無(wú)限制、無(wú)規(guī)則地自由發(fā)揮，產(chǎn)生的數(shù)據(jù)一致性將極差，最終導(dǎo)致模型無(wú)法收斂。這些關(guān)于空間設(shè)計(jì)的約束和技巧，是數(shù)據(jù)的核心商業(yè)機(jī)密之一。

關(guān)于 UMI 素材工廠的形態(tài)，我們認(rèn)為應(yīng)根據(jù)任務(wù)場(chǎng)景進(jìn)行差異化設(shè)計(jì)：

第一是桌面任務(wù)：雖然形式上也是桌子和物品，但我們會(huì)在工作站部署特殊的采集裝置。在這種半開(kāi)放環(huán)境下，通過(guò)特定的設(shè)備配置，確保在看似自由的操作中捕捉到高一致性的數(shù)據(jù)特征。

還有移動(dòng)操作任務(wù)：這是UMI真正的優(yōu)勢(shì)賽道。針對(duì)這類需要空間流轉(zhuǎn)的任務(wù)，我們提供了一套完整的解決方案：通過(guò)集成頭部相機(jī)、特殊傳感器以及雙手夾爪的硬件組合，記錄人在空間中移動(dòng)、交互的全過(guò)程。

但必須強(qiáng)調(diào)的是，即使在移動(dòng)操作中，數(shù)采員也并非“隨意亂走”。我們會(huì)制定一套復(fù)雜的空間引導(dǎo)規(guī)則，通過(guò)軟硬件結(jié)合的方式，確保采集過(guò)程既具備現(xiàn)實(shí)世界的豐富度，又符合模型訓(xùn)練所需的邏輯一致性。目前，鹿明已經(jīng)擁有三個(gè)成熟的數(shù)采工場(chǎng)，將通過(guò)這種“有規(guī)則的自由”，持續(xù)輸出百萬(wàn)小時(shí)級(jí)的高質(zhì)量具身數(shù)據(jù)。

Q：具身公司采用了UMI訓(xùn)練后，模型能力有沒(méi)有顯著提升？有Benchmark嗎？

鹿明：通過(guò)UMI能讓模型的上限提升，目前算是行業(yè)內(nèi)的共識(shí)。

至于Benchmark，在模型泛化能力的考驗(yàn)上，很多行業(yè)里的公司傾向于用某個(gè)單一任務(wù)的成功率來(lái)看具身智能模型是否實(shí)現(xiàn)泛化。

舉個(gè)例子，比如說(shuō)你要去評(píng)驗(yàn)一個(gè)任務(wù)，它可能會(huì)出現(xiàn)很多“極端/邊緣場(chǎng)景”（corner case）。為了這些場(chǎng)景，唯一的途徑可能就是堆數(shù)據(jù)，堆的越多模型見(jiàn)過(guò)的場(chǎng)景越多，成功率才會(huì)提升。

比如在Generalist疊紙盒子這個(gè)案例上，隨著數(shù)據(jù)越來(lái)越多，成功率是明顯提升的。

Q：怎么看數(shù)據(jù)、模型以及跨本體泛化的關(guān)系？

鹿明：這里的邏輯比想象中更加復(fù)雜，其實(shí)可以定位為數(shù)據(jù)、模型與硬件本體三個(gè)核心維度。

首先，數(shù)采硬件作為直接決定性因素，性能高低決定了數(shù)據(jù)的質(zhì)量，進(jìn)而數(shù)據(jù)質(zhì)量決定了模型的智能上限。劣質(zhì)數(shù)據(jù)絕無(wú)可能訓(xùn)練出優(yōu)秀的模型。鹿明首創(chuàng)了“為模型成功率負(fù)責(zé)”的系統(tǒng)工程范式，從硬件設(shè)計(jì)源頭保障數(shù)據(jù)質(zhì)量。在UMI設(shè)備最核心的空間精度上，F(xiàn)astUMI Pro達(dá)到了1mm，是全球最高精度。

模型訓(xùn)練完成后需要部署在硬件本體上，若本體執(zhí)行能力不足，模型的效果也無(wú)法得到極致發(fā)揮，它們之間是相互影響的關(guān)系。我們即將發(fā)布一款最適配UMI數(shù)據(jù)的輕量型機(jī)械臂，希望通過(guò)算法與硬件的深度耦合，將性能的表現(xiàn)提升到極致。

針對(duì)跨本體的物理泛化問(wèn)題，其實(shí)我只要在不同的機(jī)械臂上放一模一樣的相機(jī)，末端執(zhí)行器也保持相同，數(shù)據(jù)就可以互用了。

Q：整體看下來(lái)，你覺(jué)得數(shù)據(jù)采集過(guò)程中最難的是什么？

鹿明：人，人，還是人。流程設(shè)計(jì)得再完美，最后執(zhí)行的還是人。

數(shù)據(jù)需要高度的一致性，但“千人千面”很難統(tǒng)一，比如抓門把手關(guān)門，十個(gè)人有十種關(guān)法。如果這種不規(guī)范的數(shù)據(jù)喂進(jìn)去，模型就徹底亂了。

為了解決這個(gè)問(wèn)題，我們走過(guò)不少?gòu)澛贰Ｗ畛跷覀冇昧艘粋€(gè)笨辦法：每采一段數(shù)據(jù)就丟進(jìn)小模型里訓(xùn)一下，能訓(xùn)通就說(shuō)明數(shù)據(jù)好。但成本太恐怖了，算力貴如金。

后來(lái)我們做了一套全自動(dòng)的評(píng)估體系。這套體系的核心就是解決“前處理”和“后處理”的矛盾。以前大家都是采完一堆拿回去慢慢挑，但經(jīng)驗(yàn)告訴我：數(shù)據(jù)必須瞬時(shí)評(píng)估。

通過(guò)軟件的自適應(yīng)培訓(xùn)方式，熟練采集工14天可以將數(shù)據(jù)有效率提升到95%以上

如果你不在采的那一刻告訴他“這條不行，重來(lái)”，那最后收回來(lái)的全是廢數(shù)據(jù)。所以我們堅(jiān)持要做及時(shí)評(píng)估系統(tǒng)，通過(guò)軟硬件結(jié)合，在采集發(fā)生的瞬間就卡死質(zhì)量關(guān)。這不是拍腦袋決定的，而是從無(wú)數(shù)“廢數(shù)據(jù)”堆里總結(jié)出來(lái)的實(shí)戰(zhàn)經(jīng)驗(yàn)。

因此以“可復(fù)現(xiàn)”作為第一性原理做數(shù)據(jù)治理，我?guī)е鴪F(tuán)隊(duì)建立了8道工業(yè)級(jí)數(shù)據(jù)質(zhì)量評(píng)估體系，只交付100%可復(fù)現(xiàn)軌跡。不同類型的客戶會(huì)給我們提出不同的標(biāo)準(zhǔn)，在給客戶交付數(shù)據(jù)的時(shí)候，我們數(shù)據(jù)質(zhì)量都能夠符合、甚至遠(yuǎn)高于客戶的標(biāo)準(zhǔn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.