<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      訓(xùn)具身模型遇到的很多問題,在數(shù)據(jù)采集時就已經(jīng)注定了丨鹿明丁琰

      0
      分享至

      衡宇 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      “我們只交付100%可以復(fù)現(xiàn)的軌跡。”

      具身智能創(chuàng)企鹿明機器人媒體溝通會上,聯(lián)席CTO丁琰對具身智能數(shù)據(jù)采集現(xiàn)狀、困境,以及最新興的采集方式UMI作了前沿的深度分享。

      他在分享中反復(fù)強調(diào),很多團隊以為具身模型訓(xùn)不出來是卡在訓(xùn)練階段,實際多數(shù)問題在數(shù)據(jù)生成的起點就已經(jīng)埋下了。后面再堆模型、堆算力,只是在給錯誤輸入繼續(xù)加速。

      丁琰的履歷能解釋他為什么會把“數(shù)據(jù)的可訓(xùn)練性”看得這么重。

      他的研究方向是機器人學(xué)與具身智能,2024年3月從美國紐約州立大學(xué)計算機學(xué)院博士畢業(yè)。去年年底加入鹿明之前,他做過一星機器人的CTO,更早則在上海AI Lab擔(dān)任研究員。

      按他的說法,從2024年3月起,他就持續(xù)投入UMI方向,是大陸最早做UMI方向的人。



      UMI全稱叫Universal Manipulation Interface,最早來自斯坦福在2024年2月提出的一套工作。

      其核心是用與具體機器人本體解耦的方式,記錄人類在真實物理世界中的操作行為,把“操作意圖+運動軌跡+多模態(tài)感知”統(tǒng)一到一個通用接口里,供不同形態(tài)的機器人學(xué)習(xí)和復(fù)現(xiàn)。

      在去年9月之前,UMI還是一個偏冷門的方向。

      具身智能進入下半場后,數(shù)據(jù)的重要性與日俱增。

      丁琰分享道,前段時間有人歸納了具身智能在解決數(shù)據(jù)難題時的四種解法

      • 遙操作數(shù)據(jù),最著名的代表是智元機器人。
      • 仿真數(shù)據(jù),代表公司是銀河通用機器人。
      • 人類視頻數(shù)據(jù),它石智能就是這種解法的代表。
      • UMI,去年9月開始冒頭,鹿明就是代表性公司。

      鹿明基于現(xiàn)實需求,做出了一個名為FastUMI Pro的產(chǎn)品,這是一個無本體數(shù)采硬件。

      系統(tǒng)適配市面主流機械臂和夾爪,機身重量在600多克量級,但能夾起兩三公斤物品,場景覆蓋工廠與家庭。

      它還支持多模態(tài)輸入,包括觸覺、聽覺、六維力等。

      在UMI設(shè)備最核心的空間精度上,丁琰稱FastUMI Pro的1mm是“全球最高精度”。



      硬件產(chǎn)品背后,還有鹿明布局的數(shù)據(jù)采集、模型訓(xùn)練生態(tài)。

      以“可復(fù)現(xiàn)”作為第一性原理做數(shù)據(jù)治理,丁琰帶領(lǐng)團隊建立了8道工業(yè)級數(shù)據(jù)質(zhì)量評估體系,并承諾只交付100%可復(fù)現(xiàn)軌跡。

      (以下為丁琰分享的關(guān)于具身行業(yè)數(shù)采、UMI等相關(guān)內(nèi)容,在不改變原意的基礎(chǔ)上作了編輯調(diào)整)

      具身數(shù)采的現(xiàn)存痛點

      2024年3月起,我就開始在做UMI,應(yīng)該是大陸最早做這一塊的人。

      大家都知道,具身智能最關(guān)鍵的就是數(shù)據(jù),海量的數(shù)據(jù)是訓(xùn)練的一個必經(jīng)之路。

      但是數(shù)據(jù)現(xiàn)在有很多痛點。

      第一個痛點就是成本,成本異常高昂。

      美國那邊,為了采集一個小時的訓(xùn)練數(shù)據(jù),大概要付出100-200美金的成本。

      現(xiàn)在的具身模型都還很小,PI 0的訓(xùn)練數(shù)據(jù)大概是1萬個小時,Generalist的GEN 0是27萬個小時。這個規(guī)模對比GPT-3的訓(xùn)練數(shù)據(jù),還是非常小的。

      我們做了一個統(tǒng)計,大概相當(dāng)于7.9億個小時的數(shù)據(jù),才能在具身智能界訓(xùn)出一個GPT-3規(guī)模的模型。按照現(xiàn)在的市場價格,需要耗費數(shù)百億美金。



      另外,具身數(shù)據(jù)整體采集效率還是比較低的。

      2023年到2024年左右,業(yè)內(nèi)都是以遙操為主,一個小時大概能采集35條數(shù)據(jù),效率異常低,成本也不可控。

      遙操還有個問題是什么呢,就是采集時,因為攝像頭記錄的是機械臂本身的運動軌跡和畫面,但每家機器人長得又都不一樣,所以用A機器人做遙操作采集的數(shù)據(jù)是很難很難用到B機器人上的,這就產(chǎn)生了數(shù)據(jù)孤島問題。

      大家重復(fù)造輪子,也會造成高昂的隱形成本。

      這是我們想解決的關(guān)鍵問題所在。

      用UMI數(shù)采,你為什么訓(xùn)不出來模型?

      前段時間我寫了一篇小紅薯,題目叫《你為什么訓(xùn)練不出來UMI的模型?》。

      我想就這次機會簡單跟大家介紹一下UMI行業(yè)的現(xiàn)狀。大家可能看到的更多的是冰山的一角,但浮在水下面的一個世界還是比較深的。

      一個很明顯的現(xiàn)狀就是什么呢?

      做UMI的人陸陸續(xù)續(xù)越來越多,但是訓(xùn)出來模型的異常的少,可能一只手都數(shù)得過來。

      很多UMI設(shè)備涌現(xiàn)出來,大家都會強調(diào)自己低成本、能即插即用、快速部署,但是基本上你看不到什么成功的案例,就這個是非常非常有意思的現(xiàn)象。



      國外有兩家比較知名的公司,一個叫Sunday,一個叫Generalist,他們還是訓(xùn)出模型了。

      國內(nèi)目前我們覺得訓(xùn)模型訓(xùn)得比較好的一家就是我們,再有就是清華一家,上交一家,總共也就兩、三家能訓(xùn)得出來。

      大多數(shù)情況下,要么訓(xùn)不出來,要么即使是在相似的條件下能跑出來demo,時間也非常短,可能就3、4秒,也很卡頓,不絲滑。

      關(guān)于為什么大家用UMI采集出來的數(shù)據(jù)訓(xùn)不出模型,最常見的解釋是“算法不是很成熟”“模型不夠大”“數(shù)據(jù)規(guī)模不足”,但是其實這些解釋都不是真正的原因。

      真正的原因根本不在于訓(xùn)練階段,而在于訓(xùn)練之初它就不是太對——

      大量的UMI數(shù)據(jù)從生成開始就不具備進入訓(xùn)練管線的這個條件。

      說白了就是數(shù)據(jù)不合格。



      什么是可以訓(xùn)練的UMI數(shù)據(jù)

      大家會有誤解,總覺得UMI數(shù)據(jù)就是人拿個夾爪,就把這個視頻數(shù)據(jù)記錄下來就行了,非常非常簡單,所有人都可以做。

      其實完全不是。

      UMI其實是AI對物理世界的理解對齊,并且在這個物理空間里面可以復(fù)現(xiàn)的這種交互行為。

      它必須滿足幾個條件。



      拆開了講,第一個就是說畫面要跟動作要嚴(yán)格對齊,要跟空間位置嚴(yán)格對齊;另外一個就是說因為UMI可以集成多個傳感器,每個傳感器之間也要做到毫秒級的同步。

      舉個例子,一個人想去拿眼前的一瓶水,不對齊的話得反應(yīng)好幾秒,水就可能拿不起來。

      另外,一個好的軌跡必須可以在物理空間運動中可復(fù)現(xiàn)的。

      本質(zhì)要求是希望UMI采集的數(shù)據(jù)是高一致性的、高密度的,并且可復(fù)現(xiàn)的時序數(shù)據(jù)結(jié)構(gòu)。

      為什么大多數(shù)UMI設(shè)備采不到好的數(shù)據(jù)?

      現(xiàn)在大量的UMI設(shè)備采不出滿足條件的數(shù)據(jù),兩個根本原因。

      一,核心問題是硬件能力完全不夠。

      UMI的CMOS組件或者主控芯片,性能非常差。

      導(dǎo)致的結(jié)果就是畫面覆蓋有限,畫質(zhì)不怎么好,曝光也不怎么好,幀率比較抖動,這時候畫面就非常糟糕。

      它破壞了動作和視覺的因果關(guān)系。本來模仿學(xué)習(xí)就是我看到什么畫面就做什么動作,結(jié)果畫面和動作完全無法對齊,就會導(dǎo)致這個模型根本沒辦法學(xué)習(xí)。



      二,市面上很多產(chǎn)品不是系統(tǒng)設(shè)計的,而是很多現(xiàn)成模塊拼湊起來,用USB Hub連接的。

      這樣一來,產(chǎn)品的貸款架構(gòu)非常脆弱,每個模塊都會搶帶寬。一旦有什么負載,就會出現(xiàn)掉幀等一系列問題,所以數(shù)據(jù)的質(zhì)量就非常糟糕,基本沒辦法穩(wěn)定復(fù)現(xiàn)交互記錄。

      也就是說,從硬件層面講,這些設(shè)備從一開始就沒辦法訓(xùn)出模型需要的數(shù)據(jù)。

      “臟數(shù)據(jù)”和“廢數(shù)據(jù)”

      但即使設(shè)備好了,采的數(shù)據(jù)能不能訓(xùn)出數(shù)據(jù)也不是一定的。

      舉個例子,別人拿到我們的設(shè)備,也不一定能訓(xùn)出好的數(shù)據(jù)。

      為什么呢?這就要說數(shù)據(jù)的質(zhì)量高低了。

      數(shù)據(jù)質(zhì)量的高低其實并不是干凈程度,而是說有效的信息密度。

      低質(zhì)量的數(shù)據(jù),包含大量抖動、漂移、時間錯位,非常不利于學(xué)習(xí)。特別是在單視角情況(很多UMI是單個機械臂),這種噪聲不會因為你的數(shù)據(jù)量增大而被平滑掉,所以說你學(xué)出來的策略會非常非常糟糕,基本上訓(xùn)不出來。

      低價值數(shù)據(jù)不是完全沒有價值。

      它還是有點價值,可以去認識這個世界,知道什么是杯子,什么是麥克風(fēng),但沒辦法從它身上學(xué)習(xí)到精確的物理交互信息

      它不知道桌上的麥克風(fēng)我是怎么拿到的,我到底該正著拿還是反著拿,還是需要傾斜角度去拿。

      除了低質(zhì)量的臟數(shù)據(jù),我還把一種數(shù)據(jù)叫“廢數(shù)據(jù)”。



      廢數(shù)據(jù)是什么?

      就是很多人拿著設(shè)備直接去眾包去采集了,人怎么采就拿它怎么采。

      這種數(shù)據(jù)完全copy人類的自然行為,沒有任何設(shè)計和技巧,過于“天然去雕飾”了,基本上是不可能訓(xùn)出來模型的。

      現(xiàn)在都在做的疊衣服,其實是最需要采集技巧的一個任務(wù)。疊衣服的時候要抖一下,抖的過程中還要注意方向、速度,才能抖好。

      但人在疊衣服的時候,很少會注意那么多tricks。

      每家具身公司都有自己的采集技巧,所以如果沒有注入任何技巧,即便拿到很好的UMI設(shè)備,采集的數(shù)據(jù)很像人的行為,但其實是廢數(shù)據(jù),基本上模型訓(xùn)練不了。

      能當(dāng)然可能未來,十年、二十年,模型發(fā)展好了,這些數(shù)據(jù)可能就有用了。但目前很長一段階段這些數(shù)據(jù)基本上訓(xùn)不了,所以稱為廢數(shù)據(jù)。

      硬件、數(shù)據(jù)和算法環(huán)環(huán)相扣

      正確的UMI的工程范式首先是一種系統(tǒng)的自洽,而不是一種簡單的功能拼接。

      傳統(tǒng)的路徑下面大家做機器人,首先有個硬件,硬件弄完了之后再弄軟件,弄完軟件我再弄算法,我反過頭來我再去補點數(shù)據(jù),把這個整個loop給跑通。

      在UMI這個很特殊的場景下,這個范式是失效的。

      因為UMI是一個強耦合系統(tǒng),數(shù)據(jù)會決定整個模型的性能,硬件會決定這個數(shù)據(jù)的質(zhì)量;數(shù)據(jù)又會決定這個算法的性能,算法又會反向去約束我這個硬件的執(zhí)行和這個數(shù)據(jù)的設(shè)計。

      硬件、數(shù)據(jù)和算法環(huán)環(huán)相扣,任何單點的這種失效都會導(dǎo)致訓(xùn)不出優(yōu)秀的模型。



      關(guān)于UMI,團隊做了什么

      博士畢業(yè)后,我從2024年3月就開始在做面向UMI的工作。

      去年9月之前,UMI在行業(yè)里還是比較冷門的,除了我和我的團隊基本沒人做。

      當(dāng)時我們就有一個愿景,希望能打破這個數(shù)據(jù)獲取的這個不可能的三角,把非常高質(zhì)量的數(shù)據(jù)砍到白菜價,加速應(yīng)用來推進這個整個具身智能行業(yè)的發(fā)展。

      這里跟大家分享我和團隊近兩年的一些典型工作。



      首先就是FastUMI,我是這篇工作的通訊作者。

      FastUMI應(yīng)該是全球首個將學(xué)術(shù)界(UMI,斯坦福,2024年2月)的工作升級成工業(yè)級別系統(tǒng),然后推進它進入工業(yè)的。我們從2024年3月左右開始做這個工作,在7、8月左右完成,當(dāng)年的9月中了CoRL 2025。

      FastUMI主要解決的問題是提高采集效率和數(shù)據(jù)質(zhì)量。

      另外一個工作是FastUMI 100K

      在有了一個很穩(wěn)定的軟硬件系統(tǒng)后,我們開始擴大規(guī)模去采數(shù)據(jù)。當(dāng)時我在上海AI Lab建立了一個數(shù)采長,我?guī)е?1個人在3個月時間里,采集了10萬條真機數(shù)據(jù),為機器學(xué)習(xí)提供了非常高質(zhì)量的數(shù)據(jù)支持。

      這是全世界首個大型的UMI數(shù)據(jù)集。

      從這個工作中FastUMI團隊獲得了大規(guī)模的數(shù)據(jù)治理的經(jīng)驗。

      我們還有一個工作叫Fastumi-MLM,它把UMI這項技術(shù)用于“狗+臂”。

      之前UMI都應(yīng)用在單臂、雙臂或者輪式雙臂工作上。這是大陸第一個能將UMI用在這種構(gòu)型機器人上的工作。

      除此之外,還有Spatial VLA、Agibot World、AskVLA等等。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      副國級出席!應(yīng)急管理大學(xué)落地河北,行業(yè)頂級新大學(xué)成立

      副國級出席!應(yīng)急管理大學(xué)落地河北,行業(yè)頂級新大學(xué)成立

      Delete丨CC
      2026-01-21 14:39:47
      閩江學(xué)院黨委書記葉世滿,履新!曾任廈門大學(xué)副校長

      閩江學(xué)院黨委書記葉世滿,履新!曾任廈門大學(xué)副校長

      海峽網(wǎng)
      2026-01-21 09:24:32
      中美局勢可能發(fā)生大反轉(zhuǎn),最先超過美國的竟不是經(jīng)濟

      中美局勢可能發(fā)生大反轉(zhuǎn),最先超過美國的竟不是經(jīng)濟

      華人星光
      2026-01-07 13:32:47
      陶大宇驚現(xiàn)番禺菜市場!買煲湯料,街坊求合影有求必應(yīng)

      陶大宇驚現(xiàn)番禺菜市場!買煲湯料,街坊求合影有求必應(yīng)

      手工制作阿殲
      2026-01-22 00:52:35
      棉花被咋的了?從全民必備到悄然退場,為啥蓋棉被的人越來越少了

      棉花被咋的了?從全民必備到悄然退場,為啥蓋棉被的人越來越少了

      向航說
      2026-01-23 00:45:03
      “流氓作家”賈平凹語出驚人:跟睡過的女人比曖昧的女人更有感覺

      “流氓作家”賈平凹語出驚人:跟睡過的女人比曖昧的女人更有感覺

      百態(tài)人間
      2026-01-04 16:18:53
      驚天反轉(zhuǎn)!28歲日本外援正式回歸遼寧踢中超 13天前官宣加盟延邊

      驚天反轉(zhuǎn)!28歲日本外援正式回歸遼寧踢中超 13天前官宣加盟延邊

      我愛英超
      2026-01-22 10:24:22
      字母哥爆了!正式和里弗斯翻臉,拒絕溝通不理教練!想走就別裝了

      字母哥爆了!正式和里弗斯翻臉,拒絕溝通不理教練!想走就別裝了

      嘴炮體壇
      2026-01-22 14:19:10
      特斯拉FSD只能訂閱?不好意思,智駕我都不想掏錢。

      特斯拉FSD只能訂閱?不好意思,智駕我都不想掏錢。

      差評XPIN
      2026-01-22 00:07:46
      剖腹產(chǎn)后被強接回家,19 歲女孩遭虐大出血離世! 丈夫正臉被扒!

      剖腹產(chǎn)后被強接回家,19 歲女孩遭虐大出血離世! 丈夫正臉被扒!

      云中浮生
      2026-01-21 16:36:42
      黃金行情:達沃斯緩和只是煙霧彈?真正讓市場睡不著覺的,是那個沒人敢提的問題

      黃金行情:達沃斯緩和只是煙霧彈?真正讓市場睡不著覺的,是那個沒人敢提的問題

      匯通網(wǎng)
      2026-01-22 20:59:21
      國家頂級域名(雄安)解析節(jié)點正式上線

      國家頂級域名(雄安)解析節(jié)點正式上線

      IT之家
      2026-01-22 17:11:11
      中國女足名將退役,將進入高校任教,17歲時在北京奧運會進球

      中國女足名將退役,將進入高校任教,17歲時在北京奧運會進球

      米修體育
      2026-01-22 19:51:35
      很多人低估了一萬塊的威力

      很多人低估了一萬塊的威力

      洞見
      2026-01-12 20:34:37
      特朗普又在達沃斯論壇上任性發(fā)言:美國六代機F-47的名字,說自己不喜歡就拿掉!

      特朗普又在達沃斯論壇上任性發(fā)言:美國六代機F-47的名字,說自己不喜歡就拿掉!

      藍海夢想
      2026-01-22 13:18:29
      U23國足采用穆帥戰(zhàn)術(shù)進軍決賽,穆帥打法被贊世界最先進打法之一

      U23國足采用穆帥戰(zhàn)術(shù)進軍決賽,穆帥打法被贊世界最先進打法之一

      福醬的小時光
      2026-01-22 07:14:22
      算命的說,這3生肖女旺夫益子,命運不一般,橫財發(fā)不完

      算命的說,這3生肖女旺夫益子,命運不一般,橫財發(fā)不完

      人閒情事
      2026-01-13 18:47:22
      攜程泄露個人信息:多名用戶在東南亞遭遇相似詐騙套路

      攜程泄露個人信息:多名用戶在東南亞遭遇相似詐騙套路

      PChome電腦之家
      2026-01-22 10:41:47
      閆學(xué)晶又迎噩耗,最擔(dān)心的事還是發(fā)生了,兒媳體制內(nèi)工作恐難保

      閆學(xué)晶又迎噩耗,最擔(dān)心的事還是發(fā)生了,兒媳體制內(nèi)工作恐難保

      離離言幾許
      2026-01-23 00:04:19
      一樓拒交電梯費被告上法庭,敗訴后,這張繳費單成了整棟樓的噩夢

      一樓拒交電梯費被告上法庭,敗訴后,這張繳費單成了整棟樓的噩夢

      垛垛糖
      2026-01-17 20:25:21
      2026-01-23 01:56:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12050文章數(shù) 176362關(guān)注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

      頭條要聞

      “和平委員會”簽約國家名單公布 西歐國家無一參加

      頭條要聞

      “和平委員會”簽約國家名單公布 西歐國家無一參加

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      車銀優(yōu)賺800億 涉嫌逃稅200億!

      財經(jīng)要聞

      西貝拿到“救命錢”,然后呢

      汽車要聞

      配備多塊娛樂屏 極氪8X內(nèi)飾曝光

      態(tài)度原創(chuàng)

      親子
      本地
      藝術(shù)
      房產(chǎn)
      公開課

      親子要聞

      真相很可怕!終于揭秘:為什么你記不住3歲前的事?

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      藝術(shù)要聞

      265米!中集集團全球總部開工,大樓如一幅“山水畫”

      房產(chǎn)要聞

      開年王炸!四重政策紅利加碼,廣州置業(yè)窗口期邁入倒計時!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产乱子伦无套一区二区三区| 国产精品久久久久久久久动漫| 无码少妇a片一区二区三区| 欧美性69式xxxx护士| 亚洲春色在线视频| 大熟女在线| 沾化县| 特黄三级又爽又粗又大| 精品国产中文字幕在线| 午夜免费国产体验区免费的| 麻豆传媒在线| 免费无码又爽又刺激高潮的app| 国产手机在线αⅴ片无码观看| 成人亚洲欧美成αⅴ人在线观看| 久久er热在这里只有精品66| 丰满少妇人妻无码专区 | 麻豆一区二区99久久久久| 免费a级毛片18以上观看精品| 亚州成人视频| 亚洲AV无码久久精品色欲| 延寿县| 国产成人无码a区在线视频无码dvd| 欧美人与动性xxxxbbbb| 95在线一区| 大香伊蕉在人线国产av| 人人澡超碰碰97碰碰碰| 1精品啪国产在线观看免费牛牛| 久久伊人中文字幕| 久热官网| 中文字幕亚洲精品乱码在线看| 中文字幕亚洲综合久久综合| 成人综合网址| 欧美浓毛大泬视频| 超级碰碰色偷偷免费视频| 这里只有精品在线播放| 亚洲丝袜精品在线视频| 国产真人作爱免费视频道歉| 国产导航在线| 乱人伦??国语对白| 婷婷四房综合激情五月在线| 亚洲精品一区二区三区新线路|