<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      訓具身模型遇到的很多問題,在數據采集時就已經注定了丨鹿明丁琰

      0
      分享至

      衡宇 發自 凹非寺
      量子位 | 公眾號 QbitAI

      “我們只交付100%可以復現的軌跡。”

      具身智能創企鹿明機器人媒體溝通會上,聯席CTO丁琰對具身智能數據采集現狀、困境,以及最新興的采集方式UMI作了前沿的深度分享。

      他在分享中反復強調,很多團隊以為具身模型訓不出來是卡在訓練階段,實際多數問題在數據生成的起點就已經埋下了。后面再堆模型、堆算力,只是在給錯誤輸入繼續加速。

      丁琰的履歷能解釋他為什么會把“數據的可訓練性”看得這么重。

      他的研究方向是機器人學與具身智能,2024年3月從美國紐約州立大學計算機學院博士畢業。去年年底加入鹿明之前,他做過一星機器人的CTO,更早則在上海AI Lab擔任研究員。

      按他的說法,從2024年3月起,他就持續投入UMI方向,是大陸最早做UMI方向的人。



      UMI全稱叫Universal Manipulation Interface,最早來自斯坦福在2024年2月提出的一套工作。

      其核心是用與具體機器人本體解耦的方式,記錄人類在真實物理世界中的操作行為,把“操作意圖+運動軌跡+多模態感知”統一到一個通用接口里,供不同形態的機器人學習和復現。

      在去年9月之前,UMI還是一個偏冷門的方向。

      具身智能進入下半場后,數據的重要性與日俱增。

      丁琰分享道,前段時間有人歸納了具身智能在解決數據難題時的四種解法

      • 遙操作數據,最著名的代表是智元機器人。
      • 仿真數據,代表公司是銀河通用機器人。
      • 人類視頻數據,它石智能就是這種解法的代表。
      • UMI,去年9月開始冒頭,鹿明就是代表性公司。

      鹿明基于現實需求,做出了一個名為FastUMI Pro的產品,這是一個無本體數采硬件。

      系統適配市面主流機械臂和夾爪,機身重量在600多克量級,但能夾起兩三公斤物品,場景覆蓋工廠與家庭。

      它還支持多模態輸入,包括觸覺、聽覺、六維力等。

      在UMI設備最核心的空間精度上,丁琰稱FastUMI Pro的1mm是“全球最高精度”。



      硬件產品背后,還有鹿明布局的數據采集、模型訓練生態。

      以“可復現”作為第一性原理做數據治理,丁琰帶領團隊建立了8道工業級數據質量評估體系,并承諾只交付100%可復現軌跡。

      (以下為丁琰分享的關于具身行業數采、UMI等相關內容,在不改變原意的基礎上作了編輯調整)

      具身數采的現存痛點

      2024年3月起,我就開始在做UMI,應該是大陸最早做這一塊的人。

      大家都知道,具身智能最關鍵的就是數據,海量的數據是訓練的一個必經之路。

      但是數據現在有很多痛點。

      第一個痛點就是成本,成本異常高昂。

      美國那邊,為了采集一個小時的訓練數據,大概要付出100-200美金的成本。

      現在的具身模型都還很小,PI 0的訓練數據大概是1萬個小時,Generalist的GEN 0是27萬個小時。這個規模對比GPT-3的訓練數據,還是非常小的。

      我們做了一個統計,大概相當于7.9億個小時的數據,才能在具身智能界訓出一個GPT-3規模的模型。按照現在的市場價格,需要耗費數百億美金。



      另外,具身數據整體采集效率還是比較低的。

      2023年到2024年左右,業內都是以遙操為主,一個小時大概能采集35條數據,效率異常低,成本也不可控。

      遙操還有個問題是什么呢,就是采集時,因為攝像頭記錄的是機械臂本身的運動軌跡和畫面,但每家機器人長得又都不一樣,所以用A機器人做遙操作采集的數據是很難很難用到B機器人上的,這就產生了數據孤島問題。

      大家重復造輪子,也會造成高昂的隱形成本。

      這是我們想解決的關鍵問題所在。

      用UMI數采,你為什么訓不出來模型?

      前段時間我寫了一篇小紅薯,題目叫《你為什么訓練不出來UMI的模型?》。

      我想就這次機會簡單跟大家介紹一下UMI行業的現狀。大家可能看到的更多的是冰山的一角,但浮在水下面的一個世界還是比較深的。

      一個很明顯的現狀就是什么呢?

      做UMI的人陸陸續續越來越多,但是訓出來模型的異常的少,可能一只手都數得過來。

      很多UMI設備涌現出來,大家都會強調自己低成本、能即插即用、快速部署,但是基本上你看不到什么成功的案例,就這個是非常非常有意思的現象。



      國外有兩家比較知名的公司,一個叫Sunday,一個叫Generalist,他們還是訓出模型了。

      國內目前我們覺得訓模型訓得比較好的一家就是我們,再有就是清華一家,上交一家,總共也就兩、三家能訓得出來。

      大多數情況下,要么訓不出來,要么即使是在相似的條件下能跑出來demo,時間也非常短,可能就3、4秒,也很卡頓,不絲滑。

      關于為什么大家用UMI采集出來的數據訓不出模型,最常見的解釋是“算法不是很成熟”“模型不夠大”“數據規模不足”,但是其實這些解釋都不是真正的原因。

      真正的原因根本不在于訓練階段,而在于訓練之初它就不是太對——

      大量的UMI數據從生成開始就不具備進入訓練管線的這個條件。

      說白了就是數據不合格。



      什么是可以訓練的UMI數據

      大家會有誤解,總覺得UMI數據就是人拿個夾爪,就把這個視頻數據記錄下來就行了,非常非常簡單,所有人都可以做。

      其實完全不是。

      UMI其實是AI對物理世界的理解對齊,并且在這個物理空間里面可以復現的這種交互行為。

      它必須滿足幾個條件。



      拆開了講,第一個就是說畫面要跟動作要嚴格對齊,要跟空間位置嚴格對齊;另外一個就是說因為UMI可以集成多個傳感器,每個傳感器之間也要做到毫秒級的同步。

      舉個例子,一個人想去拿眼前的一瓶水,不對齊的話得反應好幾秒,水就可能拿不起來。

      另外,一個好的軌跡必須可以在物理空間運動中可復現的。

      本質要求是希望UMI采集的數據是高一致性的、高密度的,并且可復現的時序數據結構。

      為什么大多數UMI設備采不到好的數據?

      現在大量的UMI設備采不出滿足條件的數據,兩個根本原因。

      一,核心問題是硬件能力完全不夠。

      UMI的CMOS組件或者主控芯片,性能非常差。

      導致的結果就是畫面覆蓋有限,畫質不怎么好,曝光也不怎么好,幀率比較抖動,這時候畫面就非常糟糕。

      它破壞了動作和視覺的因果關系。本來模仿學習就是我看到什么畫面就做什么動作,結果畫面和動作完全無法對齊,就會導致這個模型根本沒辦法學習。



      二,市面上很多產品不是系統設計的,而是很多現成模塊拼湊起來,用USB Hub連接的。

      這樣一來,產品的貸款架構非常脆弱,每個模塊都會搶帶寬。一旦有什么負載,就會出現掉幀等一系列問題,所以數據的質量就非常糟糕,基本沒辦法穩定復現交互記錄。

      也就是說,從硬件層面講,這些設備從一開始就沒辦法訓出模型需要的數據。

      “臟數據”和“廢數據”

      但即使設備好了,采的數據能不能訓出數據也不是一定的。

      舉個例子,別人拿到我們的設備,也不一定能訓出好的數據。

      為什么呢?這就要說數據的質量高低了。

      數據質量的高低其實并不是干凈程度,而是說有效的信息密度。

      低質量的數據,包含大量抖動、漂移、時間錯位,非常不利于學習。特別是在單視角情況(很多UMI是單個機械臂),這種噪聲不會因為你的數據量增大而被平滑掉,所以說你學出來的策略會非常非常糟糕,基本上訓不出來。

      低價值數據不是完全沒有價值。

      它還是有點價值,可以去認識這個世界,知道什么是杯子,什么是麥克風,但沒辦法從它身上學習到精確的物理交互信息

      它不知道桌上的麥克風我是怎么拿到的,我到底該正著拿還是反著拿,還是需要傾斜角度去拿。

      除了低質量的臟數據,我還把一種數據叫“廢數據”。



      廢數據是什么?

      就是很多人拿著設備直接去眾包去采集了,人怎么采就拿它怎么采。

      這種數據完全copy人類的自然行為,沒有任何設計和技巧,過于“天然去雕飾”了,基本上是不可能訓出來模型的。

      現在都在做的疊衣服,其實是最需要采集技巧的一個任務。疊衣服的時候要抖一下,抖的過程中還要注意方向、速度,才能抖好。

      但人在疊衣服的時候,很少會注意那么多tricks。

      每家具身公司都有自己的采集技巧,所以如果沒有注入任何技巧,即便拿到很好的UMI設備,采集的數據很像人的行為,但其實是廢數據,基本上模型訓練不了。

      能當然可能未來,十年、二十年,模型發展好了,這些數據可能就有用了。但目前很長一段階段這些數據基本上訓不了,所以稱為廢數據。

      硬件、數據和算法環環相扣

      正確的UMI的工程范式首先是一種系統的自洽,而不是一種簡單的功能拼接。

      傳統的路徑下面大家做機器人,首先有個硬件,硬件弄完了之后再弄軟件,弄完軟件我再弄算法,我反過頭來我再去補點數據,把這個整個loop給跑通。

      在UMI這個很特殊的場景下,這個范式是失效的。

      因為UMI是一個強耦合系統,數據會決定整個模型的性能,硬件會決定這個數據的質量;數據又會決定這個算法的性能,算法又會反向去約束我這個硬件的執行和這個數據的設計。

      硬件、數據和算法環環相扣,任何單點的這種失效都會導致訓不出優秀的模型。



      關于UMI,團隊做了什么

      博士畢業后,我從2024年3月就開始在做面向UMI的工作。

      去年9月之前,UMI在行業里還是比較冷門的,除了我和我的團隊基本沒人做。

      當時我們就有一個愿景,希望能打破這個數據獲取的這個不可能的三角,把非常高質量的數據砍到白菜價,加速應用來推進這個整個具身智能行業的發展。

      這里跟大家分享我和團隊近兩年的一些典型工作。



      首先就是FastUMI,我是這篇工作的通訊作者。

      FastUMI應該是全球首個將學術界(UMI,斯坦福,2024年2月)的工作升級成工業級別系統,然后推進它進入工業的。我們從2024年3月左右開始做這個工作,在7、8月左右完成,當年的9月中了CoRL 2025。

      FastUMI主要解決的問題是提高采集效率和數據質量。

      另外一個工作是FastUMI 100K

      在有了一個很穩定的軟硬件系統后,我們開始擴大規模去采數據。當時我在上海AI Lab建立了一個數采長,我帶著11個人在3個月時間里,采集了10萬條真機數據,為機器學習提供了非常高質量的數據支持。

      這是全世界首個大型的UMI數據集。

      從這個工作中FastUMI團隊獲得了大規模的數據治理的經驗。

      我們還有一個工作叫Fastumi-MLM,它把UMI這項技術用于“狗+臂”。

      之前UMI都應用在單臂、雙臂或者輪式雙臂工作上。這是大陸第一個能將UMI用在這種構型機器人上的工作。

      除此之外,還有Spatial VLA、Agibot World、AskVLA等等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      直到央視公開“點名”朱亞文,才明白,原來李幼斌一個字都沒說錯

      直到央視公開“點名”朱亞文,才明白,原來李幼斌一個字都沒說錯

      寒士之言本尊
      2025-12-01 22:07:44
      魏延守了漢中15年,跟鐵桶似得,怎么到姜維手里一個月都扛不住?

      魏延守了漢中15年,跟鐵桶似得,怎么到姜維手里一個月都扛不住?

      大千世界觀
      2025-12-29 20:25:57
      美媒:東契奇特雷-楊交易共涉及1首輪,貝恩大橋共換回9首輪

      美媒:東契奇特雷-楊交易共涉及1首輪,貝恩大橋共換回9首輪

      大眼瞄世界
      2026-01-09 10:56:28
      小學生發現北大烈士碑文錯誤,北大:已糾錯,感謝小學生

      小學生發現北大烈士碑文錯誤,北大:已糾錯,感謝小學生

      半島晨報
      2026-01-08 21:13:17
      專家建議農民養老金提高到600元,胡錫進力挺:少補貼點外國人

      專家建議農民養老金提高到600元,胡錫進力挺:少補貼點外國人

      漁夫說事
      2026-01-09 12:39:25
      飛機上偶遇那英!

      飛機上偶遇那英!

      鋒哥與八卦哥
      2026-01-08 13:19:49
      大陸戰機消失了?港媒:中國機器狗裝溫壓彈,島內:收我們的來了

      大陸戰機消失了?港媒:中國機器狗裝溫壓彈,島內:收我們的來了

      浮光驚掠影
      2026-01-09 17:29:16
      伊朗安全部隊放下武器加入抗議,哈梅內伊倒計時開始

      伊朗安全部隊放下武器加入抗議,哈梅內伊倒計時開始

      移光幻影
      2026-01-07 15:18:07
      街頭的抗議,點燃了更大的火

      街頭的抗議,點燃了更大的火

      陸棄
      2026-01-08 15:36:29
      70萬手封死!002931,11連板!昨晚緊急提示:再漲或停牌核查!

      70萬手封死!002931,11連板!昨晚緊急提示:再漲或停牌核查!

      證券時報e公司
      2026-01-09 10:40:53
      佘智江、陳志之后,下一個被抓回的境外違法犯罪分子會是誰?

      佘智江、陳志之后,下一個被抓回的境外違法犯罪分子會是誰?

      星空區塊鏈
      2026-01-09 14:23:24
      A股:今天漲到4121點后回落,做好準備,不出所料,很可能這樣走

      A股:今天漲到4121點后回落,做好準備,不出所料,很可能這樣走

      丁丁鯉史紀
      2026-01-09 12:10:31
      央視直播1月9日多哈冠軍賽, 林詩棟戰杜達,王曼昱對帕瓦德

      央視直播1月9日多哈冠軍賽, 林詩棟戰杜達,王曼昱對帕瓦德

      乒乓球球
      2026-01-09 06:32:19
      我媽被婆婆當眾打了一巴掌,我爸沉默6秒,拎起行李箱遞給我媽

      我媽被婆婆當眾打了一巴掌,我爸沉默6秒,拎起行李箱遞給我媽

      朝暮書屋
      2026-01-07 18:25:34
      美國媒體人:特朗普增加軍費表明美國可能正準備“世界大戰”

      美國媒體人:特朗普增加軍費表明美國可能正準備“世界大戰”

      新華社
      2026-01-08 16:15:04
      老佛爺會趕走你!皇馬1.5億帝星屢遭西蒙尼挑釁 被換下后憤怒約架

      老佛爺會趕走你!皇馬1.5億帝星屢遭西蒙尼挑釁 被換下后憤怒約架

      我愛英超
      2026-01-09 07:25:45
      農民日報關于河北農民取暖難的稿,為啥不見了?

      農民日報關于河北農民取暖難的稿,為啥不見了?

      筆桿論道
      2026-01-08 07:02:14
      中央決定:曲光吉履新職

      中央決定:曲光吉履新職

      新京報
      2026-01-09 12:22:20
      新華社官宣:轟-20和殲-36的正式亮相非常值得期待

      新華社官宣:轟-20和殲-36的正式亮相非常值得期待

      烽火觀天下
      2026-01-08 11:52:17
      有錢人都往美國跑,為什么大家都在說美國的斬殺線?

      有錢人都往美國跑,為什么大家都在說美國的斬殺線?

      楓冷慕詩
      2026-01-08 11:43:40
      2026-01-09 18:04:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11992文章數 176357關注度
      往期回顧 全部

      科技要聞

      市場偏愛MiniMax:開盤漲42%,市值超700億

      頭條要聞

      10歲抗癌"小王子"病情加重:用藥都已無效 不能吃飯

      頭條要聞

      10歲抗癌"小王子"病情加重:用藥都已無效 不能吃飯

      體育要聞

      金元時代最后的外援,來中國8年了

      娛樂要聞

      檀健次戀愛風波越演越烈 上學經歷被扒

      財經要聞

      投資必看!瑞銀李萌給出3大核心配置建議

      汽車要聞

      英偉達的野心:做一套自動駕駛的“安卓系統”

      態度原創

      本地
      房產
      親子
      教育
      公開課

      本地新聞

      云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

      房產要聞

      66萬方!4755套!三亞巨量房源正瘋狂砸出!

      親子要聞

      檢查結果出來松了口氣,帶著醫生處方去拿藥,沒想到又出新插曲?

      教育要聞

      大學生簡歷優化指南:如何寫一份高質量的求職簡歷

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人人澡超碰碰97碰碰碰| 亚洲男人天堂| 精品无码一区二区三区在线| 在线精品视频一区二区三四| www.youjizz.com国产| 性生交片免费无码看人| 亚洲熟女视频| 清纯校花的被脔日常h动漫| 国产精品jizz在线观看软件| 97免费人妻在线视频| 亚洲成人av在线系列| 免费国精产品wnw2544| 少妇久久久久久被弄到高潮| 老太婆性杂交视频| 亚洲第一成年免费网站| 狠狠色丁香婷婷亚洲综合| 日韩男人天堂| 天天爱天天躁XXXXAAAA| 日韩黄色av一区二区三区| 色亚洲成人| 思热99re视热频这里只精品| 狠狠色狠狠综合久久| 国产精成人| 国产精品午夜福利视频234区| 亚洲A∨无码| 国内少妇人妻丰满av| 国产精品导航一区二区| 午夜成人福利| 久久精品国产亚洲AV无码不| 欧美整片sss| 久久精品视频只有这里| 狼人干?五月天| 色秘?乱码一码二码三码熟女| 影音先锋男人站| 国产人妻777人伦精品hd| 在线观看精品自拍视频| 91丨九色丨人妻丨白浆| 亚洲香蕉av一区二区蜜桃| 中文字幕永久在线看| 国产波霸爆乳一区二区| 中文字幕亚洲综合久久|