“機器人訓練數據本不應該如此昂貴和稀缺。”鹿明機器人創始人兼CEO喻超的這句話,或許正是當下具身智能行業最真實的痛點。
目前,具身智能的核心破局點在數據已經成為業內共識,當全球科研團隊和企業為采集高質量操作數據投入高昂成本時,鹿明卻選擇了一條截然不同的路,將數據變成像超市貨架上的商品一樣,明碼標價、在線下單。
機器人大講堂注意到,近日,鹿明正式上線“FastUMI Pro數據超市”,用戶能像在電商平臺選購商品一樣,直接通過官網商城下單。
![]()
這一動作,不僅意味著具身智能數據首次以“標準商品”形態進入市場流通,或許更預示著行業數據基礎設施的范式轉移。
機器人大講堂獨家采訪到鹿明機器人CTO丁琰,希望聊聊數據超市這個鹿明首創的新物種。
01.
數據超市誕生始末
在逛鹿明數據超市之前,筆者發現鹿明其實做了另外一件事,他們做了一款便攜的標準數采工作站——鹿明FastUMI Pro(背包版),也是全球首款背包形態的UMI數采設備,搭載了超高清魚眼相機、高精度深度相機等核心組件,支持多模態數據采集,8小時長續航+高定位精度,能適配各類開放環境。
在更早之前,鹿明通過數采場采集的形式,已累計交付100萬條高質量操作數據,單日數據增量可達數萬條,這也讓鹿明的銷售開始忙不過來。丁琰在采訪中直言,數據超市的誕生,就源于這個樸素的商業邏輯:當客戶數量呈指數級增長,不如將通用數據產品化并且上架,讓客戶自己看、自己選。
![]()
FastUMI Pro數據超市的出現,正是鹿明機器人基于自身技術積累和行業洞察,給出的一套系統性破局方案。從超市上架的數據商品情況來看,鹿明將海量操作數據按場景分類,再細分為具體任務,并制定透明的定價體系。他們試圖以標準化、規模化的數據供給,打通從數據到模型的“最后一公里”。
從覆蓋場景與任務來看,數據超市目前包含工業生產裝配、家庭生活、教育場景、酒店服務、商業零售與陳列、餐飲、特種作業、物流倉儲、醫療護理、專業科研10個場景的任務數據,每個場景按照任務特性進一步細分,同時用戶能看到任務時長、標簽等信息,可見鹿明已經初步形成了結構化、多維度的標準化操作數據體系,以期精準匹配不同場景下機器人的操作訓練需求。
丁琰透露道,前期數據超市以通用型數據為主,屬于平臺核心流通品類;后期數據超市會上線數據定制板塊,即該部分數據為客戶專屬,滿足個性化訓練需求,按照任務時長、夾爪數量、物料成本進行綜合定價。
丁琰介紹,由于鹿明采集的所有數據,由于均通過統一采集設備獲取,因此可以確保格式一致性,這些數據有著較廣的適用范圍。數據可直接用于機器人全品類模型訓練,包括工業機械臂、服務機器人、人形機器人等,依托鹿明FastUMI Pro無本體數據的通用性,兼容Xarm、方舟無限、Franka、UR、非夕等主流硬件機型。
02.
數據價值幾何?
機器人是典型的“數據密集型”技術,模型的訓練、優化與落地,都離不開海量、高質量的真實操作數據。隨著具身智能逐步走向真實應用,數據的局限往往比模型能力更早暴露出來。丁琰對機器人大講堂解釋,數據定價有所差異在于價值本質不同,而這又主要由于采集設備成本、物料成本、采集過程的難度決定,因而可用于模型訓練的優質真實場景數據極其稀缺。
在他看來,數據問題并非一蹴而就,而是伴隨任務復雜度逐步顯現。丁琰把數據采集拆解為清晰的階段:第一階段是在數采場內進行采集,光線、環境、背景、人員管理都可控。鹿明機器人在這一階段持續完善采集SOP、迭代采集軟硬件,并建立數據質量評估機制,“基本上在數采廠里可以實現自動運轉”。但當任務難度抬升,模型開始面對更復雜的物理約束與環境噪聲時,可控場景的數據分布很快顯出邊界。
他判斷,行業之所以出現仿真、視頻、強化學習等多種數據路線,很大程度上是因為不少早期任務相對簡單,多種方式“看起來都能做”。可一旦進入更真實、更凌亂的作業場景,數據的真實性與一致性就會變成硬約束。
以工廠質檢為例,這并不是在實驗室“干凈環境”中的簡單抓取,而是在復雜工況中完成更強約束的操作與判斷,“如果只是做一些簡單的仿真,或者其他方式,已經很難滿足客戶要求”。
視頻數據可以幫助模型“看懂世界”,仿真可以擴展一定的組合空間,但當目標是“上手干活”,與物理世界交互的能力最終仍需真實交互數據支撐。換句話說,隨著任務復雜度上升,數據成為決定模型能否繼續向前的底層條件。
![]()
FastUMI Pro在分揀零部件任務中,完成“數據采集-策略訓練-模型推理”閉環
如果說數據超市是“前端商店”,那么背后這些數據從哪來?鹿明的聰明之處在于,其嘗試先造好“數據鏟子”,用硬件設備創新打破采集邊界,用規范化流程優化數據資源,更好推進真實場景采集計劃,挖掘“數據礦山”。在數采場完成方法論與流程打磨之后,鹿明把重心逐步轉向真實環境,讓數據從“可控產出”走向“真實復雜”。
![]()
鹿明“采-訓-推”一體化閉環能力,是鹿明數據基建能力的核心。此次規模化數據采集的啟動,正依托于這一已全面打通的基建體系:依托FastUMIPro,鹿明雙臂具身機器人MOS在5小時內完成從“數據采集-策略訓練-模型推理”的工廠質檢全流程驗;FastUMI Pro在合肥實地部署后,僅用7小時便跑通真實場景下的采集、訓練與部署推理。
2026年,鹿明計劃在全國多個城市投放1萬臺背包版FastUMI Pro設備,繼續深入工業、家庭、酒店、餐館、商場、辦公等場景,目標直指百萬小時級數據量。與實驗室或數采廠采集不同,真實環境中的數據變量更加豐富——背景復雜度、光照變化、人員干擾、物料差異等都會被直接采進數據體系。這些變量不再被“消除”,而是成為提升模型泛化能力的重要養分。
具體而言,在數采場進行的數據采集,往往只能模擬有限場景,物料種類也受成本限制。而鹿明通過與合作伙伴共創的真實場景采集模式,能深入更多實際環境。畢竟,當模型開始“卡在數據上”,具身智能不得不正視真實世界。
當然,數據若要通過商品化模式打通流通鏈路,數據質量是前提。為了保證最終上架數據的質量可控,鹿明建立了八道數據質量評估體系,只有通過自動化檢測(如特定時間節點是否出現預期畫面)的數據才會入庫。這種機制倒逼采集人員——包括內部團隊、合作伙伴以及未來可能加盟的第三方——嚴格遵循標準流程,避免“為湊數而采”的無效數據,在規模擴張的同時守住數據質量底線。
![]()
03.
數據超市意義何在?
從數據超市的上線情況來看,圍繞“數據”,鹿明目前基本完成了數采硬件、規模化體系、數據流通的全維度布局。機器人大講堂認為,當通用數據可像硬件一樣在線下單,具身智能有望正式告別定制化的小范圍探索,邁入標準化、工程化的生產階段,同時打通了從數據到模型的“最后一公里”,加速智能Scaling Law進程。
過去,一家研發家庭服務機器人的初創公司,若想訓練疊衣服模型,要么自建采集環境、雇傭人員耗時數月,要么向數據服務商高價定制,動輒數十萬成本且數據難以復用。如今,這家公司只需登錄鹿明數據超市,在家庭場景下找到“疊衣服”任務,按需購買數百條高質量操作數據,百條數據的價格低至百元級。
![]()
據悉,配合鹿明4月初將上線的專屬benchmark體系,整合鹿明自研的高性價比適配機械臂、pi,pi0.5等開源baseline模型,以及3個任務共1.5萬條免費樣例數據集,未來有望形成“平臺+數據+模型”的完整使用框架,大幅降低企業和研究團隊的使用門檻。
在溝通中,丁琰表示,未來鹿明的數據超市布局并非單一的“采集+售賣”模式,而是以數據為核心構建機器人行業的生態體系。短期來看,數據超市與規模化采集形成“采銷一體”的商業閉環,讓數據成為可規模化交付的基礎設施。長期來看,鹿明將推動數據生態的開放,從目前的自營數據逐步走向類似互聯網平臺“自營+他營”的平臺化模式,未來開放第三方接口,讓合作伙伴、設備客戶都能成為數據提供者,形成“采集-評估-交易-使用”的完整數據生態。
04.
結語與未來
“整個具身數據市場相比去年一定是十倍以上的增長。”喻超的判斷背后,是鹿明對數據戰略的篤定。
當數據不再是稀缺資源,當通用數據可以像硬件一樣在線下單,行業模型訓練的門檻將被顯著拉低。鹿明的布局,恰與行業趨勢同頻,從專用場景的小模型走向通用智能的大模型,數據規模與質量成為決定能力上限與填補機器人落地Gap的關鍵。
鹿明通過萬臺便攜數據采集設備鋪開六大場景、構建數據超市,正在將“無處不在卻未被收集”的物理世界操作數據,轉化為可規模供給的標準化基礎設施。
這不僅是商業模式的創新,更多是一種對具身智能底層邏輯的重構:當數據能力本身成為可交付的基礎設施,智能的Scaling Law才真正開始加速。
當然,要實現真正的AGI還遠,就像丁琰說的,“那是永無止境的過程”。但至少現在,一家公司想買點數據訓練機器人疊衣服、分揀螺絲,不用再自己搭團隊、建產線、折騰幾個月了。
點開網頁,下單,搞定。
鹿明FastUMI Pro數據超市入口:www.fastumi.com/data-market
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.