2026年,大語言模型和視頻生成大模型都在瘋狂燒token,而具身機器人行業卻正在經歷“無token可燒”的局面。大模型能像人一樣讀書,而具身智能要去真實的世界里摸爬滾打才能獲取數據——數據的匱乏成為了卡住全行業的瓶頸。
4月16日,智元機器人旗下覓蜂科技發布一站式物理 AI 數據服務平臺,希望能讓數據像水電一樣即取即用。
“GPT5用了100萬億tokens的訓練語料。1token約等于0.75個英語單詞,如果一個正常人一分鐘能說150個詞,這個語料級就等于一個人要說100億個小時才能說完。”覓蜂科技董事長兼 CEO 姚卯青說,“但具身智能不一樣。今天,全世界的高質量數據匯聚在一起,可能也只有50萬小時的規模。”
數據資源匱乏且擴容緩慢,是因為具身智能所需要的訓練數據,比大預言模型需要的訓練語料要難獲得的多。在三維的開放世界,行業各家公司已經嘗試了通過真機遙操或仿真數據等等各種方式去積累數據,但仍然難以擺脫高成本和增速慢的問題。
現在,最前沿的采集方式是“無本體采集”。
無本體采集(Object-free/Body-less Data Collection)是指在具身智能訓練中,直接利用人類操作(手戴傳感器夾爪)或輕量化設備記錄動作,而非依賴昂貴的實體機器人本體進行遙控操作。它通過人手抓取、移動等方式記錄高質量、多模態的動作數據,具有成本低、采集效率高、場景泛化性強等優勢。
發布會上,覓蜂推出了 MEgo 系列無本體數據采集硬件及 MEgo Engine 數據治理引擎。MEgo 系列包含采集夾爪、頭戴式采集設備等,設備具備超 300° 全景感知與亞毫秒級數據同步能力,支持在工廠、商超、家庭等全場景隨時隨地輕量化采集。
這款名為 MEgo Gripper 的夾爪全通道支持1080P 60fps,軌跡重建的精度可以達到一毫米,確保拿起一張紙的力度都可以被還原,“讓客戶拿到數據就能直接落地”,以及亞毫秒級無線時間同步。這個設備只有480g的重量,支持電池快換快拆,擺脫了電線,方便人“走到哪采到哪”。
![]()
MEgo Gripper
另一款頭戴式采集設備MEgo View融合了頭部超過300度的視野,以及兩個附著在手腕上的局部相機,既可以兼顧超廣域的環境,也可以做到腕部和手部操作細節的捕捉。它搭載7個高清攝像頭,車規級九軸IMU(慣性測量單元),可以輸出RGB圖片、IMU,還有位姿、音頻在內的全感官數據。
![]()
MEgo View
與夾爪設備一樣,頭戴式采集設備同樣采用無線設計,支持電池快換,并能實現亞毫秒級無線時間同步。
輕量化的硬件,帶來了數據采集門檻的降低。在發布會后的采訪環節,姚卯青告訴包括36氪在內的媒體,他認為未來理想的采集者工作模式可能會類似于“美團騎手”——“大家可以兼職來做,但同時也要經過驛站的培訓才能上崗。”
在軟件上,MEgo系列解決方案背后有一套MEgo Engine 數據治理引擎,用來處理所有MEgo設備采集到的數據,包括數據的預處理、提取、評估等等,而且可以評估在機器人上的表現,實現一站式數據的多種標注。
姚卯青表示,覓蜂已經實現了真機遙操、無本體采集、仿真數據全范式覆蓋,旨在“讓高質量數據像水電一樣即取即用。”該公司計劃在 2026 年實現千萬小時級數據產能,2030 年達成百億小時級數據產能。
作為智元機器人旗下企業,覓蜂的定位卻是面向其他機器人公司的To B數據服務平臺。在活動后的采訪環節,有媒體向姚卯青提問:“說服說服智元的競爭對手去買你們的數據?”
姚卯青回復說,“覓蜂作為一家獨立的數據服務平臺,所有的用戶數據交易都有嚴格協議。數據的交易模式分為‘使用權’和‘所有權’兩種,過去大部分用戶都是選擇了購買使用權而不是所有權,對于極個別選擇購買所有權的客戶,我們會進行嚴格的資產轉移,在本地銷毀數據。”
“智元并不是需要所有數據,它也沒法獲取覓蜂的數據。”姚卯青說,“智元現在向覓蜂獲取數據的唯一途徑,就是市場化下訂單。智元不存在免費從覓蜂獲取數據的途徑。”
在發布會上,覓蜂宣布與京東云、百度云、阿里云、獵聘及貴州大數據集團等多家企業舉行戰略簽約,各方將在數據生態、場景協同、算力支撐等領域展開深度合作。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.