![]()
新智元報道
編輯:犀牛
【新智元導讀】質量和成本只能二選一?通過大腦+小腦分層、場內+場外雙輪驅動,數據堂給出了具身智能數據難題的解。
為什么機器人還干不好家務?
不是因為它不夠「聰明」,而是因為——它沒有「長大」。
人類用幾年時間,通過數百萬次真實交互學會動作與決策,而機器人,卻要從數據里「補課」。
2026年,Physical AI真正的瓶頸,不在算法,也不在算力,而在一個更現實的問題:誰能以最低成本,生產最多、最真實的訓練數據?
2024年,特斯拉和OpenAI在機器人數據采集上,走了兩條完全不同的路。
特斯拉選擇重資產路線,利用動作捕捉服和虛擬現實頭顯,用昂貴的遙操作設備采集高精度數據;OpenAI則押注低成本機械臂,試圖通過眾包方式獲取海量數據。
兩種選擇背后,折射出一個根本矛盾——在數據采集這件事上,「質量」和「成本」,似乎只能二選一。
![]()
![]()
事實上,過去兩年數據采集方式已歷經三次迭代:從「真機遙操」到「手持夾爪UMI」,再到今年爆發的「第一人稱人類視頻Ego Centric」。
每一次都在「解放對采集人的束縛」,雖然擴大了產能,降低采集成本,但也損失了精細控制數據的獲取。
本質上,這三次演進是在不斷回答同一個問題:如何在不犧牲過多「真實度」的前提下,釋放數據生產力?
這個矛盾該如何破解?
一、困局:質量 vs 成本
一個不可兼得的選擇題
在算力、算法、數據構成的AI三角中,算力和算法正在變得同質化,如何獲取高質量、多樣化、類人化、低成本的訓練數據,已成為提升Physical AI模型性能的「訣竅」。
Scaling law(規模定律)告訴我們,只要能在數據上每增加10倍,就能提高一倍的性能。
在合成數據、第三視角視頻學習仍無法替代真實物理交互的當下,如何在真實采集中實現低成本、高質量,成為行業需要破解的難題。
目前Physical AI數據采集,主要有以下流派:
![]()
1. 真機遙操:為專屬機器人「量身定制」的高精度方案
真機遙操的核心邏輯是人通過VR眼鏡、手柄、遙操手套等,操控某一款機器人完成各類動作,同步記錄關節角度、電機力矩、末端位姿、力反饋與各視覺傳感器信息。
這種方式的優勢極為突出,數據高度貼合目標機器人,包含完整的力觸覺信息,訓練出來的模型可以直接運用到同型號機器人上,無需額外適配。可以直接使用π0算法來訓練,不用遷移。
但缺陷同樣嚴重,數據與機器人強綁定,幾乎無法跨機型遷移;真機采集場景受限,多樣性差;遙操作會限制操作員動作,采集的數據不自然;真機成本高,采集效率低,通常需要兩人配合,有效數據時長短。
因此,這種真機遙操的方式很難低成本積累大量的預訓練數據。
2. UMI通用夾爪:從通用性、真實性出發,降低采集成本
UMI通用夾爪是斯坦福大學2024年提出的折中方案:人手持標準化的通用夾爪(3D打印+GoPro等運動相機),在真實野外場景中操作,同步記錄末端視角、夾爪狀態、相對軌跡與運動信息。
![]()
這種方式兼顧了成本與復用性,設備成本低、高便攜、數據可跨機器人復用,貼近主流夾爪執行邏輯。
但是仍舊存在缺陷,夾爪仍然是一個不自然,對操作員有較多限制的末端執行器,難以完成擰螺絲、分揀細物等精細操作。數據缺少環境、行走決策等信息,難以用在人形機器人訓練,多用于機械臂。
3. 動作捕捉:直接無侵入捕獲真實人類的動作
動作捕捉則跳出了對機器人本體和UMI夾爪的依賴,通過穿戴式設備捕捉人體和手部關鍵點軌跡,再映射到機器人系統中。
優勢在于采集成本低、可批量開展,無需部署真實機器人,人類的動作更自然。
動捕的方案和設備在虛擬數字人方面已經非常成熟,但具身智能數據采集上,依然會遇到一個問題——設備部署需要單獨的環境和空間,無法便攜的帶到千家萬戶的真實場景中去,并且對遮擋等敏感。
4. Ego 第一人稱視頻:可穿戴式的無侵入數據采集方案
Ego(Ego Centric)數據是2025年底從硅谷火到國內的具身智能采集方式,Ego采集是從第一視角采集而不是爬取第三方視角數據來獲取更高質量的數據,而且采集成本比從互聯網爬取、清洗更低!
記錄的數據包括了第一人稱視角中雙手的操作,環境數據,身體關鍵點數據。
采集員只需佩戴頭環、頭戴式相機,使用雙手操作即可。由于是可穿戴設備,很容易進入家庭、商業等場景中進行數據采集。
這種方式的優勢極為突出:采集成本極低、規模可無限放大。
英偉達的EgoScale和DreamDojo已展示數萬小時級的采集能力。
同時,第一視角蘊含了環境信息、人類的決策邏輯、視覺注意力切換,也包括了豐富的手-物交互細節。
![]()
當然,它也有自己的劣勢:多設備需要時間對齊、空間標定,設備需要長時間穩定運行;原始視頻中包含大量無效片段,需清洗才能提取有效數據;不包含任何力觸覺信息或精確的關節軌跡;其人體關節僅捕獲手和腳,其他關鍵點需要預測,手部關鍵點和位置需要使用雙目相機預測。
幾條路線各有取舍,卻都無法破解「質量與成本」的矛盾。
這也讓行業逐漸意識到具身智能難以實現一種方案打遍天下,而是需要匹配機器人不同智能層級的「分層采集架構」——就像人類的大腦與小腦,各自分工、協同工作,才能實現高效的智能輸出。
二、破局:大腦+小腦分層
場內+場外雙范式
人類的智能天然分為兩套協同系統:小腦負責精細控制、毫秒級執行,大腦負責高層規劃、常識推理、錯誤恢復。
具身智能同樣需要復刻這套邏輯,構建「云端大腦+端側小腦」的分層架構,對應的采集方式也分為場內與場外兩種,各自承擔不同的使命。
![]()
1. 訓練機器人的「小腦」,打造肌肉記憶
場內采集聚焦短程技能、實時執行與毫米級精度(如抓取、精密裝配等)。
這類動作對延遲極度敏感,因此必須部署在端側,通過VLA模型實現實時響應。
對應的核心數據需求,是電機信號、力矩、力反饋、高頻控制指令等能反映「執行細節」的信息。
而最佳采集方式正是真機遙操,只有通過真實機器人的交互才能獲取最精準的力觸覺反饋,為特定機器人打造穩定、確定、可復現的「肌肉記憶」。
場內采集的核心價值不在于數據通用性,而在于「精準適配」,為特定型號機器人定制專屬的執行能力,確保它能穩、準、快地完成精細動作。
2. 訓練機器人的「大腦」,構建通用的決策能力
與場內采集相反,場外采集聚焦長程任務與動態決策(如整理房間、設備巡檢等)。
這類動作不需要毫秒級延遲,更需要多樣化的場景覆蓋,因此適合部署在云端,支撐VLM大模型持續迭代。
對應的核心數據需求,是周邊環境、決策邏輯、實際人類操作,最佳方式是使用眾包方式的Ego采集,無需真機即可快速覆蓋海量真實場景,讓大腦理解 「做什么、為什么」。
這里多樣化的場景非常重要,大腦的數據需要適應性,不僅包括各種靜態場景(甚至失敗的情況),還要包括各種動態干擾。
因此,針對未來機器人真實的工作場景,Ego采集是最佳選擇。
場外采集的核心價值,不在于精度,而在于通用適配。
不為特定機器人提供專屬數據,而是為所有機器人打造通用的決策能力,實現「一句指令,多種執行」。
二者的協同,構成了具身智能數據采集的核心邏輯:思考方式統一,執行各異。
具身智能的數據問題本質不是「選哪種采集方式」,而是:用什么數據,訓練機器人的哪一部分智能。
這也是為什么,行業開始從「單一采集方案」轉向「分層數據架構」,而像數據堂這樣的專業數據基礎設施服務商,正成為這一轉型中的關鍵角色。
三、落地:場內靠工廠提效
場外Ego眾包擴量
分層架構的清晰只是具身智能落地的第一步。
真正的行業競爭在于工程化能力——如何低成本、大規模、穩定地產出高質量數據。
解決方案就是「場內工廠化+場外眾包化」的雙輪驅動。
![]()
1. 場內采集:重資產工廠運營,拼的是成本與效率
小腦訓練需要真機數據,場內采集是典型的重資產運營模式,機器人、場地、電力、人力的持續投入決定了效率就是生命線。
必須構建一套完善的成本優化與流程標準化體系,采用梯隊化管理,實現任務標準化、動作規范化、異常處理流程化。
一個熟練采集員日均產出200–500條有效數據,而通用抓取模型訓練就需要10萬條以上。
只有工廠化、規模化運營,才能攤薄成本。
2. 場外采集:輕資產Ego眾包模式,拼的是極簡與規模
大腦訓練追求的是場景多樣性。2026年,場外采集已從「手持夾爪眾包」升級為Ego極簡采集,采集員僅需頭戴式運動相機+便攜計算模塊+手機控制搭配語音獨白,以第一人稱視角記錄日常操作。
這種方式成本可控、易部署、無約束,更貼近人類自然操作,再通過自動化質檢和人工抽檢機制保障數據質量,可快速積累高質量多場景數據。
甚至這種無侵入的采集,最好的方式是跟各種專業人員操作結合起來,直接請專業的酒店整理、廚師、物流人員佩戴,在實際工作中記錄,既真實又降本。
3. 場內與場外:不是二選一,而是協同互補
場內工廠與場外眾包,并非相互替代的關系,而是兩種不同的數據采集模式,各自承擔著不同的產業使命,最終形成協同互補的數據供給閉環。
場內采集走的是B2B重服務模式,高可控、穩交付,主要服務于頭部機器人廠商,支撐機器人 「小腦」 訓練。場外為平臺輕模式,高擴張、廣覆蓋,以Ego數據為核心補充場景多樣性,支撐「大腦」的通用化訓練。
二者協同,實現高精度與高通用的兼顧,為具身智能規模化落地提供完整的數據支撐。
四、實踐:數據堂
讓「具身智能數據」不再成為算法訓練的難題
對機器人企業而言,自建數據體系往往面臨三個現實問題:
成本高(設備 + 人員)
周期長(從0到1搭建)
難規模化(無法快速擴張)
數據堂的價值,本質上是:把「數據生產」這件事,從研發問題,變成基礎設施服務。
相比機器人公司自建采集團隊,專業數據服務商具備兩方面獨特優勢:一是規模化工程能力——已在全國布局采集基地與標注中心,擁有成熟的數據采集SOP與人員梯隊;二是全鏈路閉環經驗——從任務設計、真機采集、眾包分發到多模態標注、質檢交付,已形成標準化流水線。
數據堂作為專業的人工智能數據服務提供商,憑借十余年的行業積累,成為國內具身智能數據服務領域的核心標桿,將「大腦-小腦、場內-場外」的理論框架,轉化為可交付、可規模化、可商業化的落地服務。
已服務多家頭部具身智能企業,完成萬小時級Ego數據采集與百萬級標注交付。
![]()
自建具身智能數據工廠(場內采集)
面對數據采集的困難,數據堂斥巨資打造國內頂尖具身智能數據工廠。
工廠占地超過8000平方米,搭建高度真實、可靈活配置的物理環境,模擬藥店、超市、工廠、家居、廚房等真實復雜場景,涵蓋零售、醫療、工業自動化等多個商業化領域。
工廠裝配了300組通用雙臂靈巧手采集設備,600名經驗豐富的采集員。計劃今年產出10萬小時數據。
擁有全球眾包資源提供Ego采集服務(場外真實環境采集)
在采集端,緊跟2026行業范式,數據堂同步搭建Ego第一視角采集、UMI手持采集的眾包體系。
實現了設備管理和維修、項目管理、培訓、質檢、眾包資源拓展、場景資源拓展的人員體系,以及面向具身智能算法企業的服務體系,可短期低成本采集大量的真實場景數據。
已經為數個國內頭部具身智能玩家提供Ego、UMI數據采集服務。
通過高效的標注平臺支持各類具身智能的數據標注
同時數據堂擁有百萬級標注團隊與自研智能標注平臺,提供覆蓋感知到決策的多模態標注服務。
如位姿標注服務于「小腦」訓練,通過解算點云精確識別目標物體的六自由度位姿,是精細操作的前提;VLA/VLM標注則服務于「大腦」訓練,對操作視頻進行任務拆解與結構化對齊,為模型提供決策依據。
結語
2026年,不是人形機器人的量產元年,而是具身智能數據元年。
硬件決定機器人的下限,而數據決定機器人的上限。
這場Physical AI競賽的核心,是數據閉環工程能力。
以數據堂為代表的服務商,正用雙輪體系為具身智能輸送燃料,搭建實驗室與產業落地的橋梁。
未來,機器人的差距,本質上是數據的差距。
而那些能掌握分層采集、數據閉環與標準體系的企業,終將主導下一代Physical AI的發展——因為,數據正在重新定義機器人的未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.