![]()
來源:新智元
【導讀】當LeCun和李飛飛各自拿下10億美元押注世界模型時,一個更底層的問題浮出水面:誰來為Physical AI提供真正能用的數據?Ropedia給出的答案,不是更多視頻,而是一部結構化的、來自真實世界的「經驗百科全書」。
最近,AI圈最熱的一件事情就是,玩OpenClaw。
OpenClaw似乎無所不能:寫代碼、出報告、改方案、查資料。
但有一件事,OpenClaw做不到——它沒辦法幫你去廚房炒一盤蛋炒飯。
![]()
但當AI試圖進入物理世界,一個隱藏已久的問題開始浮出水面:
機器人學習的數據在哪里,人類在真實世界中的經驗和經歷如何變成「高質量數據」?
2026年,AI世界的風向標開始轉向了同一個方向:如何讓智能真正走進真實物理世界。
給Physical AI一套
真正的「經驗底座」
對于AI發展的路線之爭,圖靈獎得主Yann LeCun的堅持代表了一種態度,資本也給出的回應。
![]()
他離開Meta后創辦的AMI Labs,以35億美元估值拿下10.3億美元種子輪——刷新歐洲AI創業史上最大種子輪紀錄。
貝索斯、英偉達、三星、施密特,半個硅谷都在他的投資人名單上。
LeCun說得直白:「世界模型將成為下一個熱詞。六個月后,每家公司都會自稱是世界模型來融資。」
就在AMI Labs官宣的兩周前,「AI教母」李飛飛的World Labs剛剛完成10億美元融資,估值飆至50億美元。
AMD和英偉達兩大芯片巨頭同時入局,Autodesk更是一口氣掏出2億美元戰略投資。
李飛飛在年初的訪談中反復強調一個判斷:空間智能,是AI的下一個前沿。
![]()
兩位學術界最具號召力的人物,不約而同押下了同一注:讓AI理解真實的物理世界。
這是一個時代的信號。
從語言智能到物理智能:
中間差了一座「數據大橋」
過去十年,AI的飛躍建立在互聯網規模的文本、圖像和視頻之上。
大模型學會了理解語言、識別場景、生成內容,智能第一次大規模走入了人們的生活。
但當AI試圖進一步踏入物理世界,問題開始變得截然不同。
機器人不僅要「看見」,還要「行動」;不僅要識別一個廚房長什么樣,還要理解人在其中如何移動、如何操作、如何跟物體發生交互,以及每一個動作會帶來什么物理后果。
這意味著,下一代智能系統——包括空間智能、具身智能、世界模型和Physical AI——需要的已經不只是更多視頻,而是更接近人類真實行動過程的經驗數據(Experience)。
可問題在于:這樣的數據,幾乎不存在。
今天互聯網上有海量的視頻,但絕大多數只是「被動觀看」的素材——缺少深度信息、缺少空間結構、缺少手部交互軌跡、缺少動作與后果之間的因果關聯。
![]()
對于想要在物理世界中執行任務的AI來說,一千小時的YouTube視頻,遠遠不如一小時結構化的人類真實交互經驗有用。
英偉達今年2月發布的EgoScale研究,用超過20,000小時的第一視角人類視頻訓練VLA模型,發現了一條近乎完美的對數線性Scaling Law——人類數據規模每擴大一倍,模型性能就穩定提升。
![]()
這第一次用硬數據證明了:大規模人類經驗數據,是機器人學習靈巧操作的可預測監督來源。
誰能持續產出高質量結構化的人類經驗數據,誰就握住了下一個智能時代的燃料。
但是,機器的養料,不該局限于枯燥的「工廠操作指南」,而更該是一部包羅萬象的「人類經驗百科」。
![]()
如同《黑客帝國》中多個版本的Neo救世主
真實世界的互動,充滿了鮮活的復雜與多元。
一千萬條Human Experience:
一部「人類經驗百科全書」
正是在這個背景下,Ropedia正式發布了一千萬條,約10,000+小時的Human Experience數據集——Xperience-10M,并將以開放的方式向研究者公布。
![]()
現在,Xperience-10M已在Hugging Face上開源。
![]()
huggingface鏈接:https://huggingface.co/datasets/ropedia-ai/xperience-10m
正如「Ropedia」這個名字所承載的野心與浪漫——
為Robot(機器人)撰寫一部全景式的Encyclopedia(百科全書),將人類流動的生命經驗,化作AI跨越時代的通用底座。
![]()
這不是一套傳統意義上的原始采集數據。
他們想做的不是「上傳一批視頻」,而是為機器構建一部通往物理世界的「經驗百科全書」。
為什么叫「百科全書」?
因為對于具身智能和世界模型來說,真正缺的不是某一種信號,而是一整套多維度、多模態、像百科全書一樣完整的數據——它需要有物理信息、三維空間信息、交互意圖、行為軌跡,所有這些維度拼湊在一起,才能構成一幅生動寫實的圖景,而不是一個視頻合集。
![]()
在同一段軌跡中,Ropedia同時提供了五個核心維度的數據:
視覺流信息(RGB第一視角連續觀察,360°第一視角采集)
空間信息(深度、空間結構、環境拓撲)
動作信息(全身動作、手部靈巧操作、交互軌跡)
交互信息(人與物、人與場景、人與任務之間的作用關系)
以及語義信息(任務描述、狀態變化、原子動作、行為意圖)
更關鍵的是,這些維度并不是后期「拼起來」的,而是被統一對齊在同一時間軸和同一結構框架下。
視覺與動作天然同步,語義與物理變化可以對應,行為路徑與空間結構可以追溯,整個任務執行過程都可以被重放、建模和學習。
這正是Ropedia與市面上大量數據集最本質的區別:它交付的不是一堆原始素材,而是一套真正可以直接喂入模型訓練環節的結構化智能數據。
![]()
什么是4D Physical World?
在Ropedia的定義里,4D并不只是「3D加上時間」。
它真正指向的是一個更完整的框架:3D + Time + Interaction + Consequence。
拆開來看,就是四個維度的閉環——
空間(Where):智能體身處何處,周圍環境結構如何;
行動(How):它如何移動、如何接觸、如何操控;
交互(With What):它和什么對象發生了作用;
后果(What Changes):這些動作帶來了怎樣真實可觀測的物理變化。
這四個維度,構成了機器理解物理世界的最小閉環。
道理很簡單:如果沒有交互,時間只是一段錄像;如果沒有后果,動作只是一條軌跡。
只有當「行為如何改變世界」這個信息被寫入數據本體,Physical AI才真正擁有了學習現實的基礎。
從這個意義上說,Ropedia發布的不只是一個數據集,更像是在定義一種面向具身智能的新型數據標準。
HOMIE:把人類經驗采集,做成像戴眼鏡一樣自然
有了數據標準還不夠,更核心的問題是:這樣的數據從哪里來?
今天行業里不乏數據采集的努力。
特斯拉的Optimus項目招募大量人員,在專用設施里穿著動捕服反復做洗碗、疊衣服等動作,攝像頭從最初的四個擴展到六個再到八個。
![]()
![]()
Figure則讓操作者頭戴Vision Pro進行遙操作數據采集。
![]()
這些方案各有所長,但都面臨一個共同的限制:它們嚴重依賴專業設備和受控環境。
采集只能發生在Tesla的數據工廠里、Figure的樣板房里、實驗室的可控場景里。
一旦換一個不同的環境——整套數據閉環的能力就急劇下降。
真正的泛化,需要的是在真實世界的千千萬萬個末端場景里完成數據閉環。
為此,Ropedia早在2025年發布了自己的端到端采集平臺——HOMIE。
![]()
HOMIE不是單一硬件,而是一整套圍繞「無感化、可擴展、長期可用」設計的「人類經驗捕捉系統」。
它的核心特點在于兩個「不依賴」:不依賴重型專業設備,不依賴外部第三人稱視角相機。
用戶只需佩戴一個輕量化的頭戴式多模態采集設備,就可以回到日常生活和工作環境中自然地完成數據采集。
這意味著高質量數據的閉環,可以真實地發生在每一個末端場景里——你家的廚房、辦公桌、工廠產線、醫院護理站——而不只是一間樣板房或數據工廠。
HOMIE支持長時間佩戴、具備穩定的自運動追蹤與定位能力、多傳感器精準同步,以及面向真實世界任意場景的規模化部署。
從外部看,這是一套硬件采集系統;但從Ropedia的戰略來看,它更像是「物理世界百科全書」的入口層,持續把真實世界中的人類行為轉化為可被機器理解的知識單元。
真正拉開差距的,是結構化標注能力
但是,原始經驗并不天然等于智能數據。
這是Ropedia反復強調的核心觀點。
市面上不乏數據采集的方案——有人采了很多視頻,隨手放到網上,拼的是時長和體量。
但這種做法很容易淪為「又一個互聯網數據集」。
有數據不等于「有用的數據」。沒有高質量、結構化、可對齊的標注體系,海量采集只是一堆噪聲。
Ropedia真正的核心競爭力,在于它背后那套空間基礎模型(Spatial Foundation Model)與自動標注體系。
![]()
這套系統類似于特斯拉FSD的數據飛輪邏輯:
FSD最大的優勢不在于某一版硬件有多強,而在于它能夠產生數據飛輪效應——車輛在路上跑的同時不斷回灌數據,持續提升模型在長尾場景下的能力。
Ropedia的數據管線也遵循同樣的思路。
它并不純依賴硬件——因為硬件迭代是慢的,哪怕以深圳速度也要三到六個月一版——而是依賴自研的空間基礎模型來驅動整條數據管線。
幾百上千名采集人員在外場采集的數據,一方面交付給下游客戶使用,另一方面也在閉環Ropedia自身模型的能力。
模型越強,標注質量越高;標注質量越高,模型又進一步提升。
這種飛輪效應,使得Ropedia的數據質量迭代速度遠超傳統的硬件驅動或人力標注方式。
目前,這套系統已覆蓋的關鍵能力包括:空間定位與深度恢復、手—物交互追蹤、全身動作捕捉、物體與場景語義理解、任務描述與狀態變化建模,以及更多持續擴展中的結構化維度。
換句話說,Ropedia真正交付的不是「我們拍到了很多」,而是「我們能把真實經驗穩定地轉譯成高質量智能數據」。
這是它與大量無結構采集方案之間的關鍵分水嶺。
「經驗百科全書」如何
重新定義機器人數據采集?
站在具身智能和世界模型的前沿來看,Ropedia發布的這套Human Experience數據集,實際上觸及了一個整個行業懸而未決的根本性問題:
機器人要從什么樣的數據中學會在物理世界里行動?
回顧機器人領域數據采集的演進脈絡,你會發現它經歷了三個清晰的階段:
第一階段是仿真數據主導。在NVIDIA Isaac、MuJoCo等仿真器中生成大量虛擬軌跡,優勢是成本極低、可無限復制,但致命缺陷是sim-to-real gap——仿真中完美運行的策略,一旦部署到真實世界就大幅退化。
第二階段是遙操作(teleoperation)數據興起。Tesla Optimus招募大量人員在樣板房里用人體動捕設備遙控機器人執行任務,Figure等公司用Vision Pro做數據采集,RT-2、ALOHA等項目也大量依賴遙操作。
這種方式的優勢是動作數據直接來自真實機器人執行,可以端到端訓練,但瓶頸同樣明顯——成本極高、采集不具備可擴展性,最關鍵的是,它只能在可控環境中進行,永遠無法覆蓋真實世界千變萬化的長尾場景。
![]()
你可以在Tesla的數據工廠里搭一個標準廚房,但你搭不出全世界幾十億家庭各不相同的廚房。
第三階段,也是正在發生的范式轉移,是以人為中心(human-centric)的經驗數據。不再用機器人采集數據,而是讓人類在真實生活場景中自然行動,通過輕量化的可穿戴設備記錄第一視角的多模態信息,然后將這些人類經驗轉化為機器可學習的結構化數據。
這個轉變的底層邏輯,其實和自動駕駛行業的演進如出一轍。
早期Waymo的方案是在有限的城市中用昂貴的傳感器車隊采集數據,數據質量很高但規模上不去;后來Tesla用每一輛量產車的攝像頭做「影子模式」,海量采集真實駕駛場景,用規模和多樣性碾壓了精采數據的稀缺性。
![]()
從「昂貴的專業采集」到「低成本、滲透式的規模化采集」,這條路徑在自動駕駛領域已經被驗證過一遍了。
機器人領域正在重走這條路。
英偉達的例子很有說服力。
EgoScale研究表明,當第一視角人類視頻數據規模提升至20,854小時后,機器人策略性能呈現出清晰的規模化收益;與無預訓練基線相比,平均成功率提升54%。
![]()
第一視角人類數據對機器人泛化與遷移能力的作用,已經從「輔助路線」走向「主路徑」。
這些信號匯聚起來,指向一個不可逆轉的行業共識:
如果你真想構建能泛化到任意場景的機器人基礎模型,以人為中心的、來自真實世界的經驗數據,是唯一能實現規模化的路徑。
而Ropedia的「經驗百科全書」范式,恰恰在這個歷史轉折點上,給出了一套完整的答案——不只是采集人類數據,而是將人類在真實世界中的完整經驗鏈條(感知-意圖-動作-交互-后果)結構化為機器可讀、可訓練、可泛化的4D物理世界數據。
這是對「機器人該從什么數據中學習」這個根本問題的一次重新定義。
一個新的Physical AI玩家
作為關注Physical AI和具身智能賽道的觀察者,當我們在世界模型融資狂潮、機器人本體軍備競賽和基礎模型混戰的嘈雜聲中,梳理整個產業鏈的關鍵節點時,Ropedia的出現引起了我們的注意。
它的獨特之處,在于它不是任何一個我們熟悉的品類。
它不是模型公司——不做世界模型,不做VLA,不和LeCun的AMI Labs或李飛飛的World Labs競爭。
它也不是機器人本體公司——不造人形機器人,不和Figure、Tesla Optimus、1X、Unitree爭奪硬件份額。
Ropedia更像一家數據科學公司(Data ScienceCompany)。
在大語言模型時代,Scale AI和Surge AI的故事告訴我們一件事:數據基礎設施的價值,往往被低估到令人吃驚的程度。
![]()
Scale AI靠拼規模和吞吐量做到了百億美元估值,但最終Surge AI用不到十分之一的團隊、零外部融資,憑借對數據質量近乎偏執的追求,在營收上反超了前者。
這個故事的教訓很清楚——在AI基礎設施的競爭中,理解「模型到底需要什么樣的數據」,比單純的數據體量更值錢。
Ropedia走的是同樣的邏輯,但它面對的賽道更加底層,也更加關鍵。
大語言模型時代,Scale AI標注的是文本和圖像——這些數據形態是二維的、靜態的、結構相對簡單的。
而Physical AI時代,數據是4D的——三維空間加時間加交互加后果,數據的復雜度和結構化難度呈指數級上升。
在這個新賽道里,「拍了多少視頻」遠不如「能把真實經驗轉化為多少高質量結構化數據」重要。
這恰恰是Ropedia的核心定位:它不生產模型,也不生產機器人,它生產讓模型和機器人變得更聰明的「燃料」——而且是高辛烷值的、精煉過的、可以直接進入訓練管線的燃料。
它的客戶畫像也印證了這一點:北美和英國的科技大廠、明星機器人初創公司、視覺模型公司、空間智能公司——都是Physical AI賽道上最前沿的玩家。
它們選擇Ropedia,不是因為缺視頻,而是因為缺高質量的結構化經驗數據。
一個時代的基礎設施
正在被重新定義
回頭來看,一條清晰的主線正在浮現。
過去,大模型依靠互聯網成長。文本互聯網塑造了語言智能,圖像與視頻互聯網推動了視覺智能。
而下一個時代,Physical AI需要的將不是另一套內容平臺,而是一套能夠持續積累、持續組織、持續更新的人類經驗基礎設施。
如果說過去的互聯網沉淀的是「人類說了什么、寫了什么、拍了什么」,那么屬于Physical AI的基礎設施,需要沉淀的是一個更加本質的東西:人類如何在真實世界中行動、交互,并改變世界。
LeCun和李飛飛用數十億美元的融資規模,向全世界宣告了世界模型和空間智能的方向確定性。
但方向確定之后,真正的競爭焦點會迅速轉移到一個更底層的問題上——數據從哪里來?什么樣的數據才真正有用?誰能以可持續的方式大規模生產它?
從兩百萬條、10,000+小時Human Experience數據集出發,Ropedia正在為Physical AI建立一套可持續擴展的「經驗百科全書」。
![]()
更長遠來看,一個令人興奮的圖景已經隱約可見:未來,當機器人真正走進千家萬戶時,每一臺都需要被「教會」你家的洗碗機怎么用、冰箱怎么開、你的生活習慣是什么——就像你教一個新來的鐘點工熟悉環境一樣,只不過這一次你教的是AI。
這個「教」的過程,本質上就是Human Experience的持續采集、結構化和閉環。
它所蘊含的,是一個比今天能想象到的大得多的數據基礎設施市場。
當機器第一次能夠系統性地學習人類如何在空間中行動并改變世界,Physical AI的真正時代,才會拉開帷幕。
One more thing,
值得一提的是,這次發布所記錄下的人類雙手與運動距離總和,就已經足夠繞地球一圈 :)
參考資料:
https://ropedia.com/blog/20251216_introducing_ropedia
為偉大思想而生!
AI+時代,互聯網思想(wanging0123),
第一必讀自媒體
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.