網易首頁 > 網易號 > 正文申請入駐

OpenClaw不會蛋炒飯！Ropedia放出人類經驗，機器人“經驗百科全書”來了

2026-03-22 20:41:17　來源: 互聯網思想

廣東舉報

分享至

來源：新智元

【導讀】當LeCun和李飛飛各自拿下10億美元押注世界模型時，一個更底層的問題浮出水面：誰來為Physical AI提供真正能用的數據？Ropedia給出的答案，不是更多視頻，而是一部結構化的、來自真實世界的「經驗百科全書」。

最近，AI圈最熱的一件事情就是，玩OpenClaw。

OpenClaw似乎無所不能：寫代碼、出報告、改方案、查資料。

但有一件事，OpenClaw做不到——它沒辦法幫你去廚房炒一盤蛋炒飯。

但當AI試圖進入物理世界，一個隱藏已久的問題開始浮出水面：

機器人學習的數據在哪里，人類在真實世界中的經驗和經歷如何變成「高質量數據」？

2026年，AI世界的風向標開始轉向了同一個方向：如何讓智能真正走進真實物理世界。

給Physical AI一套

真正的「經驗底座」

對于AI發展的路線之爭，圖靈獎得主Yann LeCun的堅持代表了一種態度，資本也給出的回應。

他離開Meta后創辦的AMI Labs，以35億美元估值拿下10.3億美元種子輪——刷新歐洲AI創業史上最大種子輪紀錄。

貝索斯、英偉達、三星、施密特，半個硅谷都在他的投資人名單上。

LeCun說得直白：「世界模型將成為下一個熱詞。六個月后，每家公司都會自稱是世界模型來融資。」

就在AMI Labs官宣的兩周前，「AI教母」李飛飛的World Labs剛剛完成10億美元融資，估值飆至50億美元。

AMD和英偉達兩大芯片巨頭同時入局，Autodesk更是一口氣掏出2億美元戰略投資。

李飛飛在年初的訪談中反復強調一個判斷：空間智能，是AI的下一個前沿。

兩位學術界最具號召力的人物，不約而同押下了同一注：讓AI理解真實的物理世界。

這是一個時代的信號。

從語言智能到物理智能：

中間差了一座「數據大橋」

過去十年，AI的飛躍建立在互聯網規模的文本、圖像和視頻之上。

大模型學會了理解語言、識別場景、生成內容，智能第一次大規模走入了人們的生活。

但當AI試圖進一步踏入物理世界，問題開始變得截然不同。

機器人不僅要「看見」，還要「行動」；不僅要識別一個廚房長什么樣，還要理解人在其中如何移動、如何操作、如何跟物體發生交互，以及每一個動作會帶來什么物理后果。

這意味著，下一代智能系統——包括空間智能、具身智能、世界模型和Physical AI——需要的已經不只是更多視頻，而是更接近人類真實行動過程的經驗數據（Experience）。

可問題在于：這樣的數據，幾乎不存在。

今天互聯網上有海量的視頻，但絕大多數只是「被動觀看」的素材——缺少深度信息、缺少空間結構、缺少手部交互軌跡、缺少動作與后果之間的因果關聯。

對于想要在物理世界中執行任務的AI來說，一千小時的YouTube視頻，遠遠不如一小時結構化的人類真實交互經驗有用。

英偉達今年2月發布的EgoScale研究，用超過20,000小時的第一視角人類視頻訓練VLA模型，發現了一條近乎完美的對數線性Scaling Law——人類數據規模每擴大一倍，模型性能就穩定提升。

這第一次用硬數據證明了：大規模人類經驗數據，是機器人學習靈巧操作的可預測監督來源。

誰能持續產出高質量結構化的人類經驗數據，誰就握住了下一個智能時代的燃料。

但是，機器的養料，不該局限于枯燥的「工廠操作指南」，而更該是一部包羅萬象的「人類經驗百科」。

如同《黑客帝國》中多個版本的Neo救世主

真實世界的互動，充滿了鮮活的復雜與多元。

一千萬條Human Experience：

一部「人類經驗百科全書」

正是在這個背景下，Ropedia正式發布了一千萬條，約10,000+小時的Human Experience數據集——Xperience-10M，并將以開放的方式向研究者公布。

現在，Xperience-10M已在Hugging Face上開源。

huggingface鏈接：https://huggingface.co/datasets/ropedia-ai/xperience-10m

正如「Ropedia」這個名字所承載的野心與浪漫——

為Robot（機器人）撰寫一部全景式的Encyclopedia（百科全書），將人類流動的生命經驗，化作AI跨越時代的通用底座。

這不是一套傳統意義上的原始采集數據。

他們想做的不是「上傳一批視頻」，而是為機器構建一部通往物理世界的「經驗百科全書」。

為什么叫「百科全書」？

因為對于具身智能和世界模型來說，真正缺的不是某一種信號，而是一整套多維度、多模態、像百科全書一樣完整的數據——它需要有物理信息、三維空間信息、交互意圖、行為軌跡，所有這些維度拼湊在一起，才能構成一幅生動寫實的圖景，而不是一個視頻合集。

在同一段軌跡中，Ropedia同時提供了五個核心維度的數據：

視覺流信息（RGB第一視角連續觀察，360°第一視角采集）
空間信息（深度、空間結構、環境拓撲）
動作信息（全身動作、手部靈巧操作、交互軌跡）
交互信息（人與物、人與場景、人與任務之間的作用關系）
以及語義信息（任務描述、狀態變化、原子動作、行為意圖）

更關鍵的是，這些維度并不是后期「拼起來」的，而是被統一對齊在同一時間軸和同一結構框架下。

視覺與動作天然同步，語義與物理變化可以對應，行為路徑與空間結構可以追溯，整個任務執行過程都可以被重放、建模和學習。

這正是Ropedia與市面上大量數據集最本質的區別：它交付的不是一堆原始素材，而是一套真正可以直接喂入模型訓練環節的結構化智能數據。

什么是4D Physical World？

在Ropedia的定義里，4D并不只是「3D加上時間」。

它真正指向的是一個更完整的框架：3D + Time + Interaction + Consequence。

拆開來看，就是四個維度的閉環——

空間（Where）：智能體身處何處，周圍環境結構如何；
行動（How）：它如何移動、如何接觸、如何操控；
交互（With What）：它和什么對象發生了作用；
后果（What Changes）：這些動作帶來了怎樣真實可觀測的物理變化。

這四個維度，構成了機器理解物理世界的最小閉環。

道理很簡單：如果沒有交互，時間只是一段錄像；如果沒有后果，動作只是一條軌跡。

只有當「行為如何改變世界」這個信息被寫入數據本體，Physical AI才真正擁有了學習現實的基礎。

從這個意義上說，Ropedia發布的不只是一個數據集，更像是在定義一種面向具身智能的新型數據標準。

HOMIE：把人類經驗采集，做成像戴眼鏡一樣自然

有了數據標準還不夠，更核心的問題是：這樣的數據從哪里來？

今天行業里不乏數據采集的努力。

特斯拉的Optimus項目招募大量人員，在專用設施里穿著動捕服反復做洗碗、疊衣服等動作，攝像頭從最初的四個擴展到六個再到八個。

Figure則讓操作者頭戴Vision Pro進行遙操作數據采集。

這些方案各有所長，但都面臨一個共同的限制：它們嚴重依賴專業設備和受控環境。

采集只能發生在Tesla的數據工廠里、Figure的樣板房里、實驗室的可控場景里。

一旦換一個不同的環境——整套數據閉環的能力就急劇下降。

真正的泛化，需要的是在真實世界的千千萬萬個末端場景里完成數據閉環。

為此，Ropedia早在2025年發布了自己的端到端采集平臺——HOMIE。

HOMIE不是單一硬件，而是一整套圍繞「無感化、可擴展、長期可用」設計的「人類經驗捕捉系統」。

它的核心特點在于兩個「不依賴」：不依賴重型專業設備，不依賴外部第三人稱視角相機。

用戶只需佩戴一個輕量化的頭戴式多模態采集設備，就可以回到日常生活和工作環境中自然地完成數據采集。

這意味著高質量數據的閉環，可以真實地發生在每一個末端場景里——你家的廚房、辦公桌、工廠產線、醫院護理站——而不只是一間樣板房或數據工廠。

HOMIE支持長時間佩戴、具備穩定的自運動追蹤與定位能力、多傳感器精準同步，以及面向真實世界任意場景的規模化部署。

從外部看，這是一套硬件采集系統；但從Ropedia的戰略來看，它更像是「物理世界百科全書」的入口層，持續把真實世界中的人類行為轉化為可被機器理解的知識單元。

真正拉開差距的，是結構化標注能力

但是，原始經驗并不天然等于智能數據。

這是Ropedia反復強調的核心觀點。

市面上不乏數據采集的方案——有人采了很多視頻，隨手放到網上，拼的是時長和體量。

但這種做法很容易淪為「又一個互聯網數據集」。

有數據不等于「有用的數據」。沒有高質量、結構化、可對齊的標注體系，海量采集只是一堆噪聲。

Ropedia真正的核心競爭力，在于它背后那套空間基礎模型（Spatial Foundation Model）與自動標注體系。

這套系統類似于特斯拉FSD的數據飛輪邏輯：

FSD最大的優勢不在于某一版硬件有多強，而在于它能夠產生數據飛輪效應——車輛在路上跑的同時不斷回灌數據，持續提升模型在長尾場景下的能力。

Ropedia的數據管線也遵循同樣的思路。

它并不純依賴硬件——因為硬件迭代是慢的，哪怕以深圳速度也要三到六個月一版——而是依賴自研的空間基礎模型來驅動整條數據管線。

幾百上千名采集人員在外場采集的數據，一方面交付給下游客戶使用，另一方面也在閉環Ropedia自身模型的能力。

模型越強，標注質量越高；標注質量越高，模型又進一步提升。

這種飛輪效應，使得Ropedia的數據質量迭代速度遠超傳統的硬件驅動或人力標注方式。

目前，這套系統已覆蓋的關鍵能力包括：空間定位與深度恢復、手—物交互追蹤、全身動作捕捉、物體與場景語義理解、任務描述與狀態變化建模，以及更多持續擴展中的結構化維度。

換句話說，Ropedia真正交付的不是「我們拍到了很多」，而是「我們能把真實經驗穩定地轉譯成高質量智能數據」。

這是它與大量無結構采集方案之間的關鍵分水嶺。

「經驗百科全書」如何

重新定義機器人數據采集？

站在具身智能和世界模型的前沿來看，Ropedia發布的這套Human Experience數據集，實際上觸及了一個整個行業懸而未決的根本性問題：

機器人要從什么樣的數據中學會在物理世界里行動？

回顧機器人領域數據采集的演進脈絡，你會發現它經歷了三個清晰的階段：

第一階段是仿真數據主導。在NVIDIA Isaac、MuJoCo等仿真器中生成大量虛擬軌跡，優勢是成本極低、可無限復制，但致命缺陷是sim-to-real gap——仿真中完美運行的策略，一旦部署到真實世界就大幅退化。

第二階段是遙操作（teleoperation）數據興起。Tesla Optimus招募大量人員在樣板房里用人體動捕設備遙控機器人執行任務，Figure等公司用Vision Pro做數據采集，RT-2、ALOHA等項目也大量依賴遙操作。

這種方式的優勢是動作數據直接來自真實機器人執行，可以端到端訓練，但瓶頸同樣明顯——成本極高、采集不具備可擴展性，最關鍵的是，它只能在可控環境中進行，永遠無法覆蓋真實世界千變萬化的長尾場景。

你可以在Tesla的數據工廠里搭一個標準廚房，但你搭不出全世界幾十億家庭各不相同的廚房。

第三階段，也是正在發生的范式轉移，是以人為中心（human-centric）的經驗數據。不再用機器人采集數據，而是讓人類在真實生活場景中自然行動，通過輕量化的可穿戴設備記錄第一視角的多模態信息，然后將這些人類經驗轉化為機器可學習的結構化數據。

這個轉變的底層邏輯，其實和自動駕駛行業的演進如出一轍。

早期Waymo的方案是在有限的城市中用昂貴的傳感器車隊采集數據，數據質量很高但規模上不去；后來Tesla用每一輛量產車的攝像頭做「影子模式」，海量采集真實駕駛場景，用規模和多樣性碾壓了精采數據的稀缺性。

從「昂貴的專業采集」到「低成本、滲透式的規模化采集」，這條路徑在自動駕駛領域已經被驗證過一遍了。

機器人領域正在重走這條路。

英偉達的例子很有說服力。

EgoScale研究表明，當第一視角人類視頻數據規模提升至20,854小時后，機器人策略性能呈現出清晰的規模化收益；與無預訓練基線相比，平均成功率提升54%。

第一視角人類數據對機器人泛化與遷移能力的作用，已經從「輔助路線」走向「主路徑」。

這些信號匯聚起來，指向一個不可逆轉的行業共識：

如果你真想構建能泛化到任意場景的機器人基礎模型，以人為中心的、來自真實世界的經驗數據，是唯一能實現規模化的路徑。

而Ropedia的「經驗百科全書」范式，恰恰在這個歷史轉折點上，給出了一套完整的答案——不只是采集人類數據，而是將人類在真實世界中的完整經驗鏈條（感知-意圖-動作-交互-后果）結構化為機器可讀、可訓練、可泛化的4D物理世界數據。

這是對「機器人該從什么數據中學習」這個根本問題的一次重新定義。

一個新的Physical AI玩家

作為關注Physical AI和具身智能賽道的觀察者，當我們在世界模型融資狂潮、機器人本體軍備競賽和基礎模型混戰的嘈雜聲中，梳理整個產業鏈的關鍵節點時，Ropedia的出現引起了我們的注意。

它的獨特之處，在于它不是任何一個我們熟悉的品類。

它不是模型公司——不做世界模型，不做VLA，不和LeCun的AMI Labs或李飛飛的World Labs競爭。

它也不是機器人本體公司——不造人形機器人，不和Figure、Tesla Optimus、1X、Unitree爭奪硬件份額。

Ropedia更像一家數據科學公司（Data ScienceCompany）。

在大語言模型時代，Scale AI和Surge AI的故事告訴我們一件事：數據基礎設施的價值，往往被低估到令人吃驚的程度。

Scale AI靠拼規模和吞吐量做到了百億美元估值，但最終Surge AI用不到十分之一的團隊、零外部融資，憑借對數據質量近乎偏執的追求，在營收上反超了前者。

這個故事的教訓很清楚——在AI基礎設施的競爭中，理解「模型到底需要什么樣的數據」，比單純的數據體量更值錢。

Ropedia走的是同樣的邏輯，但它面對的賽道更加底層，也更加關鍵。

大語言模型時代，Scale AI標注的是文本和圖像——這些數據形態是二維的、靜態的、結構相對簡單的。

而Physical AI時代，數據是4D的——三維空間加時間加交互加后果，數據的復雜度和結構化難度呈指數級上升。

在這個新賽道里，「拍了多少視頻」遠不如「能把真實經驗轉化為多少高質量結構化數據」重要。

這恰恰是Ropedia的核心定位：它不生產模型，也不生產機器人，它生產讓模型和機器人變得更聰明的「燃料」——而且是高辛烷值的、精煉過的、可以直接進入訓練管線的燃料。

它的客戶畫像也印證了這一點：北美和英國的科技大廠、明星機器人初創公司、視覺模型公司、空間智能公司——都是Physical AI賽道上最前沿的玩家。

它們選擇Ropedia，不是因為缺視頻，而是因為缺高質量的結構化經驗數據。

一個時代的基礎設施

正在被重新定義

回頭來看，一條清晰的主線正在浮現。

過去，大模型依靠互聯網成長。文本互聯網塑造了語言智能，圖像與視頻互聯網推動了視覺智能。

而下一個時代，Physical AI需要的將不是另一套內容平臺，而是一套能夠持續積累、持續組織、持續更新的人類經驗基礎設施。

如果說過去的互聯網沉淀的是「人類說了什么、寫了什么、拍了什么」，那么屬于Physical AI的基礎設施，需要沉淀的是一個更加本質的東西：人類如何在真實世界中行動、交互，并改變世界。

LeCun和李飛飛用數十億美元的融資規模，向全世界宣告了世界模型和空間智能的方向確定性。

但方向確定之后，真正的競爭焦點會迅速轉移到一個更底層的問題上——數據從哪里來？什么樣的數據才真正有用？誰能以可持續的方式大規模生產它？

從兩百萬條、10,000+小時Human Experience數據集出發，Ropedia正在為Physical AI建立一套可持續擴展的「經驗百科全書」。

更長遠來看，一個令人興奮的圖景已經隱約可見：未來，當機器人真正走進千家萬戶時，每一臺都需要被「教會」你家的洗碗機怎么用、冰箱怎么開、你的生活習慣是什么——就像你教一個新來的鐘點工熟悉環境一樣，只不過這一次你教的是AI。

這個「教」的過程，本質上就是Human Experience的持續采集、結構化和閉環。

它所蘊含的，是一個比今天能想象到的大得多的數據基礎設施市場。

當機器第一次能夠系統性地學習人類如何在空間中行動并改變世界，Physical AI的真正時代，才會拉開帷幕。

One more thing,

值得一提的是，這次發布所記錄下的人類雙手與運動距離總和，就已經足夠繞地球一圈 :)

參考資料：

https://ropedia.com/blog/20251216_introducing_ropedia

為偉大思想而生！

AI+時代，互聯網思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

互聯網思想

AI時代，互聯網思想觀察

2434文章數 16907關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

時尚

健康

藝術

軍事航空

家居要聞

手機 / 數碼

房產 / 家居

OpenClaw不會蛋炒飯！Ropedia放出人類經驗，機器人“經驗百科全書”來了

夭折的造富神話，逼著中國AI回去賺"慢錢"

40歲男子開賭場賺7.31億元 被通緝前在英國瘋狂購房

40歲男子開賭場賺7.31億元 被通緝前在英國瘋狂購房

巴黎5-4拜仁夜：身價1.55億的“足壇笑話”，成了最硬的底牌

單依純演唱會再唱“區區三萬天”宣戰

多地藥店違規串換商品套刷醫保揭秘

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

寂然無界 簡潔風格

劉浩存：明媚中綻放

揭秘干細胞抗衰美容七大謠言

這些女神，竟然都是攝影師切爾尼亞季耶夫的復古作品！

德國總理默茨：美國正遭受伊朗領導層的羞辱

40歲男子開賭場賺7.31億元被通緝前在英國瘋狂購房

40歲男子開賭場賺7.31億元被通緝前在英國瘋狂購房

配32寸升降屏新款別克世紀CENTURY上市53.99萬起

寂然無界簡潔風格