鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
還得是這屆00后,強得可怕!一出手,具身智能就被“整頓”得底朝天。
當別人還在Sim2Real打轉時,這支00后帶隊的靈初智能,已經開始用近10萬小時人類數據暴力拆解。
這個數字就是放到整個行業里看,也是遙遙領先。
畢竟目前人類操作數據集大多還都集中在幾千到幾萬小時量級,最大的也不過是英偉達的EgoScale,包含2萬小時人類第一視角視頻數據。
靈初這次直接上了個新臺階,10萬+數據,其中1000小時還開源。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Dfj0Z1JiMoTjzSCBassL2Q
而且發布形式也夠潮——直播show time~
AI博主弗蘭克和靈初智能的00后聯合創始人陳源培,直接手把手給你剖析的那種。(techblog指路:
https://www.psibot.ai/from-human-skill-to-robotic-mastery/)
![]()
言而總之,整場直播我們復盤下來,就講兩件事:給具身智能喂什么吃、讓具身智能長什么樣的腦子。
說人話就是,靈初給的,是一條與眾不同的務實路徑——
不整虛的,直接對齊人類數據,再用Psi-R2和Psi-W0雙系統架構平穩落地具體場景。
結果也很直觀,靈初Psi-R2迅速登頂MolmoSpace榜單。
MolmoSpace由美國艾倫人工智能研究所(AllenAI)發起,是全球具身智能領域權威基準評測平臺,NVIDIA、PI等全球頂尖團隊均參與本次評測。
而靈初Psi-R2在評測中一舉超越PI、DreamZero等國際知名模型,表現也顯著優于其他基線模型,妥妥的行業第一梯隊。
在成功率這塊,也比同類VLA模型要高出近10倍。
![]()
情況就是這么個情況,靈初一來就整了個大活,具身智能終于迎來首個直接能用的大規模人類手部操作全模態數據集。
下面就讓我們回到直播間現場,一一復盤拆解。
10萬小時,讓具身智能吃個頂飽
“為啥偏偏具身智能會數據荒?”弗蘭克化身觀眾嘴替,率先給出這句經典靈魂拷問。
要回答這個問題,首先需要厘清一點,具身智能和自動駕駛、大語言模型這些AI領域存在原生的數據差異。
后者基于現實場景和互聯網,長期積累沉淀形成了海量存量數據,然后通過簡單粗暴的算力Scaling law就能實現性能穩步提升。
但具身智能則截然不同,物理世界復雜的情況讓它幾乎沒有可用的成熟數據集,也很難像互聯網產品那樣邊用邊攢數據。
可以說,影響具身智能發展的關鍵之一就是數據卡脖子。
那咋辦呢?以靈初在內的具身智能公司紛紛將目光投向人類數據。
![]()
仿真數據還需要遷移處理,才能在真實機器人上使用,但人類數據就是最優秀的參考對象,數據量大而且質量高。
但事實上,這里也同樣存在一個無法忽視的問題:人類和機器人之間存在本體差異(embodiment gap)。
直接復用顯然不行,機器人必定會出現運動學結構、動力學特性不匹配種種問題。
其次,現有的人類數據要直接給到預訓練,也是萬萬不行的。因為要么都是些小規模開源數據,要么就是網絡上一些低質量的第一人稱視頻。
但除去人類數據,也幾乎沒有其它更好的路徑可走。靈初給出的判斷是:
具身智能要想面向真實商業化場景落地,純人類數據訓練是必要的。
一方面,使用人類數據能夠讓機器人搶先學習到人類一線的標準作業流程(SOP),而這些都是得到商業實際驗證過的,即拿即用且行之有效。
換言之,真實場景的無縫銜接能夠將數據成本降至最低,比如人類的觸覺數據收集成本,就僅為機器人的1/10以下。
另一方面,人類數據的SOP也可以使操作速度達到機械臂物理運動上限(如1200),遠超遙操作可達的800,也更適配商業工廠的高節拍要求。
![]()
所以靈初最終選擇了人類數據,并造出了首個可用于預訓練的大規模人類操作數據集。
其中,在人類數據和機器人數據的融合處理中,靈初遵循的是一條化繁為簡的思路:Raw Data In,Raw Data Out(原生數據進,原生數據出)。
舍棄人工設計的復雜數據處理,直接進行人類關節與機器人本體的運動學對齊,讓模型在海量數據中自行探索。另外,Auto Labeling也會替代人工進行數據質檢和標注,最后再交由人工審核。
最終模型預訓練使用的數據集將包括真機數據(5417小時)和人類數據(95472小時)兩部分,總計10萬小時數據。
目前其中1000小時已開源,到年底整個數據集還將Scaling到百萬量級。
具體來講,人類數據包括靈初自研外骨骼手套采集數據與裸手操作數據,覆蓋294種場景、4821種任務與1382種物體。
![]()
至于為什么要強調觸覺數據呢?歸根結底,還是為了更好地彌補人機之間的embodiment gap。
雖然人類與機器人在多個方面差異明顯,但二者在接觸信號上卻保持了驚人的高度一致,能夠有效補償動力學差異,以及在顯著提升世界模型能力的同時,還能更好地預測機器人與物體之間的交互情況。
這樣一整套高質量數據預訓練下來,機器人的泛化能力、長流程操作能力和操作精度都會有所突破,后續也僅僅只需要不到100條軌跡的真機數據就能完成微調。
另外值得關注的是,靈初在此期間,還發現了另一處華點:
數據信噪比才是決定人類數據能否有效支撐預訓練的核心因素。低信噪比的數據甚至還會起到反作用。
如果要想判斷數據信噪比,可以從兩方面看:
1、數據集分布:操作任務多樣性>物體多樣性>>場景多樣性。
泛化能力其實是模型最難學會的能力之一,但如果在預訓練階段可以見到更多任務和操作對象,自然而然模型接手新任務速度就越快。
2、感知模態:精準3D位姿>>觸覺模態>2D圖像特征。
在全模態信息中,人手全域3D位姿追蹤是2D到3D模型轉化的關鍵,也和機器人動力學特性匹配度最高。
![]()
簡單來說,靈初認為無論是精準采集的可復現數據,還是舍棄部分精度的粗糙泛化數據,都缺一不可。
二者相互補充,既保證模型精度又確保泛化。
具身智能長出雙系統新腦
所以基于以上認知,靈初全新發布Psi雙系統架構——Psi-R2和Psi-W0。
![]()
先看Psi-R2,這是一款能讓機器人學習人類做事的模型,核心就是靠這10萬+的海量數據,學會精細操作。
圖像和語言指令將作為輸入,輸出預測的未來操作視頻和可執行動作,所以Psi-R2可以稱之為世界行動模型(WAM)。
其中訓練骨干網絡選用Wan2.2-IT2V-5B-480P,預訓練階段同步使用真機數據和人類數據,還搭建了一套完整的數據處理流程,從數據清洗、自動標注,到質量檢測、人工核對,Psi-W0還會幫忙檢查數據質量。
同時,采用專門技術精準捕捉人類手部動作軌跡,比如通過外骨骼手套,將動作誤差控制在亞毫米級,以確保人類的操作細節能被機器人精準模仿。
![]()
視頻鏈接:https://www.psibot.ai/from-human-skill-to-robotic-
但WAM模型架構普遍存在一個bug——反應慢。單次推理要2.2秒,反映到機器人身上,就是明顯的卡頓。
于是靈初通過DiT緩存、Torch編譯、模型量化等多項技術優化,把反應時間極限壓縮到了100毫秒以內。
再看Psi-W0,它和Psi-R2的基礎架構相似,但分工完全不同。Psi-R2是學習怎么做,Psi-W0是協助做得更好。
首先它和Psi-R2一樣,都是基于預訓練視頻生成模型構建的,但在Psi-W0里,機器人動作是輸入,輸出的是對未來場景視頻的預測,所以Psi-W0也被定義為動作條件型世界模型(AC-WM)。
這里就引出了另一個問題:Psi-R2也能輸出預測,那為什么還要做Psi-W0?
答案很簡單,為了反事實推理。Psi-R2學到的只有成功的操作,比如成功抓起蘋果,但沒有辦法預測到蘋果抓不穩這類失敗情況。
但老話說得好,失敗是成功之母,機器人亦是如此。失敗經驗能夠幫助機器人避開錯誤、優化動作,Psi-W0就是專門負責填補這部分空白。
具體來講,兩個模型的訓練骨干和數據格式都是一致的,只是在Psi-W0的訓練數據中額外加入了30%的失敗樣本。
![]()
視頻鏈接:https://www.psibot.ai/from-human-skill-to-robotic-
顯然,Psi-R2和Psi-W0并非孤立存在,而是彼此之間協同配合。當Psi-R2學完人類操作后,Psi-W0就會模擬人類操作場景,讓Psi-R2再演練一遍,也就是進行策略評估,檢查它有沒有學漏學歪。
Psi-W0還有一項核心功能,是通過強化學習將人類數據轉換為機器人數據。
傳統方法中,數據轉換靠的是仿真環境調整,不僅復雜而且準確性不高。但用Psi-W0替代后,它就會模擬機器人視角和動作模式,再通過強化學習的試錯調優,將人類動作調整為機器人能精準執行的動作。
![]()
更厲害的是,在這個過程中還能持續生成新的優質數據,當把這些數據反向喂給Psi-R2和Psi-W0繼續學習,就能構成閉環數據飛輪。
當然也可以故意給Psi-W0進行隨機擾動以模擬部分特殊場景,然后再生成目標場景和訓練數據。
高質量數據滋養模型高性能,模型場景落地反哺數據擴充。于是自然而然,輪子飛起來了。
最終整套系統能夠實現長程任務自主規劃、任務自主恢復和適配多場景復雜任務。
開源是最高效的落地杠桿
回看整場直播,無論是弗蘭克還是陳源培聊的內容,其實貫穿技術始終的都是同一個關鍵詞——落地。
弗蘭克站在觀眾角度,好奇什么時候具身智能才能落地。陳源培則站在廠商視角,給出了靈初智能的落地方案:
技術端,從大規模的真實人類數據采集,再到實際應用中的具身模型,無一不是從切實的落地場景中出發構建。
應用端,靈初智能也同時宣布要和北京石景山共建數采廠,以及和騰訊云、抖音、覓蜂、智域基石達成生態合作。
![]()
不難看出,靈初這家公司從誕生之初的DNA就是聚焦技術落地、提供通用全棧技術。它的每一步都在驗證一個行業共識:
具身智能從誕生之初就錨定的終點,絕非實驗室,而是每一個具體可感的復雜場景。而這恰恰才是檢驗具身智能的標準所在。
在通往落地的過程中,靈初也率先意識到,單打獨斗并非最優解,開源是必要的。
對于它們自身而言,只有開源,才能讓全行業幫助他們快速采集海量數據,才能彌補上這套數據飛輪體系中的關鍵一環。
而且AI時代,時間和數據就是最稀缺的黃金資源。越早進場、擁有越多數據,就能搶先收獲長尾效益。
再放眼整個行業,開源不僅是情懷,也是打破技術封閉孤島的鑰匙。它能夠建立起廣袤的開發者生態,通過標準化的數據管線和預訓練底座,讓具身智能不再是孤立的廠商個體。
而全行業開源共建,還能反向喂養靈初這類硬核玩家,讓他們集中精力攻堅最難的技術瓶頸。集眾智,才是具身智能跑贏節拍、實現商業落地的唯一捷徑。
![]()
而靈初無疑是當中走得最快最穩的一位明星選手。
最后化用一句老話,用來描述我眼中的靈初智能——有仰望星空的勇氣,亦有腳踏實地的努力。
具身智能正在因這場青春風暴而面目一新。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.