![]()
前兩天主持了靈初智能的發布會,印象特別深。
那天晚上在北京,發布會形式挺新穎的,靈初智能的聯合創始人陳源培,跟我坐在一塊兒,邊聊邊發布。
有點像平時在直播間里聊技術那樣,有什么問題當場就問,有什么干貨當場就展示。
![]()
源培就坐我右手邊。
源培是00后,比我還小一點,在北大師從楊耀東,在斯坦福跟著李飛飛做過世界模型研究,現在已經是具身圈年輕一代里的代表人物了。
現場我問了不少有點尖銳的問題:
為什么必須要人類數據,機器數據不是更主流?是不是為了標新立異?
機器人操作失敗的比例有多高?為什么有的場景沒覆蓋到?
說實話,最開始我對靈初智能和源培,是有些疑問的——李飛飛和那么多國內具身公司都沒做好的事,為什么你們可以?
但是這次直播發布,真的打消了我的疑惑。
![]()
發布的新一代具身智能大模型Psi-R2,在國際權威評測MolmoSpace中斬獲全球第一。
模型的背后,還有10萬小時的人類操作數據,其中1000小時開源。
這個量級放在整個行業里看,屬于獨一檔的存在。
下面我就把那天晚上聊的內容,和我自己的一些感受,好好復盤一下。
01具身智能被卡脖子的地方,其實不是算法
發布會一開始,我就把那個很多人都在問的問題直接拋給了源培:為什么偏偏具身智能會有數據荒?
源培的回答很干脆。大語言模型也好,自動駕駛也好,它們都站在了巨人的肩膀上。互聯網發展了這么多年,積累了海量的文本、圖像、視頻數據。
GPT們可以像喝自來水一樣直接從這些數據里汲取養分,靠算力的粗暴堆砌就能讓性能穩步提升。
![]()
但機器人不行。
物理世界太復雜了,復雜到沒有一個現成的數據集能覆蓋它。你沒辦法讓機器人在真實的工廠車間里邊干活邊攢數據,成本太高,效率太低,而且很多場景根本就不允許犯錯。
這是一個根本性的難題。沒有足夠的高質量數據,再精巧的模型架構都是空中樓閣。
行業內一直在嘗試各種解法。仿真數據是個方向,在虛擬環境里讓機器人反復練習,聽起來很美好。但仿真和真實世界之間永遠有一道鴻溝,一道被稱為Sim-to-Real的鴻溝。
在仿真里學得再好的模型,一到真實環境就水土不服,尤其在處理布料、液體這類柔性物體時,仿真器根本無能為力。
![]()
真機遙操作是另一個主流路線。
讓人遠程操控機器人做動作,把操作軌跡錄下來當訓練數據。但這個方案的缺陷也很明顯——貴。雇傭專人采集數據,成本居高不下,而且采集效率極低。
一個人一天能采多少有效數據?更何況,世界上所有的場景、所有的物體、所有的操作,你不可能都在數采場里復刻一遍。
靈初的選擇不太一樣。他們沒有在仿真和遙操這兩條路上死磕,而是把目光投向了另一個方向——直接從人類身上取經。
源培講這個的時候,我插了一句話。我說你這個思路聽起來很樸素啊。他笑了笑說,最樸素的路往往最有效。
人類每天都在真實環境里用雙手完成各種精細操作,這些數據天然帶著真實的任務節拍、真實的操作細節,天然貼近機器人未來要面對的工作世界。
如果能把人類在物流倉庫里的分揀動作、在工廠流水線上的裝配手法,變成機器人可以學習的養分,那數據問題就有了真正的解法。
但事情沒這么簡單。人類和機器人之間存在一個叫本體差異的天然障礙。
人手有二十多個自由度,關節的運動學結構、動力學的響應特性,都和機械手截然不同。
直接拿人類數據去訓練機器人,就像讓一個乒乓球運動員去教一個籃球運動員怎么投籃,動作邏輯完全不同。
![]()
更麻煩的是精度問題。
很多人類操作數據來自第一視角的視頻,軌跡恢復精度只有厘米級。對于手機裝配這類需要亞毫米級精度的任務,這種誤差會被迅速放大,根本沒法用。
我問源培,你們是怎么解決這個問題的,他講得尤其透。
02一副手套,撬動整個數據體系
靈初自己研發了一套叫Psi-SynEngine的數據采集方案。
核心是一副便攜式外骨骼觸覺手套。
![]()
這副手套不是普通的手套。
它能精確捕捉人手的21個關節自由度,覆蓋全手的觸覺信息,定位精度達到亞毫米級別。更重要的是,工人在日常作業中佩戴它,完全不影響正常操作。
手套會同步記錄頭戴視角和手部視角的視覺數據,同時采集觸覺、動作、語言等多模態信息。
這就意味著,靈初可以直接走進物流倉庫、工廠車間、商超收銀臺,讓一線的分揀員、裝配工、收銀員在日常工作中自然佩戴,在不改變任何既有作業流程的前提下,采集到最真實的人類操作數據。
成本是這個方案的殺手锏。
源培告訴我,通過手套采集數據的綜合成本,只有真機遙操方案的十分之一左右。
十分之一!我當時就在想,這個成本優勢如果真能跑通,靈初在數據采集這條線上就已經把很多競爭對手甩開了。
靈初采集的數據分為兩類。
一類是通過外骨骼手套采集的高精度數據,軌跡精度達到亞毫米級別,專門用于訓練精細操作能力;
另一類是裸手操作的泛化數據,精度沒那么高但規模更大,主要負責提供泛化能力,讓模型見過足夠多的任務和物體。
這里要特別提一下數據信噪比這個概念。源培在直播里花了不少時間講這個,我覺得這是整場發布會最有技術含量的部分之一。
靈初在大量實驗中發現,數據信噪比才是決定人類數據能否有效支撐預訓練的核心因素。
低信噪比的數據不僅沒用,甚至可能起反作用。
判斷數據信噪比,可以從兩方面看。
一是數據集分布。
操作任務的多樣性比物體的多樣性更重要,物體的多樣性又比場景的多樣性重要。泛化能力是模型最難學會的能力之一,預訓練階段見過越多不同的任務和操作對象,接手新任務的速度就越快。
二是感知模態。
精準的3D位姿追蹤比觸覺模態重要,觸覺模態又比2D圖像特征重要。
這個認知直接決定了靈初的數據采集策略。
![]()
他們既要高精度可復現的數據來保證模型的執行精度,也要低精度大范圍的泛化數據來擴展模型的適應能力。兩條腿走路,缺一不可。
最終構建起來的預訓練數據集,包含了5417小時的真機數據和95472小時的人類數據,覆蓋294種場景、4821類任務和1382種物體。
95472小時。將近10萬小時。這還不算完,源培說到了年底,他們計劃把這個數字擴展到百萬量級。
但數據只是故事的一半。靈初真正有意思的地方,是把這些數據喂給了一個什么樣的腦子。這部分是我個人最感興趣的。
03雙系統架構,一個學怎么做,一個學什么不能做
直播里源培講得最精彩的段落,就是靈初的雙系統架構。我在旁邊聽得直點頭,彈幕里也刷得飛起。
靈初發布了兩套模型:Psi-R2和Psi-W0。
![]()
Psi-R2是一個策略模型,核心功能是讓機器人學會怎么做事情。
圖像和語言指令作為輸入,輸出預測的未來操作視頻和可執行的機器人動作。靈初把它叫做世界行動模型。
訓練Psi-R2的時候,靈初做了一個相當大膽的決定——不走對齊路線。源培告訴我,他們嘗試過圖像修補、關鍵點輔助、特征空間對齊等各種方法,想把人類數據盡可能修成更像機器人數據的樣子。
但最后發現,數據量小的時候這些方法有幫助,數據量一旦上來,它們反而會變成瓶頸。
原因不復雜。
那些方法本質上都在努力模糊人和機器人的差異,但在長程、精細、接觸密集的任務里,這種差異恰恰不能被輕易抹平。
越是復雜和精細的任務,越需要承認兩種本體的差異,然后想辦法在更高的維度上建立映射,而不是強行抹平。
靈初的做法是化繁為簡:原生數據進,原生數據出。
舍棄人工設計的復雜數據處理流程,直接進行人類關節與機器人本體的運動學對齊,讓模型在海量數據中自行探索模式。
同時用自動標注替代人工進行數據質檢和標注,最后再交由人工審核把關。
這個思路聽起來簡單,但能做到需要兩個前提:數據量足夠大、數據質量足夠高。靈初恰好兩個都占了。
![]()
但Psi-R2有一個天然的局限。它學到的只有成功的操作。比如模型學會了成功抓起一個蘋果,但它沒有機會學到蘋果沒抓穩掉下去的情況。而失敗經驗恰恰是機器人成長的重要養分。
沒有失敗,就沒有優化,就沒有進步。
這就是Psi-W0存在的理由。Psi-W0是一個動作條件型世界模型。
它的輸入是機器人動作,輸出是對未來場景視頻的預測。更關鍵的是,靈初在Psi-W0的訓練數據里特意混入了大約30%的失敗樣本,涵蓋專項采集的失敗案例、常規操作中的失誤、以及推理過程中產生的錯誤。
有了Psi-W0,靈初就可以做一件事——反事實推理。
當Psi-R2學完一個人類操作動作之后,Psi-W0會模擬這個操作可能出現的各種后果,檢查有沒有學漏學歪,預測哪些動作可能會導致失敗。就像一個教練站在旁邊,在運動員完成動作之后說,你看,如果你剛才手腕的角度偏了兩度,球就不會進。
源培給我舉了個例子。
他說如果Psi-R2學會了抓起一個杯子,Psi-W0就會去預測:如果抓的位置偏了會怎么樣,如果力度不夠會怎么樣,如果桌面有傾斜會怎么樣。這些反事實的推演,讓機器人不用真的去犯錯,就能學到失敗的經驗。
Psi-W0還有一個核心功能,是通過強化學習將人類數據轉換為機器人數據。傳統方法中,數據轉換靠的是仿真環境調整,不僅復雜而且準確性不高。
但用Psi-W0替代后,它會模擬機器人視角和動作模式,再通過強化學習的試錯調優,將人類動作調整為機器人能精準執行的動作。
在這個過程中還能持續生成新的優質數據,反向喂給Psi-R2和Psi-W0繼續學習,形成閉環的數據飛輪。
這里我特別問了一下推理速度的問題。因為世界行動模型這類架構普遍有一個bug:反應慢。
源培承認,Psi-R2單次推理原本需要2.2秒,反映到機器人身上就是明顯的卡頓。
但他們通過DiT緩存、Torch編譯、模型量化等一系列技術優化,把反應時間極限壓縮到了100毫秒以內。
直播里源培現場展示了經過Psi雙系統訓練后的機器人表現。
手機裝配、工業包裝、疊紙盒這些長程精細操作,機器人完成得行云流水。
而且靈初強調,經過這10萬小時人類數據預訓練之后,機器人只需要不到100條真機軌跡的微調,就能完成新任務的部署。
這意味著什么?意味著企業想要引入靈初的機器人方案,部署成本和周期都會被大幅壓縮。
我當時就在想,如果這個數據是真的,那靈初在商業落地的速度上可能會領先同行一個身位。
整場發布會最讓人信服的部分,是硬核數據的驗證。
靈初Psi-R2登頂了MolmoSpace榜單。
這個平臺由美國艾倫人工智能研究所發起,是全球具身智能領域最權威的基準評測平臺之一,NVIDIA、PI這些全球頂尖團隊都參與了本次評測。
Psi-R2一舉超越了PI、DreamZero等國際知名模型,表現顯著優于其他基線模型。在成功率這塊,比同類VLA模型要高出近10倍。
這不只是中國團隊在國際舞臺上的一次亮眼表現。它說明靈初這條人類數據加雙系統架構的路線,經得起最嚴苛的檢驗。
我當時在臺上看到這個數據,心里第一反應是:這幫年輕人是真的猛。
04開源不是情懷,是最聰明的商業選擇
發布會后半段,靈初宣布了幾件事。
一是與北京石景山區共建數采基地,要在更廣的范圍內鋪開數據采集網絡。
二是與騰訊云、抖音、覓蜂科技、智域基石達成生態合作,覆蓋算力、數據服務、應用場景等多個維度。三是年底要將數據集擴展到百萬量級。
但最讓我在意的,是他們決定開源首批1000小時人類手部操作數據集。
在這個數據就是核心資產的行業里,愿意把自己辛辛苦苦采集的數據拿出來開源,不是每個團隊都做得到的。
我當場就問源培,你們不心疼嗎?
他的回答讓我印象很深。
他說開源對于靈初自身來說,是讓全行業幫他們快速采集海量數據的杠桿。
只有開源,才能吸引更多的開發者和研究機構參與到這套體系中,才能彌補數據飛輪閉環中的關鍵一環。
AI時代,時間和數據就是最稀缺的資源。越早進場、擁有越多數據,就能越早收獲長尾效應。
![]()
而站在整個行業的角度,開源是打破技術孤島的鑰匙。
具身智能這個賽道,沒有任何一家公司能單打獨斗走完全程。標準化的數據管線、開源的預訓練底座,能夠建立起廣袤的開發者生態,讓全行業的力量匯聚到一起,共同推動技術向前走。
全行業開源共建,還能反向喂養靈初這樣的硬核玩家,讓他們集中精力攻堅最難的技術瓶頸,而不是在重復造輪子的泥潭里掙扎。
集眾智,才是具身智能跑贏節拍、實現商業落地的唯一捷徑。
我當時聽完,覺得這個思路很清醒。
不是那種為了博好感的開源,是想清楚了自己要什么、能換來什么的開源。這種務實在這個行業里不多見。
![]()
我突然想起他在之前一個采訪里說過的話。
有人問他為什么選擇創業,他說在北大和斯坦福做了那么長時間的學術研究,更想進入工業界,做出真正能夠影響世界的產品。
AI發展得很快,不會出現論資排輩的現象,任何一個突破都有可能產生顛覆性的影響。
哪怕是只有一個人也可以創業,要敢想敢做。現在是非常好的機會,只要你夠強,學得夠快,你做出來的東西就很有可能會比其他人都好。
那天晚上回到家,我翻來覆去睡不著,腦子里一直在轉一個問題。
具身智能這盤棋,到底會怎么走?
答案可能就藏在那些最不起眼的地方:
在物流倉庫里分揀員的每一次抬手,在工廠流水線上裝配工的每一次擰螺絲,在商超收銀員的每一次掃碼。
這些最日常、最樸素的人類操作,正在成為訓練未來機器人的養分。
靈初這次做的事情,說到底就兩件:讓機器人吃什么樣的數據,讓機器人長什么樣的腦子。
而這兩件事,都指向同一個方向——讓機器人真正走進真實世界,在那些具體的、復雜的、充滿不確定性的場景里,幫人干活。
有仰望星空的勇氣,也有腳踏實地的努力。
具身智能正在因為這場青春風暴,變得不太一樣。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.