撰稿|Vicky
今年2月前后,小米、螞蟻、阿里達(dá)摩院、宇樹紛紛發(fā)布機(jī)器人開源模型。再之前,英偉達(dá)在CES上發(fā)布了GR00T N1.6,把自家號(hào)稱“世界首個(gè)開放人形機(jī)器人基礎(chǔ)模型”又再度升級(jí)。
這些消費(fèi)電子公司、互聯(lián)網(wǎng)巨頭、芯片帝國,最近都一股腦把機(jī)器人的“大腦”拿出來,免費(fèi)給全世界用。機(jī)器人開源模型的生態(tài)中,有什么樣的心機(jī)和萬億美元押注的博弈呢?
![]()
本篇文章我們繼續(xù)機(jī)器人系列,之前我們分析了如今具身智能通用的VLA模型,拆解了特斯拉、Figure這些閉源巨頭的不同路線,以及他們?nèi)绾斡糜布蛿?shù)據(jù)優(yōu)勢構(gòu)筑護(hù)城河。而這篇文章,我們與全球頂尖具身智能實(shí)驗(yàn)室的研究人員深聊之后,來扒一扒開源算法路線中的核心玩家和關(guān)鍵的技術(shù)領(lǐng)軍人物們。
同時(shí)我們來試圖回答這三個(gè)問題:
第一:這些開源模型分別走了什么技術(shù)路線,為什么能挑戰(zhàn)巨頭?
第二:開源的動(dòng)機(jī)是什么?什么是“真”開源,什么是“假”開源?
第三:開源模型生態(tài)是什么樣的?面對(duì)特斯拉這樣的對(duì)手,開源社區(qū)拿什么打?
(本文為視頻改寫,歡迎大家收看以下視頻)
01
開源模型全景
誰在做,走什么路?
在開源模型派別中,VLA模型仍然是主流。簡單來說,就是讓機(jī)器人“看到”周圍環(huán)境,“聽懂”你的指令,然后“做出”正確的動(dòng)作。
![]()
目前,開源VLA模型大致可以分成四股力量:
1. 學(xué)院派:參數(shù)不大,但能以小博大,代表模型是OpenVLA和Octo。
2. 巨頭生態(tài)派:不只做模型,還布局整套工具鏈,代表是英偉達(dá)的GR00T N1和谷歌的Gemini Robotics。
3. 創(chuàng)業(yè)公司與中國力量:自變量、OpenMind、小米、螞蟻等等。
4. 技術(shù)極致派:追求極致精度和泛化能力,代表模型是Physical Intelligence的π?。
1.1:學(xué)院派的理想主義
OpenVLA的一戰(zhàn)成名,發(fā)生在2024年6月。這個(gè)只有70億參數(shù)的開源模型,在29項(xiàng)機(jī)器人操作任務(wù)中,全面擊敗了“頂流”谷歌DeepMind的RT-2-X。RT-2-X有550億參數(shù),是OpenVLA的8倍大,背后站著整個(gè)谷歌的算力和數(shù)據(jù)資源。但結(jié)果是:OpenVLA的成功率比RT-2-X高出16.5%。
![]()
OpenVLA以小博大,憑的是一個(gè)很聰明的架構(gòu)設(shè)計(jì):兩個(gè)視覺編碼器加大語言模型。
對(duì)比谷歌RT-2-X,因?yàn)樗挥昧艘粋€(gè)視覺編碼器,你可以想象成一個(gè)超聰明但什么都自己做的人:能力很強(qiáng),但信息處理效率更低。
而OpenVLA用了兩個(gè)視覺編碼器,相當(dāng)于有“兩雙眼睛”。第一雙眼睛叫“DINOv2”,負(fù)責(zé)理解空間關(guān)系;第二雙眼睛叫“SigLIP”,專門理解語義和常識(shí)。然后再由當(dāng)時(shí)的開源大語言模型Llama 2充當(dāng)“大腦”,把空間信息和語義信息融合起來,處理指令和推理。
![]()
簡單來說,OpenVLA像一個(gè)三人小團(tuán)隊(duì)協(xié)同作戰(zhàn),把兩類信息物理隔離、各自優(yōu)化,再統(tǒng)一決策,整體反而更強(qiáng)。大家大概可以理解成“三個(gè)臭皮匠,頂個(gè)諸葛亮”。這個(gè)架構(gòu)證明了:在具身智能領(lǐng)域,單純的“大”并不代表“聰明”。
OpenVLA還有一個(gè)數(shù)據(jù)集的優(yōu)勢,叫做“Open X-Embodiment”,這也是開源生態(tài)的一個(gè)非常厲害的優(yōu)勢,后文會(huì)詳細(xì)展開。
另外,OpenVLA還在動(dòng)作表示方式和訓(xùn)練策略上做了優(yōu)化。所以它這次對(duì)谷歌的勝利靠的是“數(shù)據(jù)+架構(gòu)+訓(xùn)練策略”的綜合結(jié)果。
而且,OpenVLA在勝出之后徹底開源:代碼、模型權(quán)重、訓(xùn)練腳本全部公開。這樣的開放姿態(tài)讓整個(gè)行業(yè)都非常興奮,開始各種后續(xù)的優(yōu)化、推理加速和微調(diào)。
![]()
這就是一個(gè)非常典型的開源故事,能用創(chuàng)新方式去“以小搏大”,撬動(dòng)整個(gè)技術(shù)領(lǐng)域的后續(xù)工作。
我們再說說另外一個(gè)比較典型的開源路線“Octo”。如果說OpenVLA代表“規(guī)模化開源”,Octo就是“普及型開源”。
我們知道,機(jī)器人算法的“泛化性”是個(gè)很大的挑戰(zhàn),之前的標(biāo)準(zhǔn)做法是需要針對(duì)特定機(jī)器人用特定數(shù)據(jù)集來訓(xùn)練策略,但你換一個(gè)機(jī)器人、換一個(gè)環(huán)境,就要全部重新來訓(xùn)。而一些開源社區(qū)的大牛們就希望實(shí)現(xiàn)“通用機(jī)器人模型”,通過zero-shot這樣的技術(shù)將模型擴(kuò)展到廣泛的機(jī)器人和場景中。這樣的路徑被稱為“通用機(jī)器人策略”,Octo就是其中的代表。
![]()
Octo只有數(shù)千萬參數(shù),比OpenVLA的規(guī)模更小。它是一個(gè)基于Transformer的擴(kuò)散策略模型,設(shè)計(jì)強(qiáng)調(diào)靈活性和可擴(kuò)展性,支持多種機(jī)器人平臺(tái)和傳感器配置,并能夠通過微調(diào)快速適應(yīng)新的觀察和動(dòng)作空間。這使得Octo可以廣泛應(yīng)用于不同的機(jī)器人學(xué)習(xí)場景。
Octo的定位不是最強(qiáng),而是人人可用,希望給開源社區(qū)提供一個(gè)更輕量、可快速適配的通用策略基礎(chǔ)模型。
1.2 巨頭生態(tài)一條龍
2025年3月的GTC大會(huì)上,黃仁勛親自站臺(tái),發(fā)布了GR00T N1,號(hào)稱“世界首個(gè)開放人形機(jī)器人基礎(chǔ)模型”。到2026年1月CES,已經(jīng)迭代到了N1.6版本。
![]()
GR00T N1采用雙系統(tǒng)架構(gòu):一個(gè)基于視覺語言模型的“System 2”負(fù)責(zé)慢思考,理解環(huán)境、解讀指令、做出規(guī)劃;一個(gè)基于擴(kuò)散Transformer的“System 1”負(fù)責(zé)快思考,以高頻率把規(guī)劃轉(zhuǎn)化為精確的關(guān)節(jié)動(dòng)作。兩個(gè)系統(tǒng)端到端聯(lián)合訓(xùn)練,緊密耦合。
22億參數(shù),模型權(quán)重和代碼都公開了,不少頭部人形機(jī)器人公司都獲得了早期使用權(quán)。而且英偉達(dá)不只給了模型,還給了整套生態(tài):用Omniverse做數(shù)字孿生,用Isaac Sim生成合成訓(xùn)練數(shù)據(jù),用Cosmos生成視頻數(shù)據(jù),用Newton物理引擎做仿真,整個(gè)一條龍服務(wù)。
![]()
Google在機(jī)器人通用策略上也在持續(xù)布局。早期的RT-1開源了代碼和數(shù)據(jù),但后續(xù)更強(qiáng)大的RT-2以及之后的RT系列就變成閉源模型了,并沒有對(duì)外開放。
最近Google也在加速。2025年發(fā)布了Gemini Robotics系列模型,還挖來了前波士頓動(dòng)力首席技術(shù)官Aaron Saunders擔(dān)任硬件工程副總裁。DeepMind CEO Demis Hassabis把這個(gè)愿景稱為“機(jī)器人界的安卓”,做通用的機(jī)器人操作系統(tǒng),讓Gemini成為各種機(jī)器人的“大腦”。
![]()
在2026年CES上,波士頓動(dòng)力和Google DeepMind宣布了戰(zhàn)略合作,將Gemini Robotics模型整合到Atlas人形機(jī)器人中,聯(lián)合研究即將在兩家公司的實(shí)驗(yàn)室展開。
Google從開源到閉源、再到想要打造“機(jī)器人界的安卓”,賽道轉(zhuǎn)換有點(diǎn)快、野心有點(diǎn)大,但它絕對(duì)是機(jī)器人行業(yè)的最重要玩家,我們也拭目以待它的下一步動(dòng)向。
1.3 創(chuàng)業(yè)公司與中國力量
中國在開源具身智能領(lǐng)域的參與正在加速,而且態(tài)勢在從單純的“跟跑”向“參與定義規(guī)則”轉(zhuǎn)變。
![]()
小米在2月12號(hào)剛發(fā)布的Xiaomi-Robotics-0,47億參數(shù),用MoT混合架構(gòu)——把“大腦”(視覺語言理解)和“小腦”(動(dòng)作執(zhí)行)分開,改善了VLA模型普遍存在的推理延遲問題。模型開源,在消費(fèi)級(jí)GPU上就能跑。
螞蟻集團(tuán)的LingBot-VLA走了另一條路,強(qiáng)調(diào)跨形態(tài)泛化。這個(gè)模型在9種不同的雙臂機(jī)器人上預(yù)訓(xùn)練了2萬多小時(shí)的真機(jī)數(shù)據(jù),目標(biāo)是做到“一個(gè)大腦控制所有類型的機(jī)器人”,有點(diǎn)像我們之前提到的“通用機(jī)器人策略”路線。
![]()
清華AIR和上海AI實(shí)驗(yàn)室聯(lián)合推出的X-VLA,刷新了五大仿真基準(zhǔn),代碼、數(shù)據(jù)、權(quán)重全部公開,可以說是學(xué)術(shù)界最徹底的開源范本之一。
星海圖開源了真機(jī)數(shù)據(jù)集,以及旗下最新的G0 Plus VLA模型;智元機(jī)器人的GO-1已經(jīng)部署到了真機(jī)上執(zhí)行任務(wù);星動(dòng)紀(jì)元的ERA-42也在探索自己的路線。
另外,自變量機(jī)器人是一家聚焦于通用機(jī)器人“大腦”研發(fā)的中國具身智能創(chuàng)業(yè)公司,CTO王昊在之前與硅谷101播客的采訪中談到了開源的初衷。
![]()
王昊 自變量機(jī)器人CTO 我們是持續(xù)地發(fā)揚(yáng)開源精神,也吸收了很多經(jīng)驗(yàn),用了大概幾萬小時(shí)的真實(shí)世界的數(shù)據(jù),基于已經(jīng)訓(xùn)練好的基礎(chǔ)的視覺語言模型去做擴(kuò)展,讓它具備比較強(qiáng)的視覺理解、空間推理、多語言的指令遵循能力,同時(shí)它的動(dòng)作的生成精度也比較高。我們也希望這次開源能夠?qū)呱碇悄苄袠I(yè)有比較好的補(bǔ)充。
在硅谷的初創(chuàng)公司中,我們采訪了由斯坦福教授Jan Liphardt創(chuàng)立的OpenMind。他在接受我們采訪時(shí)說,希望為不同廠商的人形機(jī)器人構(gòu)建一個(gè)通用的軟件層。OpenMind推出的OM1平臺(tái)強(qiáng)調(diào)開源與跨硬件兼容,希望打破當(dāng)前機(jī)器人系統(tǒng)各自封閉的局面,讓不同設(shè)備可以共享能力與生態(tài)。他們也從一開始就以開源為核心理念來打造具身智能平臺(tái),代表了一種純粹的開源路線。
![]()
Jan Liphardt OpenMind創(chuàng)始人 我們真正想做的,是讓任何人、在任何地方,都能輕松打造出能夠完成各種有用任務(wù)的機(jī)器人。而這一切,只需要通過修改提示詞就可以實(shí)現(xiàn)。1.4 復(fù)仇者聯(lián)盟:PI(π?)
目前開源界最受矚目的模型π?,是Physical Intelligence推出的VLA模型,屬于數(shù)十億參數(shù)級(jí)別。π?代表的是另一條思路:把“連續(xù)控制”做到極致。
在動(dòng)作生成部分,π?使用了flow matching(流匹配)思路,直接生成連續(xù)的關(guān)節(jié)軌跡。這意味著模型輸出的是一段平滑的控制信號(hào)。Physical Intelligence研究員、也是π?、π?.?論文作者柯麗一鳴在接受硅谷101播客采訪的時(shí)候就告訴我們,π?控制頻率約為50Hz,也就是每秒更新約50次動(dòng)作。這種高頻連續(xù)控制帶來了一個(gè)質(zhì)的飛躍:π?能做折紙、玩撲克牌這種需要極高精度的任務(wù)——而這些是OpenVLA和Octo都很難勝任的。
![]()
柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 當(dāng)時(shí)是有一些內(nèi)部的討論,要不要再多一點(diǎn)和短一點(diǎn)。但是可能對(duì)我們來說更重要的是,想讓模型一口氣輸出一個(gè)長度,大概在一秒左右的計(jì)劃,這一秒剛好是50赫茲,所以是這么一個(gè)選擇。
從設(shè)計(jì)理念上看,π?更強(qiáng)調(diào)“控制質(zhì)量”和“動(dòng)作連續(xù)性”。相比把動(dòng)作當(dāng)作語言token預(yù)測,它更接近傳統(tǒng)控制系統(tǒng)的形式,只不過控制信號(hào)由大模型生成。
這一選擇帶來的好處是,在折疊衣物、抓取柔性物體、操作細(xì)小零件等任務(wù)中,動(dòng)作更加流暢,減少了抖動(dòng)和遲滯。
![]()
同時(shí),π?的代碼與權(quán)重通過OpenPI項(xiàng)目對(duì)外開放,使研究社區(qū)可以在它的基礎(chǔ)上復(fù)現(xiàn)與擴(kuò)展。這種做法在商業(yè)公司中并不常見,也成為開源陣營的重要力量。
更令人關(guān)注的是π?的迭代節(jié)奏。初版論文發(fā)布后不久,Physical Intelligence通過OpenPI項(xiàng)目公開了模型權(quán)重與代碼。隨后數(shù)月內(nèi),團(tuán)隊(duì)陸續(xù)發(fā)布更新版本,持續(xù)改進(jìn)泛化能力與控制穩(wěn)定性。隨后引入強(qiáng)化學(xué)習(xí)機(jī)制以進(jìn)一步優(yōu)化策略表現(xiàn),同時(shí)強(qiáng)調(diào)在開放環(huán)境中的適應(yīng)能力。
在機(jī)器人領(lǐng)域,這種快速迭代與持續(xù)公開更新并不常見,也成為π?受到關(guān)注的重要原因之一。
柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 把π?.?模型放到一個(gè)移動(dòng)機(jī)器人里,再把這個(gè)移動(dòng)機(jī)器人放到不同的、沒有見過的家里,這些都不在模型的數(shù)據(jù)集里面,模型可能不知道會(huì)怎么反應(yīng),然后我們觀察它會(huì)怎么做。在這個(gè)過程中我們發(fā)現(xiàn),要做到泛化性還是比較有希望的,雖然機(jī)器人的表現(xiàn)不是很完美,但它好像展現(xiàn)出了一點(diǎn)像人類的特性,比如拿東西,換到別的家場景里還是能拿。1.5 開源陣營人物關(guān)系
不同陣營背后的主導(dǎo)核心人物也并非對(duì)立關(guān)系,他們的關(guān)系緊密且錯(cuò)綜復(fù)雜。而更有意思的是,曾經(jīng)主導(dǎo)閉源模型的多位頂級(jí)科學(xué)家,后來成為了機(jī)器人開源社區(qū)的領(lǐng)導(dǎo)者。他們又被稱為機(jī)器人界的“復(fù)仇者聯(lián)盟”。
![]()
OpenVLA來自斯坦福和伯克利的聯(lián)合團(tuán)隊(duì),核心人物是這個(gè)領(lǐng)域的明星人物Chelsea Finn。
她MIT本科畢業(yè),又在伯克利拿到博士學(xué)位,師從機(jī)器人學(xué)習(xí)教父級(jí)人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教,隨后一路拿獎(jiǎng)到手軟。她同時(shí)還是Physical Intelligence的聯(lián)合創(chuàng)始人,橫跨學(xué)術(shù)和商業(yè)兩個(gè)世界。可以說,Chelsea Finn一人就串起了開源和閉源陣營的半壁江山。
![]()
在Finn教授以外,我們可以看到OpenVLA的作者名單上除了斯坦福和伯克利的一眾研究人員,還有豐田研究院、Google DeepMind、Physical Intelligence、MIT的科學(xué)家。這說明,OpenVLA并不只是一個(gè)閉門造車的實(shí)驗(yàn)室產(chǎn)物。
Octo和OpenVLA可以說是“同門師兄弟”,同樣來自伯克利,由Chelsea Finn和Sergey Levine的團(tuán)隊(duì)聯(lián)合出品。
![]()
Sergey Levine是機(jī)器人強(qiáng)化學(xué)習(xí)領(lǐng)域公認(rèn)的開創(chuàng)者之一,他是伯克利教授、Google Brain前研究科學(xué)家,后來也成了Physical Intelligence的聯(lián)合創(chuàng)始人和首席科學(xué)家,他跟Finn是博導(dǎo)和博士生的關(guān)系。
有趣的是,Levine和Finn在Google時(shí)期參與了RT-1、RT-2這些閉源項(xiàng)目,離開后又推動(dòng)了Octo和OpenVLA這些開源工作。這個(gè)領(lǐng)域中的同一批人,可以說既造了閉源的堡壘,也打開了開源的大門。
PI的創(chuàng)始團(tuán)隊(duì)堪稱是機(jī)器人AI領(lǐng)域的“復(fù)仇者聯(lián)盟”,聯(lián)合創(chuàng)始人們各個(gè)都是來自學(xué)術(shù)界或者科技公司的大佬。
其中,Karol Hausman是Google DeepMind機(jī)器人方向的資深研究科學(xué)家,也是RT-1、RT-2和SayCan等標(biāo)志性機(jī)器人大模型工作的核心作者之一。
Brian Ichter同樣來自Google Brain,深度參與了這些項(xiàng)目的研發(fā),是那一代機(jī)器人基礎(chǔ)模型的重要推動(dòng)者。Sergey Levine長期與Google Brain合作,在機(jī)器人學(xué)習(xí)和強(qiáng)化學(xué)習(xí)領(lǐng)域處于世界前沿,是這條技術(shù)路線的關(guān)鍵思想源頭之一。
我們前面提到好幾次的Chelsea Finn也是PI的聯(lián)合創(chuàng)始人之一,她也參與了RT系列研究,在機(jī)器人泛化與自監(jiān)督學(xué)習(xí)方向做出了重要貢獻(xiàn)。
![]()
2024年初,這幾位參與Google機(jī)器人基礎(chǔ)模型路線的核心成員陸續(xù)離開Google,并共同創(chuàng)辦了Physical Intelligence(PI)。此外,團(tuán)隊(duì)成員還包括前Stripe高管兼知名投資人Lachy Groom,以及前Anduril工程副總裁Adnan Esmail。
說白了,是閉源陣營里最懂技術(shù)的一幫人,決定跳出來換一種方式做事。
但π?的身份很“糾結(jié)”,它來自一家剛成立、融資就超過10億美元、估值56億美元的商業(yè)公司。這樣一家公司,為什么要把最核心的模型開源?這就要說到我們的第二個(gè)核心問題:“真”開源和“假”開源。
02
開源的“真”與“假”
免費(fèi)背后的商業(yè)心機(jī)
2.1 Physical Intelligence:最“心機(jī)”的開源
Physical Intelligence2024年成立,投資人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4億美元,2025年11月又融了6億美元,估值達(dá)到56億美元。
![]()
一家這么有錢的公司,為什么要把核心模型免費(fèi)放出來?答案是:這可能是Physical Intelligence最有“心機(jī)”的商業(yè)策略。
第一,開源建立標(biāo)準(zhǔn)。當(dāng)全世界的機(jī)器人開發(fā)者,無論是學(xué)術(shù)實(shí)驗(yàn)室、創(chuàng)業(yè)公司或者工業(yè)客戶,都在π?的框架上構(gòu)建應(yīng)用,PI就成了事實(shí)標(biāo)準(zhǔn)的定義者。別人的每一次使用,都在鞏固π?的生態(tài)地位。
第二,開源吸引人才。最優(yōu)秀的研究者想去能發(fā)論文、能影響行業(yè)的地方,PI開源π?之后,他們的openpi GitHub倉庫就成了機(jī)器人領(lǐng)域最熱的項(xiàng)目之一,這比任何招聘廣告都有效。
![]()
第三,開源加速數(shù)據(jù)飛輪。社區(qū)使用你的模型,發(fā)現(xiàn)問題、做出改進(jìn)、貢獻(xiàn)數(shù)據(jù),這些都回流給PI,讓下一代模型更強(qiáng)。
柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 我覺得能和業(yè)界、社區(qū)分享一下模型,并且能夠幫助到大家很快地上手,可能也是在變相地降低機(jī)器人模型研究的一個(gè)入門門檻吧。其實(shí)在公司內(nèi)部,開源也是一種(研發(fā)的)過程,就是從決定要開源,然后抽調(diào)大家把剛剛發(fā)表的研究去重構(gòu)代碼,然后做測試,再和社區(qū)的一些開發(fā)者溝通看能不能跑得起來。這是一項(xiàng)不簡單的工作,但是真的看到我們的模型,在一些我們自己都沒想到的機(jī)器人上面跑起來了、別人能用我們的模型做很多不同的實(shí)驗(yàn),還是很開心的,現(xiàn)在大家都很樂意去開源,我覺得是很好的氛圍。
但要注意,π?不是100%開源。模型權(quán)重和推理代碼公開了,但完整的訓(xùn)練流程和PI內(nèi)部采集的數(shù)萬小時(shí)專有數(shù)據(jù)沒有公開。
這是一種精心設(shè)計(jì)的“開源引流、閉源變現(xiàn)”策略,也就是用開源的模型吸引開發(fā)者進(jìn)入你的生態(tài),用閉源的數(shù)據(jù)和訓(xùn)練能力保持競爭優(yōu)勢。也就是說社區(qū)可以用它的模型,但想要最好的版本,還得來找它。
2.2 英偉達(dá)GR00T N1:“開放”不等于開源
我們前面提到,英偉達(dá)不只給了模型GR00T N1,還給了整套生態(tài),包括生成合成訓(xùn)練數(shù)據(jù)的工具、物理引擎等等。聽起來非常“開放”,但為什么有人說GR00T N1是“偽開源”?
因?yàn)槟P碗m然開放了,整個(gè)流程都在英偉達(dá)的生態(tài)里:訓(xùn)練深度綁定英偉達(dá)的硬件生態(tài),用H100集群訓(xùn)練,在Omniverse平臺(tái)上做仿真,用Isaac Sim生成合成數(shù)據(jù),最后部署在Jetson Thor芯片上。
![]()
對(duì)比純粹的社區(qū)開源,比如OpenVLA和Octo沒有任何硬件綁定,沒有生態(tài)鎖定,在任何GPU上都能跑。這也許是“開放”和“開源”之間的根本區(qū)別。
但行業(yè)如此早期,也許根本沒有什么選擇是正確或錯(cuò)誤的。學(xué)術(shù)開源追求的是知識(shí)共享和科學(xué)可復(fù)現(xiàn)性,商業(yè)開源追求的是生態(tài)控制和市場標(biāo)準(zhǔn),而戰(zhàn)略開放追求的是平臺(tái)鎖定和硬件銷售。
王昊 自變量機(jī)器CTO AI的研究我覺得跟大模型之前有很大不一樣。過去,我們可以看到研究是非常離散的,在真正形成一個(gè)社區(qū)之前,可能做研究的只有兩、三個(gè)人,大家瘋狂地研究一個(gè)算法,更多是以論文發(fā)表作為第一要?jiǎng)?wù),目的是占據(jù)技術(shù)的主動(dòng)權(quán)。但有了社區(qū)和整個(gè)開源體系之后,大家更在乎的是,怎么在一個(gè)工程化的體系下,把這個(gè)工程基礎(chǔ)打好,讓這個(gè)社區(qū)更加繁榮?個(gè)人是通過什么方式給社區(qū)做貢獻(xiàn)?大家的榮譽(yù)反而來自于這樣的事情。這樣也就會(huì)促使開源模型的技術(shù)不停地發(fā)展。所以我覺得開源是一個(gè)非常好的事情,既可以從中學(xué)習(xí)到新的東西,也可以看到你的東西可能對(duì)別人幫助。
03
生態(tài)的力量
模型+數(shù)據(jù)+工具的“組合拳”
特斯拉有自己的工廠、自己的機(jī)器人、自己的數(shù)據(jù)閉環(huán)。英偉達(dá)有全世界最強(qiáng)的算力。谷歌匯聚了最頂尖的人才。開源社區(qū)一幫大學(xué)教授和創(chuàng)業(yè)團(tuán)隊(duì),憑什么能跟這些巨頭掰手腕?
答案是:生態(tài)。單看任何一個(gè)開源模型,都不如閉源巨頭。但模型、數(shù)據(jù)、工具三層生態(tài)疊加,形成的“組合拳”力量,就讓故事不一樣了。
![]()
Jan Liphardt OpenMind創(chuàng)始人 要讓一臺(tái)人形機(jī)器人表現(xiàn)良好,軟件和硬件之間必須進(jìn)行非常精細(xì)的協(xié)同。哪怕是一些看起來很基礎(chǔ)的問題,比如不同類型的傳感器、電壓管理、電壓調(diào)節(jié)器、散熱控制、系統(tǒng)穩(wěn)定性等等,這種協(xié)同必須非常緊密。 但根據(jù)我從不同機(jī)器人公司聽到的情況,如果一家公司在完全封閉的環(huán)境里獨(dú)自開發(fā)技術(shù),往往會(huì)遇到一個(gè)問題:那些只在自己實(shí)驗(yàn)室里構(gòu)建、從未經(jīng)過外部驗(yàn)證的技術(shù),其實(shí)很難真正落地使用。 不點(diǎn)名地說,我聽說有一家非常知名的公司,為人形機(jī)器人自研芯片。聽起來這當(dāng)然是個(gè)很棒的想法,他們甚至掌握了完整的芯片架構(gòu)。但問題在于,因?yàn)闆]有其他人參與使用和測試,這套架構(gòu)實(shí)際上存在大量bug。
也就是說,閉源看似安全,但沒有社區(qū)幫你測試和改進(jìn),反而可能變成一個(gè)人悶頭造車。
3.1 數(shù)據(jù)基石:Open X-Embodiment
目前開源生態(tài)的第一個(gè)優(yōu)勢就是數(shù)據(jù)集。我們前面提到,OpenVLA橫空出世,就是用了Open X-Embodiment的數(shù)據(jù)集。
![]()
Open X-Embodiment是開源陣營最寶貴的優(yōu)勢:一個(gè)跨平臺(tái)、跨實(shí)驗(yàn)室的機(jī)器人數(shù)據(jù)公共資源,它的規(guī)模和組織方式在機(jī)器人領(lǐng)域前所未有:超過20個(gè)研究機(jī)構(gòu)共同貢獻(xiàn),包括斯坦福、伯克利、MIT、CMU、Google DeepMind等頂級(jí)實(shí)驗(yàn)室;22種不同的機(jī)器人本體,從單臂機(jī)械臂到雙臂協(xié)作、從桌面操作到移動(dòng)導(dǎo)航再到人形機(jī)器人;超過100萬條真實(shí)軌跡,覆蓋527種技能。
特斯拉的數(shù)據(jù)可能更大,但全是Optimus一種機(jī)器人在特斯拉環(huán)境里的數(shù)據(jù)。Figure的數(shù)據(jù)也只有Figure 01和02的操作。而Open X-Embodiment是幾十種不同形態(tài)的機(jī)器人,在廚房、實(shí)驗(yàn)室、倉庫、辦公室等完全不同的場景里采集的數(shù)據(jù)。
為什么數(shù)據(jù)的多樣性比數(shù)據(jù)量更重要?
![]()
用訓(xùn)練RT-X模型的實(shí)驗(yàn)結(jié)果來說明:RT-1-X在小數(shù)據(jù)域的表現(xiàn)比單獨(dú)訓(xùn)練的模型高了50%,RT-2-X甚至涌現(xiàn)出了原模型沒有的空間推理能力,是RT-2的3倍,能理解“on”和“near”這種細(xì)微的語言差異,這意味著它開始理解語言中的空間語義,知道“on”意味著物體之間要建立接觸和支撐關(guān)系,而“near”只是空間鄰近。
除此之外,它還能執(zhí)行訓(xùn)練時(shí)從未見過的技能組合。這直接證明了:只要數(shù)據(jù)夠多樣,就算模型不是最大的,性能也能有大幅提高。
柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 在π?的時(shí)候,我們做了一個(gè)比較簡單的統(tǒng)計(jì):π?使用的數(shù)據(jù),比谷歌研究院收集的所有數(shù)據(jù)加起來還要多,即使π?發(fā)表的時(shí)候,PI還是一個(gè)很年輕的初創(chuàng)企業(yè)。 我覺得其實(shí)這是說明了兩件事:第一就是那個(gè)時(shí)間點(diǎn)采集的數(shù)據(jù)量確實(shí)是非常大,而且之后一直有往里面增加數(shù)據(jù),而數(shù)據(jù)的成本、數(shù)據(jù)的量是在實(shí)時(shí)變化的。在谷歌研究院在開始探索的時(shí)候,要花很大的功夫才收到這些數(shù)據(jù),但后來漸漸的有了經(jīng)驗(yàn),PI或者其他公司再收就會(huì)越來越簡單,成本應(yīng)該也是能夠得到控制和降低的。
更值得一提的是數(shù)據(jù)格式的標(biāo)準(zhǔn)化貢獻(xiàn)。以前最頭疼的問題是每個(gè)實(shí)驗(yàn)室的數(shù)據(jù)格式都不一樣:伯克利是一種格式,斯坦福是另一種,MIT又是第三種。想用多個(gè)數(shù)據(jù)集一起訓(xùn)練?先花幾個(gè)月寫轉(zhuǎn)換代碼。
![]()
而Open X-Embodiment定義了統(tǒng)一的數(shù)據(jù)格式,涵蓋視覺觀察、本體感知、動(dòng)作序列和語言注釋,所以在產(chǎn)業(yè)中有了一個(gè)統(tǒng)一的標(biāo)準(zhǔn),這個(gè)很重要。
再說一句數(shù)據(jù)的問題,因?yàn)檫@是目前機(jī)器人領(lǐng)域最大的挑戰(zhàn),我們的嘉賓之間分歧也很大,一派認(rèn)為大語言模型已經(jīng)包含了足夠的物理常識(shí),只需少量機(jī)器人數(shù)據(jù)微調(diào),而另外一派認(rèn)為物理世界的細(xì)節(jié)必須用真實(shí)的機(jī)器人數(shù)據(jù)來學(xué)習(xí),互聯(lián)網(wǎng)視頻遠(yuǎn)遠(yuǎn)不夠。這里面的門道和技術(shù)可以挖得蠻深,不同的任務(wù)、不同的精度要求,需要不同的數(shù)據(jù)策略。所以,關(guān)于數(shù)據(jù),我們之后還會(huì)單獨(dú)做一期機(jī)器人系列的深度內(nèi)容。
3.2 工具層的野心
光有數(shù)據(jù)不夠,還需要工具把數(shù)據(jù)變成可以訓(xùn)練的模型,這就是LeRobot和Genesis的角色。
![]()
LeRobot是Hugging Face從特斯拉挖來的工程師Remi Cadene帶隊(duì)打造的開源項(xiàng)目。Cadene之前在特斯拉參與過Autopilot和Optimus人形機(jī)器人項(xiàng)目。他帶著這些經(jīng)驗(yàn)來到Hugging Face,目標(biāo)是“讓訓(xùn)練機(jī)器人像訓(xùn)練語言模型一樣簡單”。
LeRobot做了三件關(guān)鍵的事:
1. 定義了LeRobotDataset統(tǒng)一數(shù)據(jù)格式。
2. 一鍵集成了多種主流策略模型,你不需要去讀論文改代碼,直接調(diào)用就行。
3. 打通了數(shù)據(jù)采集、模型訓(xùn)練、到真實(shí)機(jī)器人部署的全流程,以前這三步可能需要三套不同的工具鏈。
LeRobot的GitHub已經(jīng)超過2萬星,成為了開源機(jī)器人訓(xùn)練的標(biāo)準(zhǔn)之一。但Hugging Face的野心不止于軟件。
![]()
2025年他們收購了法國的Pollen Robotics,推出了7萬美元的Reachy 2開源人形機(jī)器人,已經(jīng)在康奈爾和CMU等頂尖實(shí)驗(yàn)室使用,還推出了250美元的Reachy Mini桌面機(jī)器人。更早之前,他們和The Robot Studio合作推出了SO-100機(jī)械臂,成本只要100美元,任何人都可以在家3D打印DIY一個(gè)。
由此可見,Hugging Face正在把“硬件加軟件加社區(qū)”打包,構(gòu)建一個(gè)完整的開源機(jī)器人生態(tài)。
而2024年12月發(fā)布的Genesis則嘗試優(yōu)化仿真訓(xùn)練的問題。這是由CMU卡內(nèi)基梅隆大學(xué)主導(dǎo)、聯(lián)合MIT、斯坦福、英偉達(dá)等20多個(gè)研究實(shí)驗(yàn)室共同參與的開源項(xiàng)目,只需在仿真中運(yùn)行數(shù)小時(shí),就能生成相當(dāng)于現(xiàn)實(shí)世界中多年訓(xùn)練的樣本數(shù)據(jù),大幅降低了訓(xùn)練時(shí)間和硬件成本。
![]()
比如說,Genesis號(hào)稱在一張RTX 4090顯卡,模擬一個(gè)Franka機(jī)械臂的速度是每秒4300萬幀。這是實(shí)時(shí)速度的43萬倍。在Genesis里訓(xùn)練1小時(shí),相當(dāng)于在真實(shí)世界訓(xùn)練超過49年。
這帶來的改變是,以前只有大公司能負(fù)擔(dān)的大規(guī)模仿真訓(xùn)練,現(xiàn)在一個(gè)研究生在家用一張消費(fèi)級(jí)顯卡就能做。
值得注意的是,英偉達(dá)也和Google DeepMind、Disney Research聯(lián)合開發(fā)了一個(gè)開源物理引擎Newton,跟Genesis形成了直接競爭,所以仿真工具領(lǐng)域本身也是一個(gè)充滿競爭的領(lǐng)域。
![]()
但無論如何,一部分勛章應(yīng)該要給到Hugging Face,LeRobot管真實(shí)世界,學(xué)界主導(dǎo)的Genesis管虛擬世界,兩個(gè)工具一起,把“訓(xùn)練機(jī)器人”的門檻從百萬美元降到了幾百美元。
3.3 為什么生態(tài)能贏
總結(jié)一下,模型、數(shù)據(jù)、工具,這三層疊加,就是開源陣營的“組合拳”。
單看任何一層,開源都不如閉源巨頭:論人才密度和算力,不如谷歌;論數(shù)據(jù)量,不如特斯拉;論工具鏈的完整度,不如英偉達(dá)。但三層聯(lián)動(dòng)產(chǎn)生的化學(xué)反應(yīng),釋放出了巨大的能量。
![]()
一個(gè)研究者可以用Open X-Embodiment的數(shù)據(jù),在LeRobot框架上訓(xùn)練OpenVLA,用Genesis做仿真驗(yàn)證,然后部署到100美元的SO-100機(jī)械臂上。整個(gè)流程全部開源,全部免費(fèi),全部可復(fù)現(xiàn)。
這里有一個(gè)很關(guān)鍵的觀察:在大語言模型領(lǐng)域,開源是追趕者。OpenAI、Anthropic和Google先行,開源后追,晚一到兩代。但在機(jī)器人領(lǐng)域,開源和閉源幾乎是同時(shí)起跑的。
OpenVLA在2024年6月就擊敗了RT-2-X,這個(gè)時(shí)間差的原因很簡單:機(jī)器人還在非常早期的階段,沒有任何一家公司建立了壓倒性的數(shù)據(jù)或算法優(yōu)勢。這是開源難得的“公平競賽”窗口,如果錯(cuò)過這個(gè)窗口,等閉源公司積累了足夠的數(shù)據(jù)飛輪,開源可能就很難追上了。
而且,開源和閉源之間的邊界遠(yuǎn)比想象的更模糊。
RT-2-X是谷歌的“閉源”模型,但它的訓(xùn)練數(shù)據(jù)有一部分來自O(shè)pen X-Embodiment這個(gè)開源數(shù)據(jù)集。Chelsea Finn同時(shí)是Octo這個(gè)開源項(xiàng)目的核心作者,也是RT系列閉源工作的推動(dòng)者,還是PI的聯(lián)合創(chuàng)始人。而英偉達(dá)的GR00T N1介于開源和閉源之間。所以,這場競爭不是兩個(gè)陣營的對(duì)決,而是一個(gè)光譜上的多方博弈。
![]()
而說到底,開源vs閉源,表面是技術(shù)路線之爭,本質(zhì)是生態(tài)之爭,爭的還是誰來定義機(jī)器人行業(yè)的基礎(chǔ)設(shè)施層。
Jan Liphardt OpenMind創(chuàng)始人 互聯(lián)網(wǎng)本身就是建立在開源代碼之上的,Android也是開源的。當(dāng)然,有些公司希望掌控一切,從軟件到硬件,再到云服務(wù),比如非常優(yōu)秀的蘋果。但我們也看到,像三星、Google這樣的公司,同樣體量巨大,卻很樂于使用開源軟件來構(gòu)建自己的手機(jī)系統(tǒng)。他們之所以選擇使用開源軟件,原因也很簡單。每家公司都必須決定,自己的時(shí)間和資金應(yīng)該投入在哪里。
04
開源的挑戰(zhàn)與未來
算力、數(shù)據(jù)質(zhì)量、工程化差距與安全
但對(duì)于生態(tài)來說,必須要直面一個(gè)現(xiàn)實(shí):開源面臨的挑戰(zhàn)依然很大。
首先是算力門檻,雖然有Octo這樣的輕量模型,但訓(xùn)練一個(gè)頂級(jí)開源模型仍然需要不小的投入。OpenVLA用了64張A100跑了15天,這跟特斯拉、谷歌的算力相比是小巫見大巫,但對(duì)普通研究者來說仍然是一筆不小的開支。
其次是數(shù)據(jù)質(zhì)量,Open X-Embodiment雖然大,但不同來源的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)參差不齊,有的實(shí)驗(yàn)室標(biāo)注非常細(xì)致,有的比較粗糙。特斯拉的數(shù)據(jù)可能在多樣性上不如開源,但在一致性上更強(qiáng),畢竟都是同一套系統(tǒng)采集的。
第三是工程化差距,開源模型在論文里表現(xiàn)出色,但從demo到產(chǎn)品之間有一道巨大的鴻溝。閉源公司有完整的工程團(tuán)隊(duì)做優(yōu)化、做測試、做售后,開源社區(qū)更擅長創(chuàng)新探索。但把一個(gè)模型打磨成穩(wěn)定可靠的商業(yè)產(chǎn)品,往往需要閉源公司來完成。
第四是安全問題,如果人人都能訓(xùn)練機(jī)器人,如何防止被用于危險(xiǎn)用途?物理世界的AI比虛擬世界的大語言模型風(fēng)險(xiǎn)更高,聊天機(jī)器人說錯(cuò)話最多是尷尬,但物理機(jī)器人做錯(cuò)動(dòng)作可能造成傷害。OpenMind的Jan Liphardt提出了一個(gè)大膽的方案:
![]()
Jan Liphardt OpenMind創(chuàng)始人 我們把規(guī)則寫進(jìn)以太坊區(qū)塊鏈。我們這樣做的原因是以太坊是不可變的,不能被改變。當(dāng)機(jī)器變得聰明時(shí),我們應(yīng)該預(yù)料到機(jī)器可能會(huì)試圖隱藏它們在做什么,或者想改變歷史,或者想要比它們應(yīng)該擁有的更多的控制權(quán)。在這種情況下,將規(guī)則寫在公共場所、不能被更改的地方是非常重要的,作為額外的安全措施。
用區(qū)塊鏈來約束機(jī)器人行為,這個(gè)想法很前衛(wèi),也確實(shí)在業(yè)界也引發(fā)了一些爭議。但它至少說明,開源社區(qū)正在認(rèn)真思考安全問題。
開源能發(fā)展到什么程度?自變量CTO王昊給出了一個(gè)時(shí)間線預(yù)測:
王昊 自變量機(jī)器人CTO 現(xiàn)在我們是明確的知道、而且看到了這種規(guī)模化帶來的提升,所以對(duì)于我們來講,路徑和目標(biāo)更加明確、更加唯一,所以我預(yù)測會(huì)在1~2年的時(shí)間,我們完全可以達(dá)到GPT-3的這個(gè)水平。
GPT-3的水平意味著機(jī)器人會(huì)從“能完成簡單指令”跳躍到“能理解復(fù)雜意圖并靈活執(zhí)行”,這將是一個(gè)分水嶺。
![]()
在LLM時(shí)代,我們見證了OpenAI從“開放”走向封閉。一個(gè)以“Open”命名的公司,變成了一家市值千億的閉源商業(yè)帝國。在機(jī)器人時(shí)代,同樣的故事可能重演,但也可能不會(huì)。因?yàn)闄C(jī)器人領(lǐng)域有一個(gè)大語言模型時(shí)代沒有的東西:從一開始就足夠強(qiáng)大的開源生態(tài)。
最后,OpenMind創(chuàng)始人Jan Liphardt從一個(gè)父親的角度解釋了為什么他支持開源,這個(gè)回答還蠻有人味兒的:
Jan Liphardt OpenMind創(chuàng)始人 因?yàn)槲沂且粋€(gè)父親,我有兩個(gè)孩子。如果我去想象未來的世界是什么樣子,我不希望有一天他們打開家門,一臺(tái)人形機(jī)器人站在門口,說:“你好,我是你的新機(jī)器人,但我運(yùn)行的系統(tǒng)你無權(quán)查看。” 像機(jī)器人這樣重要的技術(shù),必須是公開透明的。我相信,透明本身就會(huì)帶來更高的安全性。我希望我的孩子能夠給身邊的機(jī)器人添加功能,能夠參與到這個(gè)世界的建設(shè)中,而不是只能買回一個(gè)盒子里的產(chǎn)品,打開之后它自己展開,然后告訴你:“我已經(jīng)設(shè)置好了,但我的工作方式是保密的。” 這歸根到底關(guān)乎信任,也關(guān)乎安全。而作為一家創(chuàng)業(yè)公司,我們也發(fā)現(xiàn),社會(huì)對(duì)這種開放透明的期待,比我們最初預(yù)想的還要強(qiáng)烈。
這就是具身智能開源模型生態(tài)的現(xiàn)狀。這篇文章詳細(xì)聊了四個(gè)派系:學(xué)院派,巨頭,包括了中國公司在內(nèi)的創(chuàng)業(yè)派,以及單獨(dú)拎出來講的Physical Intelligence。大家出于不同的目的、在不同程度上參與了開源生態(tài)的搭建,確定的是,這樣的生態(tài)正在幫助我們進(jìn)一步突破技術(shù)和創(chuàng)新的邊界。
注:部分圖片來源于網(wǎng)絡(luò)
【本期節(jié)目不構(gòu)成任何投資建議】
【視頻播放渠道】
國內(nèi):B站|騰訊|視頻號(hào)|西瓜|頭條|百家號(hào)|36kr|微博|虎嗅
海外:Youtube
聯(lián)系我們:video@sv101.net
【創(chuàng)作團(tuán)隊(duì)】
監(jiān)制|泓君 陳茜
撰稿|Vicky
編輯|陳茜 王梓沁
主持 |陳茜
剪輯|橘子
動(dòng)效|踹
運(yùn)營|孫澤平 王梓沁
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.