機(jī)器人開源革命：“免費(fèi)大腦”背后的四派力量與博弈

2026-03-28 09:10:37　來源: 硅谷101

上海舉報(bào)

分享至

撰稿｜Vicky

今年2月前后，小米、螞蟻、阿里達(dá)摩院、宇樹紛紛發(fā)布機(jī)器人開源模型。再之前，英偉達(dá)在CES上發(fā)布了GR00T N1.6，把自家號(hào)稱“世界首個(gè)開放人形機(jī)器人基礎(chǔ)模型”又再度升級(jí)。

這些消費(fèi)電子公司、互聯(lián)網(wǎng)巨頭、芯片帝國，最近都一股腦把機(jī)器人的“大腦”拿出來，免費(fèi)給全世界用。機(jī)器人開源模型的生態(tài)中，有什么樣的心機(jī)和萬億美元押注的博弈呢？

本篇文章我們繼續(xù)機(jī)器人系列，之前我們分析了如今具身智能通用的VLA模型，拆解了特斯拉、Figure這些閉源巨頭的不同路線，以及他們?nèi)绾斡糜布蛿?shù)據(jù)優(yōu)勢構(gòu)筑護(hù)城河。而這篇文章，我們與全球頂尖具身智能實(shí)驗(yàn)室的研究人員深聊之后，來扒一扒開源算法路線中的核心玩家和關(guān)鍵的技術(shù)領(lǐng)軍人物們。

同時(shí)我們來試圖回答這三個(gè)問題：

第一：這些開源模型分別走了什么技術(shù)路線，為什么能挑戰(zhàn)巨頭？

第二：開源的動(dòng)機(jī)是什么？什么是“真”開源，什么是“假”開源？

第三：開源模型生態(tài)是什么樣的？面對(duì)特斯拉這樣的對(duì)手，開源社區(qū)拿什么打？

（本文為視頻改寫，歡迎大家收看以下視頻）

開源模型全景

誰在做，走什么路？

在開源模型派別中，VLA模型仍然是主流。簡單來說，就是讓機(jī)器人“看到”周圍環(huán)境，“聽懂”你的指令，然后“做出”正確的動(dòng)作。

目前，開源VLA模型大致可以分成四股力量：

1. 學(xué)院派：參數(shù)不大，但能以小博大，代表模型是OpenVLA和Octo。

2. 巨頭生態(tài)派：不只做模型，還布局整套工具鏈，代表是英偉達(dá)的GR00T N1和谷歌的Gemini Robotics。

3. 創(chuàng)業(yè)公司與中國力量：自變量、OpenMind、小米、螞蟻等等。

4. 技術(shù)極致派：追求極致精度和泛化能力，代表模型是Physical Intelligence的π?。

1.1：學(xué)院派的理想主義

OpenVLA的一戰(zhàn)成名，發(fā)生在2024年6月。這個(gè)只有70億參數(shù)的開源模型，在29項(xiàng)機(jī)器人操作任務(wù)中，全面擊敗了“頂流”谷歌DeepMind的RT-2-X。RT-2-X有550億參數(shù)，是OpenVLA的8倍大，背后站著整個(gè)谷歌的算力和數(shù)據(jù)資源。但結(jié)果是：OpenVLA的成功率比RT-2-X高出16.5%。

OpenVLA以小博大，憑的是一個(gè)很聰明的架構(gòu)設(shè)計(jì)：兩個(gè)視覺編碼器加大語言模型。

對(duì)比谷歌RT-2-X，因?yàn)樗挥昧艘粋€(gè)視覺編碼器，你可以想象成一個(gè)超聰明但什么都自己做的人：能力很強(qiáng)，但信息處理效率更低。

而OpenVLA用了兩個(gè)視覺編碼器，相當(dāng)于有“兩雙眼睛”。第一雙眼睛叫“DINOv2”，負(fù)責(zé)理解空間關(guān)系；第二雙眼睛叫“SigLIP”，專門理解語義和常識(shí)。然后再由當(dāng)時(shí)的開源大語言模型Llama 2充當(dāng)“大腦”，把空間信息和語義信息融合起來，處理指令和推理。

簡單來說，OpenVLA像一個(gè)三人小團(tuán)隊(duì)協(xié)同作戰(zhàn)，把兩類信息物理隔離、各自優(yōu)化，再統(tǒng)一決策，整體反而更強(qiáng)。大家大概可以理解成“三個(gè)臭皮匠，頂個(gè)諸葛亮”。這個(gè)架構(gòu)證明了：在具身智能領(lǐng)域，單純的“大”并不代表“聰明”。

OpenVLA還有一個(gè)數(shù)據(jù)集的優(yōu)勢，叫做“Open X-Embodiment”，這也是開源生態(tài)的一個(gè)非常厲害的優(yōu)勢，后文會(huì)詳細(xì)展開。

另外，OpenVLA還在動(dòng)作表示方式和訓(xùn)練策略上做了優(yōu)化。所以它這次對(duì)谷歌的勝利靠的是“數(shù)據(jù)+架構(gòu)+訓(xùn)練策略”的綜合結(jié)果。

而且，OpenVLA在勝出之后徹底開源：代碼、模型權(quán)重、訓(xùn)練腳本全部公開。這樣的開放姿態(tài)讓整個(gè)行業(yè)都非常興奮，開始各種后續(xù)的優(yōu)化、推理加速和微調(diào)。

這就是一個(gè)非常典型的開源故事，能用創(chuàng)新方式去“以小搏大”，撬動(dòng)整個(gè)技術(shù)領(lǐng)域的后續(xù)工作。

我們再說說另外一個(gè)比較典型的開源路線“Octo”。如果說OpenVLA代表“規(guī)模化開源”，Octo就是“普及型開源”。

我們知道，機(jī)器人算法的“泛化性”是個(gè)很大的挑戰(zhàn)，之前的標(biāo)準(zhǔn)做法是需要針對(duì)特定機(jī)器人用特定數(shù)據(jù)集來訓(xùn)練策略，但你換一個(gè)機(jī)器人、換一個(gè)環(huán)境，就要全部重新來訓(xùn)。而一些開源社區(qū)的大牛們就希望實(shí)現(xiàn)“通用機(jī)器人模型”，通過zero-shot這樣的技術(shù)將模型擴(kuò)展到廣泛的機(jī)器人和場景中。這樣的路徑被稱為“通用機(jī)器人策略”，Octo就是其中的代表。

Octo只有數(shù)千萬參數(shù)，比OpenVLA的規(guī)模更小。它是一個(gè)基于Transformer的擴(kuò)散策略模型，設(shè)計(jì)強(qiáng)調(diào)靈活性和可擴(kuò)展性，支持多種機(jī)器人平臺(tái)和傳感器配置，并能夠通過微調(diào)快速適應(yīng)新的觀察和動(dòng)作空間。這使得Octo可以廣泛應(yīng)用于不同的機(jī)器人學(xué)習(xí)場景。

Octo的定位不是最強(qiáng)，而是人人可用，希望給開源社區(qū)提供一個(gè)更輕量、可快速適配的通用策略基礎(chǔ)模型。

1.2 巨頭生態(tài)一條龍

2025年3月的GTC大會(huì)上，黃仁勛親自站臺(tái)，發(fā)布了GR00T N1，號(hào)稱“世界首個(gè)開放人形機(jī)器人基礎(chǔ)模型”。到2026年1月CES，已經(jīng)迭代到了N1.6版本。

GR00T N1采用雙系統(tǒng)架構(gòu)：一個(gè)基于視覺語言模型的“System 2”負(fù)責(zé)慢思考，理解環(huán)境、解讀指令、做出規(guī)劃；一個(gè)基于擴(kuò)散Transformer的“System 1”負(fù)責(zé)快思考，以高頻率把規(guī)劃轉(zhuǎn)化為精確的關(guān)節(jié)動(dòng)作。兩個(gè)系統(tǒng)端到端聯(lián)合訓(xùn)練，緊密耦合。

22億參數(shù)，模型權(quán)重和代碼都公開了，不少頭部人形機(jī)器人公司都獲得了早期使用權(quán)。而且英偉達(dá)不只給了模型，還給了整套生態(tài)：用Omniverse做數(shù)字孿生，用Isaac Sim生成合成訓(xùn)練數(shù)據(jù)，用Cosmos生成視頻數(shù)據(jù)，用Newton物理引擎做仿真，整個(gè)一條龍服務(wù)。

Google在機(jī)器人通用策略上也在持續(xù)布局。早期的RT-1開源了代碼和數(shù)據(jù)，但后續(xù)更強(qiáng)大的RT-2以及之后的RT系列就變成閉源模型了，并沒有對(duì)外開放。

最近Google也在加速。2025年發(fā)布了Gemini Robotics系列模型，還挖來了前波士頓動(dòng)力首席技術(shù)官Aaron Saunders擔(dān)任硬件工程副總裁。DeepMind CEO Demis Hassabis把這個(gè)愿景稱為“機(jī)器人界的安卓”，做通用的機(jī)器人操作系統(tǒng)，讓Gemini成為各種機(jī)器人的“大腦”。

在2026年CES上，波士頓動(dòng)力和Google DeepMind宣布了戰(zhàn)略合作，將Gemini Robotics模型整合到Atlas人形機(jī)器人中，聯(lián)合研究即將在兩家公司的實(shí)驗(yàn)室展開。

Google從開源到閉源、再到想要打造“機(jī)器人界的安卓”，賽道轉(zhuǎn)換有點(diǎn)快、野心有點(diǎn)大，但它絕對(duì)是機(jī)器人行業(yè)的最重要玩家，我們也拭目以待它的下一步動(dòng)向。

1.3 創(chuàng)業(yè)公司與中國力量

中國在開源具身智能領(lǐng)域的參與正在加速，而且態(tài)勢在從單純的“跟跑”向“參與定義規(guī)則”轉(zhuǎn)變。

小米在2月12號(hào)剛發(fā)布的Xiaomi-Robotics-0，47億參數(shù)，用MoT混合架構(gòu)——把“大腦”（視覺語言理解）和“小腦”（動(dòng)作執(zhí)行）分開，改善了VLA模型普遍存在的推理延遲問題。模型開源，在消費(fèi)級(jí)GPU上就能跑。

螞蟻集團(tuán)的LingBot-VLA走了另一條路，強(qiáng)調(diào)跨形態(tài)泛化。這個(gè)模型在9種不同的雙臂機(jī)器人上預(yù)訓(xùn)練了2萬多小時(shí)的真機(jī)數(shù)據(jù)，目標(biāo)是做到“一個(gè)大腦控制所有類型的機(jī)器人”，有點(diǎn)像我們之前提到的“通用機(jī)器人策略”路線。

清華AIR和上海AI實(shí)驗(yàn)室聯(lián)合推出的X-VLA，刷新了五大仿真基準(zhǔn)，代碼、數(shù)據(jù)、權(quán)重全部公開，可以說是學(xué)術(shù)界最徹底的開源范本之一。

星海圖開源了真機(jī)數(shù)據(jù)集，以及旗下最新的G0 Plus VLA模型；智元機(jī)器人的GO-1已經(jīng)部署到了真機(jī)上執(zhí)行任務(wù)；星動(dòng)紀(jì)元的ERA-42也在探索自己的路線。

另外，自變量機(jī)器人是一家聚焦于通用機(jī)器人“大腦”研發(fā)的中國具身智能創(chuàng)業(yè)公司，CTO王昊在之前與硅谷101播客的采訪中談到了開源的初衷。

王昊自變量機(jī)器人CTO 我們是持續(xù)地發(fā)揚(yáng)開源精神，也吸收了很多經(jīng)驗(yàn)，用了大概幾萬小時(shí)的真實(shí)世界的數(shù)據(jù)，基于已經(jīng)訓(xùn)練好的基礎(chǔ)的視覺語言模型去做擴(kuò)展，讓它具備比較強(qiáng)的視覺理解、空間推理、多語言的指令遵循能力，同時(shí)它的動(dòng)作的生成精度也比較高。我們也希望這次開源能夠?qū)呱碇悄苄袠I(yè)有比較好的補(bǔ)充。

在硅谷的初創(chuàng)公司中，我們采訪了由斯坦福教授Jan Liphardt創(chuàng)立的OpenMind。他在接受我們采訪時(shí)說，希望為不同廠商的人形機(jī)器人構(gòu)建一個(gè)通用的軟件層。OpenMind推出的OM1平臺(tái)強(qiáng)調(diào)開源與跨硬件兼容，希望打破當(dāng)前機(jī)器人系統(tǒng)各自封閉的局面，讓不同設(shè)備可以共享能力與生態(tài)。他們也從一開始就以開源為核心理念來打造具身智能平臺(tái)，代表了一種純粹的開源路線。

Jan Liphardt OpenMind創(chuàng)始人我們真正想做的，是讓任何人、在任何地方，都能輕松打造出能夠完成各種有用任務(wù)的機(jī)器人。而這一切，只需要通過修改提示詞就可以實(shí)現(xiàn)。

1.4 復(fù)仇者聯(lián)盟：PI（π?）

目前開源界最受矚目的模型π?，是Physical Intelligence推出的VLA模型，屬于數(shù)十億參數(shù)級(jí)別。π?代表的是另一條思路：把“連續(xù)控制”做到極致。

在動(dòng)作生成部分，π?使用了flow matching（流匹配）思路，直接生成連續(xù)的關(guān)節(jié)軌跡。這意味著模型輸出的是一段平滑的控制信號(hào)。Physical Intelligence研究員、也是π?、π?.?論文作者柯麗一鳴在接受硅谷101播客采訪的時(shí)候就告訴我們，π?控制頻率約為50Hz，也就是每秒更新約50次動(dòng)作。這種高頻連續(xù)控制帶來了一個(gè)質(zhì)的飛躍：π?能做折紙、玩撲克牌這種需要極高精度的任務(wù)——而這些是OpenVLA和Octo都很難勝任的。

柯麗一鳴（Kay Ke） Physical Intelligence研究員，π?、π?.?論文作者當(dāng)時(shí)是有一些內(nèi)部的討論，要不要再多一點(diǎn)和短一點(diǎn)。但是可能對(duì)我們來說更重要的是，想讓模型一口氣輸出一個(gè)長度，大概在一秒左右的計(jì)劃，這一秒剛好是50赫茲，所以是這么一個(gè)選擇。

從設(shè)計(jì)理念上看，π?更強(qiáng)調(diào)“控制質(zhì)量”和“動(dòng)作連續(xù)性”。相比把動(dòng)作當(dāng)作語言token預(yù)測，它更接近傳統(tǒng)控制系統(tǒng)的形式，只不過控制信號(hào)由大模型生成。

這一選擇帶來的好處是，在折疊衣物、抓取柔性物體、操作細(xì)小零件等任務(wù)中，動(dòng)作更加流暢，減少了抖動(dòng)和遲滯。

同時(shí)，π?的代碼與權(quán)重通過OpenPI項(xiàng)目對(duì)外開放，使研究社區(qū)可以在它的基礎(chǔ)上復(fù)現(xiàn)與擴(kuò)展。這種做法在商業(yè)公司中并不常見，也成為開源陣營的重要力量。

更令人關(guān)注的是π?的迭代節(jié)奏。初版論文發(fā)布后不久，Physical Intelligence通過OpenPI項(xiàng)目公開了模型權(quán)重與代碼。隨后數(shù)月內(nèi)，團(tuán)隊(duì)陸續(xù)發(fā)布更新版本，持續(xù)改進(jìn)泛化能力與控制穩(wěn)定性。隨后引入強(qiáng)化學(xué)習(xí)機(jī)制以進(jìn)一步優(yōu)化策略表現(xiàn)，同時(shí)強(qiáng)調(diào)在開放環(huán)境中的適應(yīng)能力。

在機(jī)器人領(lǐng)域，這種快速迭代與持續(xù)公開更新并不常見，也成為π?受到關(guān)注的重要原因之一。

柯麗一鳴（Kay Ke） Physical Intelligence研究員，π?、π?.?論文作者把π?.?模型放到一個(gè)移動(dòng)機(jī)器人里，再把這個(gè)移動(dòng)機(jī)器人放到不同的、沒有見過的家里，這些都不在模型的數(shù)據(jù)集里面，模型可能不知道會(huì)怎么反應(yīng)，然后我們觀察它會(huì)怎么做。在這個(gè)過程中我們發(fā)現(xiàn)，要做到泛化性還是比較有希望的，雖然機(jī)器人的表現(xiàn)不是很完美，但它好像展現(xiàn)出了一點(diǎn)像人類的特性，比如拿東西，換到別的家場景里還是能拿。

1.5 開源陣營人物關(guān)系

不同陣營背后的主導(dǎo)核心人物也并非對(duì)立關(guān)系，他們的關(guān)系緊密且錯(cuò)綜復(fù)雜。而更有意思的是，曾經(jīng)主導(dǎo)閉源模型的多位頂級(jí)科學(xué)家，后來成為了機(jī)器人開源社區(qū)的領(lǐng)導(dǎo)者。他們又被稱為機(jī)器人界的“復(fù)仇者聯(lián)盟”。

OpenVLA來自斯坦福和伯克利的聯(lián)合團(tuán)隊(duì)，核心人物是這個(gè)領(lǐng)域的明星人物Chelsea Finn。

她MIT本科畢業(yè)，又在伯克利拿到博士學(xué)位，師從機(jī)器人學(xué)習(xí)教父級(jí)人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教，隨后一路拿獎(jiǎng)到手軟。她同時(shí)還是Physical Intelligence的聯(lián)合創(chuàng)始人，橫跨學(xué)術(shù)和商業(yè)兩個(gè)世界。可以說，Chelsea Finn一人就串起了開源和閉源陣營的半壁江山。

在Finn教授以外，我們可以看到OpenVLA的作者名單上除了斯坦福和伯克利的一眾研究人員，還有豐田研究院、Google DeepMind、Physical Intelligence、MIT的科學(xué)家。這說明，OpenVLA并不只是一個(gè)閉門造車的實(shí)驗(yàn)室產(chǎn)物。

Octo和OpenVLA可以說是“同門師兄弟”，同樣來自伯克利，由Chelsea Finn和Sergey Levine的團(tuán)隊(duì)聯(lián)合出品。

Sergey Levine是機(jī)器人強(qiáng)化學(xué)習(xí)領(lǐng)域公認(rèn)的開創(chuàng)者之一，他是伯克利教授、Google Brain前研究科學(xué)家，后來也成了Physical Intelligence的聯(lián)合創(chuàng)始人和首席科學(xué)家，他跟Finn是博導(dǎo)和博士生的關(guān)系。

有趣的是，Levine和Finn在Google時(shí)期參與了RT-1、RT-2這些閉源項(xiàng)目，離開后又推動(dòng)了Octo和OpenVLA這些開源工作。這個(gè)領(lǐng)域中的同一批人，可以說既造了閉源的堡壘，也打開了開源的大門。

PI的創(chuàng)始團(tuán)隊(duì)堪稱是機(jī)器人AI領(lǐng)域的“復(fù)仇者聯(lián)盟”，聯(lián)合創(chuàng)始人們各個(gè)都是來自學(xué)術(shù)界或者科技公司的大佬。

其中，Karol Hausman是Google DeepMind機(jī)器人方向的資深研究科學(xué)家，也是RT-1、RT-2和SayCan等標(biāo)志性機(jī)器人大模型工作的核心作者之一。

Brian Ichter同樣來自Google Brain，深度參與了這些項(xiàng)目的研發(fā)，是那一代機(jī)器人基礎(chǔ)模型的重要推動(dòng)者。Sergey Levine長期與Google Brain合作，在機(jī)器人學(xué)習(xí)和強(qiáng)化學(xué)習(xí)領(lǐng)域處于世界前沿，是這條技術(shù)路線的關(guān)鍵思想源頭之一。

我們前面提到好幾次的Chelsea Finn也是PI的聯(lián)合創(chuàng)始人之一，她也參與了RT系列研究，在機(jī)器人泛化與自監(jiān)督學(xué)習(xí)方向做出了重要貢獻(xiàn)。

2024年初，這幾位參與Google機(jī)器人基礎(chǔ)模型路線的核心成員陸續(xù)離開Google，并共同創(chuàng)辦了Physical Intelligence（PI）。此外，團(tuán)隊(duì)成員還包括前Stripe高管兼知名投資人Lachy Groom，以及前Anduril工程副總裁Adnan Esmail。

說白了，是閉源陣營里最懂技術(shù)的一幫人，決定跳出來換一種方式做事。

但π?的身份很“糾結(jié)”，它來自一家剛成立、融資就超過10億美元、估值56億美元的商業(yè)公司。這樣一家公司，為什么要把最核心的模型開源？這就要說到我們的第二個(gè)核心問題：“真”開源和“假”開源。

開源的“真”與“假”

免費(fèi)背后的商業(yè)心機(jī)

2.1 Physical Intelligence：最“心機(jī)”的開源

Physical Intelligence2024年成立，投資人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4億美元，2025年11月又融了6億美元，估值達(dá)到56億美元。

一家這么有錢的公司，為什么要把核心模型免費(fèi)放出來？答案是：這可能是Physical Intelligence最有“心機(jī)”的商業(yè)策略。

第一，開源建立標(biāo)準(zhǔn)。當(dāng)全世界的機(jī)器人開發(fā)者，無論是學(xué)術(shù)實(shí)驗(yàn)室、創(chuàng)業(yè)公司或者工業(yè)客戶，都在π?的框架上構(gòu)建應(yīng)用，PI就成了事實(shí)標(biāo)準(zhǔn)的定義者。別人的每一次使用，都在鞏固π?的生態(tài)地位。

第二，開源吸引人才。最優(yōu)秀的研究者想去能發(fā)論文、能影響行業(yè)的地方，PI開源π?之后，他們的openpi GitHub倉庫就成了機(jī)器人領(lǐng)域最熱的項(xiàng)目之一，這比任何招聘廣告都有效。

第三，開源加速數(shù)據(jù)飛輪。社區(qū)使用你的模型，發(fā)現(xiàn)問題、做出改進(jìn)、貢獻(xiàn)數(shù)據(jù)，這些都回流給PI，讓下一代模型更強(qiáng)。

柯麗一鳴（Kay Ke） Physical Intelligence研究員，π?、π?.?論文作者我覺得能和業(yè)界、社區(qū)分享一下模型，并且能夠幫助到大家很快地上手，可能也是在變相地降低機(jī)器人模型研究的一個(gè)入門門檻吧。其實(shí)在公司內(nèi)部，開源也是一種（研發(fā)的）過程，就是從決定要開源，然后抽調(diào)大家把剛剛發(fā)表的研究去重構(gòu)代碼，然后做測試，再和社區(qū)的一些開發(fā)者溝通看能不能跑得起來。這是一項(xiàng)不簡單的工作，但是真的看到我們的模型，在一些我們自己都沒想到的機(jī)器人上面跑起來了、別人能用我們的模型做很多不同的實(shí)驗(yàn)，還是很開心的，現(xiàn)在大家都很樂意去開源，我覺得是很好的氛圍。

但要注意，π?不是100%開源。模型權(quán)重和推理代碼公開了，但完整的訓(xùn)練流程和PI內(nèi)部采集的數(shù)萬小時(shí)專有數(shù)據(jù)沒有公開。

這是一種精心設(shè)計(jì)的“開源引流、閉源變現(xiàn)”策略，也就是用開源的模型吸引開發(fā)者進(jìn)入你的生態(tài)，用閉源的數(shù)據(jù)和訓(xùn)練能力保持競爭優(yōu)勢。也就是說社區(qū)可以用它的模型，但想要最好的版本，還得來找它。

2.2 英偉達(dá)GR00T N1：“開放”不等于開源

我們前面提到，英偉達(dá)不只給了模型GR00T N1，還給了整套生態(tài)，包括生成合成訓(xùn)練數(shù)據(jù)的工具、物理引擎等等。聽起來非常“開放”，但為什么有人說GR00T N1是“偽開源”？

因?yàn)槟Ｐ碗m然開放了，整個(gè)流程都在英偉達(dá)的生態(tài)里：訓(xùn)練深度綁定英偉達(dá)的硬件生態(tài)，用H100集群訓(xùn)練，在Omniverse平臺(tái)上做仿真，用Isaac Sim生成合成數(shù)據(jù)，最后部署在Jetson Thor芯片上。

對(duì)比純粹的社區(qū)開源，比如OpenVLA和Octo沒有任何硬件綁定，沒有生態(tài)鎖定，在任何GPU上都能跑。這也許是“開放”和“開源”之間的根本區(qū)別。

但行業(yè)如此早期，也許根本沒有什么選擇是正確或錯(cuò)誤的。學(xué)術(shù)開源追求的是知識(shí)共享和科學(xué)可復(fù)現(xiàn)性，商業(yè)開源追求的是生態(tài)控制和市場標(biāo)準(zhǔn)，而戰(zhàn)略開放追求的是平臺(tái)鎖定和硬件銷售。

王昊自變量機(jī)器CTO AI的研究我覺得跟大模型之前有很大不一樣。過去，我們可以看到研究是非常離散的，在真正形成一個(gè)社區(qū)之前，可能做研究的只有兩、三個(gè)人，大家瘋狂地研究一個(gè)算法，更多是以論文發(fā)表作為第一要?jiǎng)?wù)，目的是占據(jù)技術(shù)的主動(dòng)權(quán)。但有了社區(qū)和整個(gè)開源體系之后，大家更在乎的是，怎么在一個(gè)工程化的體系下，把這個(gè)工程基礎(chǔ)打好，讓這個(gè)社區(qū)更加繁榮？個(gè)人是通過什么方式給社區(qū)做貢獻(xiàn)？大家的榮譽(yù)反而來自于這樣的事情。這樣也就會(huì)促使開源模型的技術(shù)不停地發(fā)展。所以我覺得開源是一個(gè)非常好的事情，既可以從中學(xué)習(xí)到新的東西，也可以看到你的東西可能對(duì)別人幫助。

生態(tài)的力量

模型+數(shù)據(jù)+工具的“組合拳”

特斯拉有自己的工廠、自己的機(jī)器人、自己的數(shù)據(jù)閉環(huán)。英偉達(dá)有全世界最強(qiáng)的算力。谷歌匯聚了最頂尖的人才。開源社區(qū)一幫大學(xué)教授和創(chuàng)業(yè)團(tuán)隊(duì)，憑什么能跟這些巨頭掰手腕？

答案是：生態(tài)。單看任何一個(gè)開源模型，都不如閉源巨頭。但模型、數(shù)據(jù)、工具三層生態(tài)疊加，形成的“組合拳”力量，就讓故事不一樣了。

Jan Liphardt OpenMind創(chuàng)始人要讓一臺(tái)人形機(jī)器人表現(xiàn)良好，軟件和硬件之間必須進(jìn)行非常精細(xì)的協(xié)同。哪怕是一些看起來很基礎(chǔ)的問題，比如不同類型的傳感器、電壓管理、電壓調(diào)節(jié)器、散熱控制、系統(tǒng)穩(wěn)定性等等，這種協(xié)同必須非常緊密。但根據(jù)我從不同機(jī)器人公司聽到的情況，如果一家公司在完全封閉的環(huán)境里獨(dú)自開發(fā)技術(shù)，往往會(huì)遇到一個(gè)問題：那些只在自己實(shí)驗(yàn)室里構(gòu)建、從未經(jīng)過外部驗(yàn)證的技術(shù)，其實(shí)很難真正落地使用。不點(diǎn)名地說，我聽說有一家非常知名的公司，為人形機(jī)器人自研芯片。聽起來這當(dāng)然是個(gè)很棒的想法，他們甚至掌握了完整的芯片架構(gòu)。但問題在于，因?yàn)闆]有其他人參與使用和測試，這套架構(gòu)實(shí)際上存在大量bug。

也就是說，閉源看似安全，但沒有社區(qū)幫你測試和改進(jìn)，反而可能變成一個(gè)人悶頭造車。

3.1 數(shù)據(jù)基石：Open X-Embodiment

目前開源生態(tài)的第一個(gè)優(yōu)勢就是數(shù)據(jù)集。我們前面提到，OpenVLA橫空出世，就是用了Open X-Embodiment的數(shù)據(jù)集。

Open X-Embodiment是開源陣營最寶貴的優(yōu)勢：一個(gè)跨平臺(tái)、跨實(shí)驗(yàn)室的機(jī)器人數(shù)據(jù)公共資源，它的規(guī)模和組織方式在機(jī)器人領(lǐng)域前所未有：超過20個(gè)研究機(jī)構(gòu)共同貢獻(xiàn)，包括斯坦福、伯克利、MIT、CMU、Google DeepMind等頂級(jí)實(shí)驗(yàn)室；22種不同的機(jī)器人本體，從單臂機(jī)械臂到雙臂協(xié)作、從桌面操作到移動(dòng)導(dǎo)航再到人形機(jī)器人；超過100萬條真實(shí)軌跡，覆蓋527種技能。

特斯拉的數(shù)據(jù)可能更大，但全是Optimus一種機(jī)器人在特斯拉環(huán)境里的數(shù)據(jù)。Figure的數(shù)據(jù)也只有Figure 01和02的操作。而Open X-Embodiment是幾十種不同形態(tài)的機(jī)器人，在廚房、實(shí)驗(yàn)室、倉庫、辦公室等完全不同的場景里采集的數(shù)據(jù)。

為什么數(shù)據(jù)的多樣性比數(shù)據(jù)量更重要？

用訓(xùn)練RT-X模型的實(shí)驗(yàn)結(jié)果來說明：RT-1-X在小數(shù)據(jù)域的表現(xiàn)比單獨(dú)訓(xùn)練的模型高了50%，RT-2-X甚至涌現(xiàn)出了原模型沒有的空間推理能力，是RT-2的3倍，能理解“on”和“near”這種細(xì)微的語言差異，這意味著它開始理解語言中的空間語義，知道“on”意味著物體之間要建立接觸和支撐關(guān)系，而“near”只是空間鄰近。

除此之外，它還能執(zhí)行訓(xùn)練時(shí)從未見過的技能組合。這直接證明了：只要數(shù)據(jù)夠多樣，就算模型不是最大的，性能也能有大幅提高。

柯麗一鳴（Kay Ke） Physical Intelligence研究員，π?、π?.?論文作者在π?的時(shí)候，我們做了一個(gè)比較簡單的統(tǒng)計(jì)：π?使用的數(shù)據(jù)，比谷歌研究院收集的所有數(shù)據(jù)加起來還要多，即使π?發(fā)表的時(shí)候，PI還是一個(gè)很年輕的初創(chuàng)企業(yè)。我覺得其實(shí)這是說明了兩件事：第一就是那個(gè)時(shí)間點(diǎn)采集的數(shù)據(jù)量確實(shí)是非常大，而且之后一直有往里面增加數(shù)據(jù)，而數(shù)據(jù)的成本、數(shù)據(jù)的量是在實(shí)時(shí)變化的。在谷歌研究院在開始探索的時(shí)候，要花很大的功夫才收到這些數(shù)據(jù)，但后來漸漸的有了經(jīng)驗(yàn)，PI或者其他公司再收就會(huì)越來越簡單，成本應(yīng)該也是能夠得到控制和降低的。

更值得一提的是數(shù)據(jù)格式的標(biāo)準(zhǔn)化貢獻(xiàn)。以前最頭疼的問題是每個(gè)實(shí)驗(yàn)室的數(shù)據(jù)格式都不一樣：伯克利是一種格式，斯坦福是另一種，MIT又是第三種。想用多個(gè)數(shù)據(jù)集一起訓(xùn)練？先花幾個(gè)月寫轉(zhuǎn)換代碼。

而Open X-Embodiment定義了統(tǒng)一的數(shù)據(jù)格式，涵蓋視覺觀察、本體感知、動(dòng)作序列和語言注釋，所以在產(chǎn)業(yè)中有了一個(gè)統(tǒng)一的標(biāo)準(zhǔn)，這個(gè)很重要。

再說一句數(shù)據(jù)的問題，因?yàn)檫@是目前機(jī)器人領(lǐng)域最大的挑戰(zhàn)，我們的嘉賓之間分歧也很大，一派認(rèn)為大語言模型已經(jīng)包含了足夠的物理常識(shí)，只需少量機(jī)器人數(shù)據(jù)微調(diào)，而另外一派認(rèn)為物理世界的細(xì)節(jié)必須用真實(shí)的機(jī)器人數(shù)據(jù)來學(xué)習(xí)，互聯(lián)網(wǎng)視頻遠(yuǎn)遠(yuǎn)不夠。這里面的門道和技術(shù)可以挖得蠻深，不同的任務(wù)、不同的精度要求，需要不同的數(shù)據(jù)策略。所以，關(guān)于數(shù)據(jù)，我們之后還會(huì)單獨(dú)做一期機(jī)器人系列的深度內(nèi)容。

3.2 工具層的野心

光有數(shù)據(jù)不夠，還需要工具把數(shù)據(jù)變成可以訓(xùn)練的模型，這就是LeRobot和Genesis的角色。

LeRobot是Hugging Face從特斯拉挖來的工程師Remi Cadene帶隊(duì)打造的開源項(xiàng)目。Cadene之前在特斯拉參與過Autopilot和Optimus人形機(jī)器人項(xiàng)目。他帶著這些經(jīng)驗(yàn)來到Hugging Face，目標(biāo)是“讓訓(xùn)練機(jī)器人像訓(xùn)練語言模型一樣簡單”。

LeRobot做了三件關(guān)鍵的事：

1. 定義了LeRobotDataset統(tǒng)一數(shù)據(jù)格式。

2. 一鍵集成了多種主流策略模型，你不需要去讀論文改代碼，直接調(diào)用就行。

3. 打通了數(shù)據(jù)采集、模型訓(xùn)練、到真實(shí)機(jī)器人部署的全流程，以前這三步可能需要三套不同的工具鏈。

LeRobot的GitHub已經(jīng)超過2萬星，成為了開源機(jī)器人訓(xùn)練的標(biāo)準(zhǔn)之一。但Hugging Face的野心不止于軟件。

2025年他們收購了法國的Pollen Robotics，推出了7萬美元的Reachy 2開源人形機(jī)器人，已經(jīng)在康奈爾和CMU等頂尖實(shí)驗(yàn)室使用，還推出了250美元的Reachy Mini桌面機(jī)器人。更早之前，他們和The Robot Studio合作推出了SO-100機(jī)械臂，成本只要100美元，任何人都可以在家3D打印DIY一個(gè)。

由此可見，Hugging Face正在把“硬件加軟件加社區(qū)”打包，構(gòu)建一個(gè)完整的開源機(jī)器人生態(tài)。

而2024年12月發(fā)布的Genesis則嘗試優(yōu)化仿真訓(xùn)練的問題。這是由CMU卡內(nèi)基梅隆大學(xué)主導(dǎo)、聯(lián)合MIT、斯坦福、英偉達(dá)等20多個(gè)研究實(shí)驗(yàn)室共同參與的開源項(xiàng)目，只需在仿真中運(yùn)行數(shù)小時(shí)，就能生成相當(dāng)于現(xiàn)實(shí)世界中多年訓(xùn)練的樣本數(shù)據(jù)，大幅降低了訓(xùn)練時(shí)間和硬件成本。

比如說，Genesis號(hào)稱在一張RTX 4090顯卡，模擬一個(gè)Franka機(jī)械臂的速度是每秒4300萬幀。這是實(shí)時(shí)速度的43萬倍。在Genesis里訓(xùn)練1小時(shí)，相當(dāng)于在真實(shí)世界訓(xùn)練超過49年。

這帶來的改變是，以前只有大公司能負(fù)擔(dān)的大規(guī)模仿真訓(xùn)練，現(xiàn)在一個(gè)研究生在家用一張消費(fèi)級(jí)顯卡就能做。

值得注意的是，英偉達(dá)也和Google DeepMind、Disney Research聯(lián)合開發(fā)了一個(gè)開源物理引擎Newton，跟Genesis形成了直接競爭，所以仿真工具領(lǐng)域本身也是一個(gè)充滿競爭的領(lǐng)域。

但無論如何，一部分勛章應(yīng)該要給到Hugging Face，LeRobot管真實(shí)世界，學(xué)界主導(dǎo)的Genesis管虛擬世界，兩個(gè)工具一起，把“訓(xùn)練機(jī)器人”的門檻從百萬美元降到了幾百美元。

3.3 為什么生態(tài)能贏

總結(jié)一下，模型、數(shù)據(jù)、工具,這三層疊加，就是開源陣營的“組合拳”。

單看任何一層，開源都不如閉源巨頭：論人才密度和算力，不如谷歌；論數(shù)據(jù)量，不如特斯拉；論工具鏈的完整度，不如英偉達(dá)。但三層聯(lián)動(dòng)產(chǎn)生的化學(xué)反應(yīng)，釋放出了巨大的能量。

一個(gè)研究者可以用Open X-Embodiment的數(shù)據(jù)，在LeRobot框架上訓(xùn)練OpenVLA，用Genesis做仿真驗(yàn)證，然后部署到100美元的SO-100機(jī)械臂上。整個(gè)流程全部開源，全部免費(fèi)，全部可復(fù)現(xiàn)。

這里有一個(gè)很關(guān)鍵的觀察：在大語言模型領(lǐng)域，開源是追趕者。OpenAI、Anthropic和Google先行，開源后追，晚一到兩代。但在機(jī)器人領(lǐng)域，開源和閉源幾乎是同時(shí)起跑的。

OpenVLA在2024年6月就擊敗了RT-2-X，這個(gè)時(shí)間差的原因很簡單：機(jī)器人還在非常早期的階段，沒有任何一家公司建立了壓倒性的數(shù)據(jù)或算法優(yōu)勢。這是開源難得的“公平競賽”窗口，如果錯(cuò)過這個(gè)窗口，等閉源公司積累了足夠的數(shù)據(jù)飛輪，開源可能就很難追上了。

而且，開源和閉源之間的邊界遠(yuǎn)比想象的更模糊。

RT-2-X是谷歌的“閉源”模型，但它的訓(xùn)練數(shù)據(jù)有一部分來自O(shè)pen X-Embodiment這個(gè)開源數(shù)據(jù)集。Chelsea Finn同時(shí)是Octo這個(gè)開源項(xiàng)目的核心作者，也是RT系列閉源工作的推動(dòng)者，還是PI的聯(lián)合創(chuàng)始人。而英偉達(dá)的GR00T N1介于開源和閉源之間。所以，這場競爭不是兩個(gè)陣營的對(duì)決，而是一個(gè)光譜上的多方博弈。

而說到底，開源vs閉源，表面是技術(shù)路線之爭，本質(zhì)是生態(tài)之爭，爭的還是誰來定義機(jī)器人行業(yè)的基礎(chǔ)設(shè)施層。

Jan Liphardt OpenMind創(chuàng)始人互聯(lián)網(wǎng)本身就是建立在開源代碼之上的，Android也是開源的。當(dāng)然，有些公司希望掌控一切，從軟件到硬件，再到云服務(wù)，比如非常優(yōu)秀的蘋果。但我們也看到，像三星、Google這樣的公司，同樣體量巨大，卻很樂于使用開源軟件來構(gòu)建自己的手機(jī)系統(tǒng)。他們之所以選擇使用開源軟件，原因也很簡單。每家公司都必須決定，自己的時(shí)間和資金應(yīng)該投入在哪里。

開源的挑戰(zhàn)與未來

算力、數(shù)據(jù)質(zhì)量、工程化差距與安全

但對(duì)于生態(tài)來說，必須要直面一個(gè)現(xiàn)實(shí)：開源面臨的挑戰(zhàn)依然很大。

首先是算力門檻，雖然有Octo這樣的輕量模型，但訓(xùn)練一個(gè)頂級(jí)開源模型仍然需要不小的投入。OpenVLA用了64張A100跑了15天，這跟特斯拉、谷歌的算力相比是小巫見大巫，但對(duì)普通研究者來說仍然是一筆不小的開支。

其次是數(shù)據(jù)質(zhì)量，Open X-Embodiment雖然大，但不同來源的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)參差不齊，有的實(shí)驗(yàn)室標(biāo)注非常細(xì)致，有的比較粗糙。特斯拉的數(shù)據(jù)可能在多樣性上不如開源，但在一致性上更強(qiáng)，畢竟都是同一套系統(tǒng)采集的。

第三是工程化差距，開源模型在論文里表現(xiàn)出色，但從demo到產(chǎn)品之間有一道巨大的鴻溝。閉源公司有完整的工程團(tuán)隊(duì)做優(yōu)化、做測試、做售后，開源社區(qū)更擅長創(chuàng)新探索。但把一個(gè)模型打磨成穩(wěn)定可靠的商業(yè)產(chǎn)品，往往需要閉源公司來完成。

第四是安全問題，如果人人都能訓(xùn)練機(jī)器人，如何防止被用于危險(xiǎn)用途？物理世界的AI比虛擬世界的大語言模型風(fēng)險(xiǎn)更高，聊天機(jī)器人說錯(cuò)話最多是尷尬，但物理機(jī)器人做錯(cuò)動(dòng)作可能造成傷害。OpenMind的Jan Liphardt提出了一個(gè)大膽的方案：

Jan Liphardt OpenMind創(chuàng)始人我們把規(guī)則寫進(jìn)以太坊區(qū)塊鏈。我們這樣做的原因是以太坊是不可變的，不能被改變。當(dāng)機(jī)器變得聰明時(shí)，我們應(yīng)該預(yù)料到機(jī)器可能會(huì)試圖隱藏它們在做什么，或者想改變歷史，或者想要比它們應(yīng)該擁有的更多的控制權(quán)。在這種情況下，將規(guī)則寫在公共場所、不能被更改的地方是非常重要的，作為額外的安全措施。

用區(qū)塊鏈來約束機(jī)器人行為，這個(gè)想法很前衛(wèi)，也確實(shí)在業(yè)界也引發(fā)了一些爭議。但它至少說明，開源社區(qū)正在認(rèn)真思考安全問題。

開源能發(fā)展到什么程度？自變量CTO王昊給出了一個(gè)時(shí)間線預(yù)測：

王昊自變量機(jī)器人CTO 現(xiàn)在我們是明確的知道、而且看到了這種規(guī)模化帶來的提升，所以對(duì)于我們來講，路徑和目標(biāo)更加明確、更加唯一，所以我預(yù)測會(huì)在1～2年的時(shí)間，我們完全可以達(dá)到GPT-3的這個(gè)水平。

GPT-3的水平意味著機(jī)器人會(huì)從“能完成簡單指令”跳躍到“能理解復(fù)雜意圖并靈活執(zhí)行”，這將是一個(gè)分水嶺。

在LLM時(shí)代，我們見證了OpenAI從“開放”走向封閉。一個(gè)以“Open”命名的公司，變成了一家市值千億的閉源商業(yè)帝國。在機(jī)器人時(shí)代，同樣的故事可能重演，但也可能不會(huì)。因?yàn)闄C(jī)器人領(lǐng)域有一個(gè)大語言模型時(shí)代沒有的東西：從一開始就足夠強(qiáng)大的開源生態(tài)。

最后，OpenMind創(chuàng)始人Jan Liphardt從一個(gè)父親的角度解釋了為什么他支持開源，這個(gè)回答還蠻有人味兒的：

Jan Liphardt OpenMind創(chuàng)始人因?yàn)槲沂且粋€(gè)父親，我有兩個(gè)孩子。如果我去想象未來的世界是什么樣子，我不希望有一天他們打開家門，一臺(tái)人形機(jī)器人站在門口，說：“你好，我是你的新機(jī)器人，但我運(yùn)行的系統(tǒng)你無權(quán)查看。” 像機(jī)器人這樣重要的技術(shù)，必須是公開透明的。我相信，透明本身就會(huì)帶來更高的安全性。我希望我的孩子能夠給身邊的機(jī)器人添加功能，能夠參與到這個(gè)世界的建設(shè)中，而不是只能買回一個(gè)盒子里的產(chǎn)品，打開之后它自己展開，然后告訴你：“我已經(jīng)設(shè)置好了，但我的工作方式是保密的。” 這歸根到底關(guān)乎信任，也關(guān)乎安全。而作為一家創(chuàng)業(yè)公司，我們也發(fā)現(xiàn)，社會(huì)對(duì)這種開放透明的期待，比我們最初預(yù)想的還要強(qiáng)烈。

這就是具身智能開源模型生態(tài)的現(xiàn)狀。這篇文章詳細(xì)聊了四個(gè)派系：學(xué)院派，巨頭，包括了中國公司在內(nèi)的創(chuàng)業(yè)派，以及單獨(dú)拎出來講的Physical Intelligence。大家出于不同的目的、在不同程度上參與了開源生態(tài)的搭建，確定的是，這樣的生態(tài)正在幫助我們進(jìn)一步突破技術(shù)和創(chuàng)新的邊界。

注：部分圖片來源于網(wǎng)絡(luò)

【本期節(jié)目不構(gòu)成任何投資建議】

【視頻播放渠道】

國內(nèi)：B站｜騰訊｜視頻號(hào)｜西瓜｜頭條｜百家號(hào)｜36kr｜微博｜虎嗅

海外：Youtube

聯(lián)系我們：video@sv101.net

【創(chuàng)作團(tuán)隊(duì)】

監(jiān)制｜泓君陳茜

撰稿｜Vicky

編輯｜陳茜王梓沁

主持｜陳茜

剪輯｜橘子

動(dòng)效｜踹

運(yùn)營｜孫澤平王梓沁

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.