![]()
新智元報(bào)道
編輯:桃子
【新智元導(dǎo)讀】AI終極挑戰(zhàn)——物理圖靈測(cè)試。這一年,英偉達(dá)Jim Fan領(lǐng)導(dǎo)的GEAR實(shí)驗(yàn)室,正用一套完整的技術(shù)棧,向這堵高墻發(fā)起總攻。
機(jī)器人「物理圖靈測(cè)試」距離真正通關(guān),還需一段時(shí)間。
英文達(dá)杰出科學(xué)家Jim Fan表示,我正全身心投入一個(gè)單一使命:為機(jī)器人解決「Physical Turing Test」(物理圖靈測(cè)試)。
這是AI的下一個(gè)挑戰(zhàn),甚至可能是「終極挑戰(zhàn)」。
![]()
如今,人類(lèi)光靠文本字符串實(shí)現(xiàn)的超級(jí)智能,恐怕就已經(jīng)能拿到諾貝爾獎(jiǎng)了。
不過(guò)機(jī)器人現(xiàn)在,連黑猩猩級(jí)靈活度、操作能力都還沒(méi)有。
「莫拉維克悖論」(Moravec's paradox)是一種必須被打破的詛咒,是一堵必須被撕碎的高墻。
沒(méi)有任何東西,應(yīng)該阻擋人類(lèi)在這個(gè)星球上實(shí)現(xiàn)指數(shù)級(jí)的物理生產(chǎn)力,甚至有朝一日,把這種能力帶到其他星球。
這一年,Jim Fan帶隊(duì)在英偉達(dá)創(chuàng)立了GEAR實(shí)驗(yàn)室,30人團(tuán)隊(duì)已初具規(guī)模。
令人震撼的是,團(tuán)隊(duì)的產(chǎn)出和影響力,遠(yuǎn)遠(yuǎn)超過(guò)它的規(guī)模。
從基礎(chǔ)模型、世界模型、具身推理、仿真、全身控制,以及各種形態(tài)RL,幾乎囊括了機(jī)器人學(xué)習(xí)的完整技術(shù)棧。
![]()
接下來(lái),一起看看GEAR 2025年。
GR00T基礎(chǔ)模型,一年三代
GR00T是英偉達(dá)提出的「通用機(jī)器人基礎(chǔ)模型體系」,核心目標(biāo)——
讓機(jī)器人像「大模型」一樣,具備跨任務(wù)、跨場(chǎng)景、可遷移、可學(xué)習(xí)的能力。
GR00T VLA基礎(chǔ)模型,是最具代表性的成果之一。
它將視覺(jué)+語(yǔ)言+動(dòng)作三種模態(tài),統(tǒng)一到一個(gè)端到端的模型中,讓機(jī)器人能夠看懂環(huán)境、理解人類(lèi)指令,生成可轉(zhuǎn)型的連續(xù)動(dòng)作。
這一年,英偉達(dá)對(duì)GR00T VLA進(jìn)行了高頻迭代:
今年3月開(kāi)源了N1,緊接著6月發(fā)布了N1.5,12月又推出了N1.6。
GR00T N1
3月,GR00T N1開(kāi)源首發(fā),僅用20億參數(shù),即可驗(yàn)證VLA架構(gòu)在真實(shí)機(jī)器人任務(wù)中的可行性。

它的開(kāi)源,為整個(gè)機(jī)器人生態(tài)系統(tǒng)提供了一個(gè)前沿的基礎(chǔ)模型。
![]()
GROOT N1可以輕松在上見(jiàn)任務(wù)中進(jìn)行泛化,或執(zhí)行需要長(zhǎng)上下文和多種通用技能組合的多步驟任務(wù)。
比如,抓取、用一只手臂/兩只手臂移動(dòng)物體,以及在兩個(gè)手臂之間傳遞物品。
![]()
GR00T N1.5
GR00T N1.5是N1的升級(jí)版,在架構(gòu)、數(shù)據(jù)、建模層面進(jìn)行了多重優(yōu)化。
它使用了更領(lǐng)先的視覺(jué)語(yǔ)言模型——Eagle VLM,提升了語(yǔ)言理解和視覺(jué)感知力。
還加了FLARE損失,提高了對(duì)未來(lái)動(dòng)作預(yù)測(cè)的一致性。
在仿真機(jī)器人基準(zhǔn)任務(wù)中,GR00T N1.5成功率明顯由于上一代模型。
![]()
GR00T N1.6
這個(gè)月迭代后的GR00T N1.6,集成了更強(qiáng)的架構(gòu)和推理能力,讓機(jī)器人在復(fù)雜環(huán)境中表現(xiàn)更智能、更穩(wěn)健。

GR00T Dreams:機(jī)器人「做夢(mèng)」學(xué)習(xí)
視頻世界模型,是數(shù)據(jù)驅(qū)動(dòng)的物理和圖形引擎。
DreamGen,是一種利用AI視頻世界模型,來(lái)生成合成訓(xùn)練數(shù)據(jù)的機(jī)器人學(xué)習(xí)框架。

它通過(guò)「數(shù)字夢(mèng)境」生成大量虛擬機(jī)器人行為,再?gòu)囊曨l中提取動(dòng)作數(shù)據(jù),用于訓(xùn)練機(jī)器人策略,從而實(shí)現(xiàn)新任務(wù)和新環(huán)境中的泛化學(xué)習(xí)。
實(shí)驗(yàn)驗(yàn)證了,機(jī)器人從只有一個(gè)動(dòng)作示例的場(chǎng)景中,通過(guò)「夢(mèng)境」生成數(shù)據(jù),在新任務(wù)上有很高的成功率。
![]()
在10個(gè)新環(huán)境+22種新行為上,機(jī)器人都能泛化成功。
SONIC:讓機(jī)器人具備「通用運(yùn)動(dòng)能力」
為了讓機(jī)器人不僅只會(huì)做某個(gè)動(dòng)作,而具備幾乎所有人類(lèi)可以做的動(dòng)作。
英偉達(dá)團(tuán)隊(duì)提出的SONIC,一個(gè)用于人形機(jī)器人控制的通用運(yùn)動(dòng)系統(tǒng)。
它的核心目標(biāo)是,讓人形機(jī)器人像「角色」一樣被控制、學(xué)習(xí)和驅(qū)動(dòng)。
![]()
SONIC出發(fā)點(diǎn)很明確,運(yùn)動(dòng)追蹤是人形機(jī)器人可擴(kuò)展基礎(chǔ)任務(wù)。
只要機(jī)器人能夠穩(wěn)定、準(zhǔn)確跟蹤任意人類(lèi)動(dòng)作,那么行走、轉(zhuǎn)身、抬手、抓取、協(xié)調(diào)全身運(yùn)動(dòng)等復(fù)雜行為,都可以統(tǒng)一到同一個(gè)框架中。
論文中,團(tuán)隊(duì)將運(yùn)動(dòng)追蹤任務(wù)進(jìn)行了「超大規(guī)模化」(Supersize),即9000+GPU小時(shí),以及超1億動(dòng)作幀,覆蓋了機(jī)器豐富的人體動(dòng)作分布。
這讓SONIC學(xué)會(huì)了人類(lèi)運(yùn)行的整體結(jié)構(gòu),而且,研究人員還基于SONIC構(gòu)建了多種控制與交互方式。

SONIC的探索,為通用人形機(jī)器人提供了一個(gè)可擴(kuò)展、可編程、可落地的運(yùn)動(dòng)基礎(chǔ)系統(tǒng)。
其他重磅成果
除了以上一些重磅成果,團(tuán)隊(duì)還在面向VLA強(qiáng)化學(xué)習(xí)后訓(xùn)練上,以及sim2real的RL實(shí)踐做出了探索。
比如PLD(Probe, Learn, Distill),讓機(jī)器人從失敗中「自我進(jìn)化」。
它是一套真實(shí)世界「自舉式學(xué)習(xí)」的訓(xùn)練范式。
一般來(lái)說(shuō),機(jī)器人在真實(shí)環(huán)境中,執(zhí)行高精度操作任務(wù)時(shí),或失敗、會(huì)偏移,都成為了一種信號(hào)。
![]()
PLD引入了真實(shí)世界殘差強(qiáng)化學(xué)習(xí)(Residual Reinforcement Learning),不推翻原有策略,而在已學(xué)會(huì)動(dòng)作基礎(chǔ)上,學(xué)習(xí)「微調(diào)殘差」,專(zhuān)門(mén)負(fù)責(zé)糾錯(cuò)、恢復(fù)、補(bǔ)償。
最后,它將真實(shí)世界中學(xué)到的改進(jìn)經(jīng)驗(yàn),蒸餾回VLA主模型,使用SFT,將臨場(chǎng)學(xué)到的技巧變成長(zhǎng)期能力。
對(duì)此,Jim Fan表示RL能夠通過(guò)后訓(xùn)練VLA模型,在高精度任務(wù)(如GPU插入)中實(shí)現(xiàn)接近100%的魯棒性。
這是解決工業(yè)部署「最后一公里」難題的關(guān)鍵進(jìn)展。

VIRAL(Visual Sim-to-Real at Scale)是一套純視覺(jué)人形機(jī)器人Sim-to-Real框架,為了解決一個(gè)長(zhǎng)期難題——
讓機(jī)器人在真實(shí)世界中,零樣本完成「走+站+操作」連續(xù)長(zhǎng)時(shí)任務(wù)。
研究在Unitree G1人形機(jī)器人上,驗(yàn)證了最長(zhǎng)54次連續(xù)loco-manipulation循環(huán),沒(méi)有任何真實(shí)世界微調(diào),僅使用RGB純視覺(jué)輸入。
![]()
另外,DoorMan是英偉達(dá)首個(gè)僅用RGB視覺(jué)、完全在仿真中訓(xùn)練、可零樣本遷移到真實(shí)世界的人形機(jī)器人「開(kāi)門(mén)」策略。
它在復(fù)雜的行走+操作+物體交互任務(wù)上,性能甚至超越人類(lèi)遙操員。
「開(kāi)門(mén)」是人形機(jī)器人最難的任務(wù)之一,因?yàn)樗瑫r(shí)包含行走、精細(xì)操作等任務(wù)的重疊。
以往的方法,要么依賴(lài)特權(quán)狀態(tài)(即力、位姿),要么真實(shí)數(shù)據(jù)昂貴、不可規(guī)模化。
而DoorMan誕生后,僅用了RGB,相同控制線(xiàn),就讓仿真直出真實(shí)世界。

此外,還有FLARE全新算法, 是一種隱式世界模型的策略,核心思想是預(yù)測(cè)「未來(lái)對(duì)動(dòng)作有用的表示」。
![]()
它不會(huì)去預(yù)測(cè)未來(lái)的像素,而是預(yù)測(cè)對(duì)動(dòng)作有用的未來(lái)潛變量,讓機(jī)器人在不斷增加推理開(kāi)銷(xiāo)的情況下,學(xué)會(huì)提前想一想。
![]()
在訓(xùn)練中,F(xiàn)LARE在一個(gè)標(biāo)準(zhǔn)VLA策略模型中,引入了未來(lái)token——在Transformer中額外加入少量學(xué)習(xí)token。
實(shí)驗(yàn)結(jié)果顯示,在4個(gè)真實(shí)操作任務(wù),每個(gè)任務(wù)100條軌跡,GR-1平均成功率在95.1%。




左右滑動(dòng)查看
三個(gè)教訓(xùn),重注「視頻世界模型」
這一年,所有人幾乎都在為「氛圍編程」(vibe coding)感到震驚。
休假這幾天,Jim Fan還分享了對(duì)機(jī)器人這個(gè)蠻荒又混亂的西部世界的焦慮——
我在2025年學(xué)到的三個(gè)教訓(xùn)
1. 硬件跑在軟件前面,但硬件的可靠性,嚴(yán)重卡住了軟件的迭代速度
我們已經(jīng)看到了,許多堪稱(chēng)藝術(shù)品的工程成果,比如Optimus、e-Atlas、Figure、Neo、G1等等。
最強(qiáng)的AI還遠(yuǎn)遠(yuǎn)沒(méi)有把這些前沿硬件的潛力榨干。
機(jī)器人的「身體」能做到的事情,明顯多于它的「大腦」目前能指揮的范圍。
但問(wèn)題在于,照看這些機(jī)器人往往需要一整支團(tuán)隊(duì)全天候盯著。
和人類(lèi)不一樣,機(jī)器人不會(huì)自己從磕碰中恢復(fù)。過(guò)熱、馬達(dá)損壞、各種詭異的固件問(wèn)題,幾乎每天都在折磨工程師。犯錯(cuò)是不可逆的,而且一點(diǎn)都不留情。
到頭來(lái),唯一真正能規(guī)模化的,只有我的耐心。
2.機(jī)器人領(lǐng)域的基準(zhǔn)測(cè)試,依然是一場(chǎng)史詩(shī)級(jí)災(zāi)難
在大語(yǔ)言模型圈子里,很多人已經(jīng)把MMLU和SWE-Bench當(dāng)成常識(shí)了。
機(jī)器人這邊?先把手里的啤酒端穩(wěn)。幾乎沒(méi)有任何共識(shí):用什么硬件平臺(tái)、怎么定義任務(wù)、評(píng)分標(biāo)準(zhǔn)是什么、用哪種仿真器,或者真實(shí)世界要怎么搭。
結(jié)果就是——每個(gè)人在自己臨時(shí)為每次新聞發(fā)布現(xiàn)編的基準(zhǔn)上,按定義都是SOTA。
每個(gè)人都會(huì)從100次重試?yán)铮粢粋€(gè)最好看的demo拿出來(lái)秀。
2026年,我們這個(gè)領(lǐng)域必須做得更好,別再把可復(fù)現(xiàn)性和科學(xué)嚴(yán)謹(jǐn)性當(dāng)成「二等公民」。
3. 基于VLM的VLA,總感覺(jué)哪里不對(duì)
VLA指的是「視覺(jué)-語(yǔ)言-動(dòng)作」(vision-language-action)模型,這是當(dāng)前機(jī)器人「大腦」的主流路線(xiàn)。
套路也很簡(jiǎn)單:拿一個(gè)預(yù)訓(xùn)練好的VLM checkpoint(模型權(quán)重),在上面嫁接一個(gè)動(dòng)作模塊。
但仔細(xì)想想就會(huì)發(fā)現(xiàn),VLM本身是被高度優(yōu)化來(lái)刷諸如視覺(jué)問(wèn)答這類(lèi)基準(zhǔn)的。
這直接帶來(lái)了兩個(gè)問(wèn)題:
(1) VLM里的大多數(shù)參數(shù),其實(shí)都服務(wù)于語(yǔ)言和知識(shí),而不是物理世界;
(2) 視覺(jué)編碼器被刻意訓(xùn)練去丟棄底層細(xì)節(jié),因?yàn)閱?wèn)答任務(wù)只需要高層語(yǔ)義理解。但在機(jī)器人靈巧操作中,恰恰是這些細(xì)微細(xì)節(jié)最要命。
VLA的性能并沒(méi)有任何必然理由會(huì)隨著VLM參數(shù)規(guī)模一起提升。
問(wèn)題在于,預(yù)訓(xùn)練目標(biāo)本身就是錯(cuò)位的。相比之下,以視頻世界模型作為預(yù)訓(xùn)練目標(biāo),看起來(lái)要合理得多。我已經(jīng)在這條路線(xiàn)上下了重注。
![]()
有網(wǎng)友反問(wèn)道,如果說(shuō)世界模型是更優(yōu)的預(yù)訓(xùn)練目標(biāo),但當(dāng)前主流模型仍基于VLM構(gòu)建并產(chǎn)出實(shí)際成果,而世界模型卻主要用于策略評(píng)估和合成數(shù)據(jù),而非直接控制?
Jim Fan稱(chēng),它們都是2025年的模型,期待2026年下一個(gè)重大突破。
![]()
物理圖靈測(cè)試,還有多遠(yuǎn)?
今年,在紅杉資本一場(chǎng)閉門(mén)演講中,Jim Fan首次引入了「物理圖靈測(cè)試」概念。
短短20分鐘視頻,他生動(dòng)有趣地介紹了當(dāng)下具身智能的困局,大規(guī)模仿真如何挽救機(jī)器人未來(lái),以及英偉達(dá)具身智能的路線(xiàn)圖。
![]()
那究竟什么是「物理圖靈測(cè)試」?
一場(chǎng)周末party讓家里亂的一團(tuán)糟(左),有人替你收拾了一切,還為你和伴侶準(zhǔn)備了燭光晚餐(右)。
當(dāng)你回家后看到一切,根本無(wú)法辨別這是人類(lèi)的作品,還是機(jī)器的作品——這便是物理圖靈測(cè)試核心想法。
![]()
![]()
那么,人類(lèi)現(xiàn)在走到哪一步了?離這個(gè)目標(biāo)還有多遠(yuǎn)?
三個(gè)生動(dòng)的例子,讓人爆笑全場(chǎng)。不得不承認(rèn),這就是當(dāng)前具身智能的現(xiàn)實(shí)。



左右滑動(dòng)查看
Jim Fan表示,Ilya曾說(shuō)過(guò)預(yù)訓(xùn)練終結(jié)了,同時(shí)AI「石油」互聯(lián)網(wǎng)數(shù)據(jù)幾乎枯竭。
但若要和機(jī)器人領(lǐng)域數(shù)據(jù)相比,搞LLM的研究者就會(huì)明白有多么得天獨(dú)厚了。
![]()
在英偉達(dá),團(tuán)隊(duì)讓機(jī)器人實(shí)操去收集數(shù)據(jù),機(jī)器人關(guān)節(jié)控制信號(hào),且數(shù)值隨時(shí)間持續(xù)變化。
任何人無(wú)法從互聯(lián)網(wǎng)上獲取,必須通過(guò)自己收集才能完成。
![]()
他們具體是如何操作的?
其中,離不開(kāi)一個(gè)重要的方式——遙操。它能夠識(shí)別人手姿態(tài)并流式傳輸給機(jī)器人系統(tǒng)。

通過(guò)這種方式,可以教機(jī)器人從面包機(jī)中拿起面包,然后在上面淋上蜂蜜。
可以想象的到,這是一個(gè)非常緩慢極其痛苦的過(guò)程。
在Jim Fan看來(lái),如果將真實(shí)數(shù)據(jù)收集放在坐標(biāo)軸中展示,它根本無(wú)法實(shí)現(xiàn)Scaling Law。
如何去打破這一困境,為機(jī)器人創(chuàng)造「無(wú)限能源」?
![]()
英偉達(dá)給出了一個(gè)更直接的解決方案——虛擬世界。
在仿真世界中,可以以1萬(wàn)倍于現(xiàn)實(shí)的速度訓(xùn)練,并通過(guò)「域隨機(jī)化」(Domain Randomization)增強(qiáng)泛化能力。
也就意味著,系統(tǒng)在仿真中學(xué)會(huì)的任務(wù),最終零樣本遷移到真實(shí)世界。
![]()
![]()
接下來(lái),Jim Fan提出了仿真世界模擬的三個(gè)階段——
Simulation 1.0(數(shù)字孿生)
它需要精確建模機(jī)器人與物理環(huán)境,優(yōu)點(diǎn)在于快、可控、可遷移,而缺點(diǎn)是構(gòu)建成本高,強(qiáng)依賴(lài)人工建模。
Simulation 1.5(數(shù)字表親)
大量3D資產(chǎn)、場(chǎng)景、紋理由模型自動(dòng)生成,仍結(jié)合傳統(tǒng)物理引擎,在真實(shí)與仿真之間取得工程上「足夠接近」。
Simulation 2.0(神經(jīng)物理引擎)
可利用視頻擴(kuò)散模型,直接生成「可交互的未來(lái)」,不再顯示建模物理規(guī)則。
它的優(yōu)勢(shì)在于,能處理軟體、液體等復(fù)雜物理,通過(guò)語(yǔ)言生成「反事實(shí)世界」。
Jim Fan還將其稱(chēng)之為「數(shù)字游牧者」(Digital Nomad)。
![]()
再回到當(dāng)初這張坐標(biāo)圖,機(jī)器人數(shù)據(jù)Scaling Law很好地呈現(xiàn)了出來(lái)。
![]()
最終,所有這些數(shù)據(jù)流入了一個(gè)統(tǒng)一的模型,即VLA——輸入:語(yǔ)言+視覺(jué),輸出:動(dòng)作控制。
也就是如上提到了GR00T系VLA基礎(chǔ)模型,從N1,到N1.5,再到N1.6三個(gè)版本不斷升級(jí)迭代。
最后,Jim Fan指出物理AI的未來(lái),不只是更聰明的機(jī)器人,而是一種新基礎(chǔ)設(shè)施。
比如Physical API、物理APP Store,讓技能可以像軟件一樣被分發(fā)到機(jī)器人系統(tǒng)中。
幾天前,谷歌大佬Logan Kilpatrick預(yù)測(cè),2026年將成為具身AI的重要一年。
![]()
用不了不久,我們將在現(xiàn)實(shí)世界中看到更多的機(jī)器人。
參考資料:
https://x.com/DrJimFan/status/2003879965369290797?s=20
https://www.youtube.com/watch?v=_2NijXqBESI
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.