![]()
新智元報(bào)道
編輯:KingHZ 好困
【新智元導(dǎo)讀】黃仁勛的預(yù)言成真!從Sora的夢(mèng)幻視頻到英偉達(dá)的3D通才模型,AI不再只是「看和說」,而是真正「動(dòng)手」構(gòu)建3D世界,開啟機(jī)器人時(shí)代的無限可能。
黃仁勛沒有吹牛!
AI不能只會(huì)看、會(huì)說、會(huì)生成,它還必須理解并遵守物理世界的規(guī)則。
現(xiàn)在,英偉達(dá)補(bǔ)上了關(guān)鍵拼圖——
讓AI從「生成畫面」升級(jí)為「生成可行動(dòng)的3D世界」,不僅能描述世界,還能一步步搭建世界、修改世界、糾錯(cuò)迭代。
時(shí)間撥回到兩年前, 2024年2月。
OpenAI發(fā)布了一段「東京街頭漫步」的Sora視頻,震驚世界,硅谷集體狂歡。
![]()
人們高呼「現(xiàn)實(shí)不存在了」,仿佛人終于可以「言出法隨」、重造萬物。
但在一片喧囂中,那個(gè)穿皮衣的男人始終保持冷靜,甚至帶有一絲不屑。
在2024年和2025年的多次演講中,黃仁勛像復(fù)讀機(jī)一樣不斷重復(fù)——「PhysicalAI」(物理AI)。
![]()
![]()
![]()
![]()
反駁視頻生成模型的理由是這樣的:
AI生成的視頻很美,但如果你走進(jìn)那個(gè)視頻,試圖拿起桌上的杯子,你的手會(huì)穿過去。
杯子沒有重量,沒有摩擦力,沒有物理法則。
那不是世界,那是動(dòng)畫片。下一波浪潮,必須是懂物理的AI。
當(dāng)時(shí),很多人以為這只是老黃的營(yíng)銷話術(shù),最終目的是為了推銷昂貴的Omniverse平臺(tái)和RTX顯卡。
直到CES 2026,大家才明白老黃說的對(duì)。
![]()
剛剛,我們發(fā)現(xiàn)英偉達(dá)甩出了一篇新年第一篇論文:3D通才模型。
![]()
鏈接:https://research.nvidia.com/publication/2026-03_3d-generalist-vision-language-action-models-crafting-3d-worlds
如果說ChatGPT是AI學(xué)會(huì)了「說話」,Sora是AI學(xué)會(huì)了「做夢(mèng)」,那么英偉達(dá)的這個(gè)新模型,就是讓AI真正「睜眼看世界,動(dòng)手造世界」。
這是圖形學(xué)的勝利,這是「硅基生命」長(zhǎng)出四肢的前夜。
老黃沒有畫餅——
物理AI的「ChatGPT時(shí)刻」,在這一刻,正式降臨。
![]()
英偉達(dá)開年首篇論文
手搓賽博房之家
這篇論文由英偉達(dá)和斯坦福大學(xué)合作,正式發(fā)表在今年第十三屆國際三維視覺會(huì)議上,標(biāo)題相當(dāng)拗口——
《3D Generalist:Vision-Language-Action Models for Crafting 3D Worlds》(3D通才:用于構(gòu)建三維世界的視覺-語言-動(dòng)作模型)。
![]()
2026年3月20日至23日,第十三屆國際三維視覺會(huì)議2在加拿大不列顛哥倫比亞省溫哥華的溫哥華會(huì)議中心以線下形式舉行
我們要讀懂這次技術(shù)革命,首先要從這篇論文標(biāo)題里,把那個(gè)最核心的單詞揪出來。
請(qǐng)盯住這個(gè)詞:Action(動(dòng)作/行動(dòng))。
這是整個(gè)邏輯的起點(diǎn)。
在過去的三年里,無論是Midjourney畫圖,還是Runway生成視頻,AI扮演的角色都是「觀察者」和「夢(mèng)想家」。
它看了一億張貓的照片,然后根據(jù)概率,在屏幕上預(yù)測(cè)下一排像素應(yīng)該是什么顏色,從而湊出一只貓的樣子。
它不知道貓有骨骼,不知道貓毛有觸感,它只是在「模仿視覺信號(hào)」。
但英偉達(dá)的VLA(Vision-Language-Action)模型,徹底顛覆了這個(gè)邏輯。
它不再是畫家,而是「全能手」。
你只要輸入一句話,3D-GENERALIST就能輸出包含完整3D布局的房屋。
這些3D布局包括材料、固定裝置(比如門和窗戶)、3D資產(chǎn)以及照明配置。
![]()
背后的理念是,構(gòu)建一個(gè)既詳細(xì)又與文本描述相符的3D環(huán)境,應(yīng)該被視為一個(gè)過程,需要依次做出決策。
因此,通過場(chǎng)景級(jí)和素材級(jí)的策略,他們不斷改進(jìn)和優(yōu)化這些3D環(huán)境。
在提出的框架中,第一個(gè)重要的模塊是全景環(huán)境生成。
如圖2所示,這個(gè)模塊能夠根據(jù)文本描述初始化一個(gè)基礎(chǔ)的3D房間模型,包括墻壁、地板以及固定裝置,如門和窗戶。
為了避免傳統(tǒng)方法過于簡(jiǎn)化或不切實(shí)際的問題,他們首先利用全景擴(kuò)散模型生成一個(gè)360°的圖像作為指導(dǎo),然后通過逆圖形技術(shù)構(gòu)建3D環(huán)境。
![]()
圖2:3D-GENERALIST全景環(huán)境生成概述。全景擴(kuò)散模型生成引導(dǎo)性360°場(chǎng)景圖像,然后房間布局估計(jì)模型、Grounded-SAM和視覺語言模型提取角落、窗戶和門的信息。這些預(yù)測(cè)隨后被用于通過程序化方式構(gòu)建帶有構(gòu)件的3D房間
這個(gè)過程包括以下幾個(gè)步驟:
房間布局估算:利用全景圖像和HorizonNet模型,推斷出房間的基本結(jié)構(gòu),如墻壁、地板和天花板。
固定裝置分割:使用Grounded SAM技術(shù)對(duì)窗戶和門進(jìn)行分割。
視覺-語言模型注釋:通過GPT-4o這樣的視覺-語言模型,分析每個(gè)分割區(qū)域,確定其類型(例如單扇門、雙扇門、滑動(dòng)門或折疊門)和材料(如門框、門體和門把手的材料)。
過程化生成:最后,根據(jù)3D位置的相應(yīng)信息,房間、門和窗戶被逐步構(gòu)建出來。
3D-Generalist 使用擴(kuò)散模型生成全景圖像,并通過逆向圖形(inverse graphics)流水線來創(chuàng)建3D環(huán)境的結(jié)構(gòu)。
3D-Generalist采用視覺-語言-動(dòng)作(VLA)模型來生成代碼,用于構(gòu)建與修改最終3D環(huán)境的各個(gè)方面(材質(zhì)、光照、素材與布局)。
該VLA通過一個(gè)自我改進(jìn)訓(xùn)練循環(huán)進(jìn)行微調(diào),以優(yōu)化與提示詞(prompt)的對(duì)齊效果。
3D-Generalist還使用了另一個(gè)VLA來處理多樣化的小物體擺放任務(wù),即使 3D素材是無標(biāo)注(unlabeled)的也能完成。
微調(diào)后(After Finetuning),3D-Generalist涌現(xiàn)出自我糾錯(cuò)行為。
![]()
研究團(tuán)隊(duì)還使用Florence-2框架,在由3D-Generalist生成的3D環(huán)境渲染得到的合成數(shù)據(jù)上訓(xùn)練一個(gè)視覺基礎(chǔ)模型。
![]()
結(jié)果表明:其效果接近使用規(guī)模大幾個(gè)數(shù)量級(jí)的真實(shí)數(shù)據(jù)所能達(dá)到的效果。
![]()
物理AI的ChatGPT時(shí)刻,已開啟?
如果你認(rèn)為黃仁勛費(fèi)盡心機(jī)搞這個(gè),只是為了讓你玩游戲更爽,或者讓視覺特效更便宜,那你嚴(yán)重低估了英偉達(dá)的野心。
英偉達(dá)不只是買買游戲顯卡,更致力于解決「智能」算力問題。
這篇論文的真正戰(zhàn)略意圖,其實(shí)藏在英偉達(dá)宏大的「具身智能」(Embodied AI)版圖中。
老黃早已押注機(jī)器人,他認(rèn)為那是一個(gè)數(shù)萬億美元的機(jī)遇:
![]()
這次無疑是英偉達(dá)「秀肌肉」。
請(qǐng)看這個(gè)邏輯鏈條:
我們想要全能的機(jī)器人(比如特斯拉Optimus,或英偉達(dá)Project GR00T)。
機(jī)器人需要學(xué)會(huì)像人一樣處理復(fù)雜的物理世界(怎么拿雞蛋不碎?怎么在濕滑地板上走路?)。
在真實(shí)世界里訓(xùn)練機(jī)器人太慢、太貴、且不可逆(你不能讓機(jī)器人摔壞一萬個(gè)雞蛋,或者摔斷一千次腿)。
解決方案:把機(jī)器人扔進(jìn)「虛擬世界」里訓(xùn)練。
但是,以前的虛擬世界(模擬器)不僅搭建很慢,而且不夠真實(shí)。
如果模擬器里的物理規(guī)則和現(xiàn)實(shí)不一樣,機(jī)器人學(xué)出來的本事就是花拳繡腿,一上真機(jī)就撲街。
現(xiàn)在,新模型「3D通才」補(bǔ)上了這一環(huán)。
有了這個(gè)技術(shù),英偉達(dá)可以瞬間生成數(shù)百萬個(gè)包含不同物理變量的「虛擬平行宇宙」。
場(chǎng)景A:地板剛拖過,很滑,光線昏暗。
場(chǎng)景B:地板鋪了地毯,摩擦力大,強(qiáng)光照射。
場(chǎng)景C:地板上散落著樂高積木,障礙物復(fù)雜。
在這個(gè)無限生成的「3D物理世界」里,機(jī)器人大腦可以在一天之內(nèi)經(jīng)歷人類幾百年的訓(xùn)練時(shí)長(zhǎng)。它在虛擬世界里摔倒一億次,就是為了在現(xiàn)實(shí)世界里穩(wěn)穩(wěn)地邁出第一步。
在英偉達(dá)的Omniverse生態(tài)中,研究團(tuán)隊(duì)使用Omniverse Replicator實(shí)現(xiàn)大規(guī)模合成數(shù)據(jù)生成,并支持域隨機(jī)化(domain randomization);而Isaac Lab提供可直接使用的具身載體(例如人形機(jī)器人),可在這些生成環(huán)境中進(jìn)行機(jī)器人仿真。
![]()
![]()
這才是「物理AI」的終極目標(biāo):打通Sim-to-Real(從模擬到現(xiàn)實(shí))的最后一公里。
黃仁勛構(gòu)建的不僅僅是一個(gè)生成的引擎,它是硅基生命誕生的子宮。
所有移動(dòng)之物,終將自主
當(dāng)AI不僅掌握了人類的語言(GPT),掌握了人類的視覺(Sora),現(xiàn)在又掌握了構(gòu)建物理世界的法則(Physcial AI)時(shí),虛擬與現(xiàn)實(shí)的界限,將不再是涇渭分明的。
我們?cè)谄聊焕飫?chuàng)造的世界,將擁有和現(xiàn)實(shí)世界一樣的重力、光影和因果律。
而我們?cè)诂F(xiàn)實(shí)世界里的機(jī)器人,將擁有在數(shù)億個(gè)虛擬世界里磨練出來的智慧。
在2024年的SIGGRAPH大會(huì)上,黃仁勛曾說:「Everything that moves will be autonomous.」(所有移動(dòng)之物,終將自主。)
![]()
當(dāng)時(shí)我們以為他在說機(jī)器人。
現(xiàn)在看來,他說的是整個(gè)物理世界。
作者介紹
Fan-Yun Sun
![]()
Fan-Yun Sun是斯坦福大學(xué)AI實(shí)驗(yàn)室(SAIL)的計(jì)算機(jī)科學(xué)博士生,隸屬于Autonomous Agents Lab和斯坦福視覺與學(xué)習(xí)實(shí)驗(yàn)室(SVL)。
在讀博期間,他也深度參與了英偉達(dá)研究院的工作,曾效力于學(xué)習(xí)與感知研究組、Metropolis深度學(xué)習(xí)(Omniverse)以及自動(dòng)駕駛汽車研究組。
他的研究興趣主要在于生成具身(3D)環(huán)境與數(shù)據(jù),用于訓(xùn)練機(jī)器人和強(qiáng)化學(xué)習(xí)策略;致力于推動(dòng)具身、多模態(tài)基礎(chǔ)模型及其推理能力的發(fā)展。
Shengguang Wu
![]()
Shengguang Wu目前是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士生,師從Serena Yeung-Levy教授。
他在北京大學(xué)獲得碩士學(xué)位,導(dǎo)師為Qi Su教授;此前,他也曾在Qwen團(tuán)隊(duì)擔(dān)任研究實(shí)習(xí)生。
他的研究致力于賦予機(jī)器跨多模態(tài)的類人學(xué)習(xí)與推理能力,并推動(dòng)現(xiàn)實(shí)應(yīng)用的落地。
多模態(tài)Grounding與推理:利用視覺洞察來優(yōu)化基于語言的推理,同時(shí)引入文本反饋來指導(dǎo)細(xì)粒度的視覺感知。
自我提升:讓AI智能體能夠從交互中學(xué)習(xí)并持續(xù)自我進(jìn)化——主動(dòng)適應(yīng)新信息,并隨著新任務(wù)的出現(xiàn)不斷成長(zhǎng)。
Jiajun Wu
![]()
吳佳俊是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授,同時(shí)兼任心理學(xué)系助理教授。
在加入斯坦福之前,他曾在Google Research擔(dān)任訪問研究員,與Noah Snavely合作。
他本科畢業(yè)于清華大學(xué)交叉信息研究院「姚班」,師從屠卓文(Zhuowen Tu)教授。在清華期間,他曾連續(xù)三年保持年級(jí)第一,并榮獲清華大學(xué)最高榮譽(yù)——特等獎(jiǎng)學(xué)金以及「中國大學(xué)生年度人物」稱號(hào)。
隨后,他在麻省理工學(xué)院獲得電氣工程與計(jì)算機(jī)科學(xué)博士學(xué)位,導(dǎo)師是Bill Freeman和Josh Tenenbaum。
吳佳俊的團(tuán)隊(duì)致力于物理場(chǎng)景理解的研究——即構(gòu)建能夠「看」見世界、進(jìn)行推理并與物理世界互動(dòng)的機(jī)器,其代表性項(xiàng)目包括Galileo、MarrNet、4D Roses、Neuro-Symbolic Concept Learner以及Scene Language。
除了開發(fā)表征本身,團(tuán)隊(duì)還同步探索這些表征在各個(gè)領(lǐng)域的應(yīng)用:
多模態(tài)感知,代表項(xiàng)目如ObjectFolder和RealImpact;
4D物理世界的視覺生成,代表項(xiàng)目如3D-GAN、pi-GAN、Point-Voxel Diffusion、SDEdit和WonderWorld;
基于物理概念接地的視覺推理,代表項(xiàng)目如NS-VQA、Shape Programs、CLEVRER和LEFT;
機(jī)器人學(xué)與具身智能,代表項(xiàng)目如RoboCook和BEHAVIOR。
Shangru Li
Shangru Li是英偉達(dá)高級(jí)系統(tǒng)軟件工程師,長(zhǎng)期從事智能視頻分析(IVA)和Metropolis平臺(tái)的相關(guān)工作。
他擁有賓夕法尼亞大學(xué)計(jì)算機(jī)圖形學(xué)與游戲技術(shù)工程碩士學(xué)位,以及廣東外語外貿(mào)大學(xué)計(jì)算機(jī)軟件工程學(xué)士學(xué)位。
其他華人作者還有:
Haoming Zou (Stanford University)
Yu-Hsin Chou (Stanford University)
Xunlei Wu (NVIDIA)
參考資料:
https://research.nvidia.com/publication/2026-03_3d-generalist-vision-language-action-models-crafting-3d-worlds
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.