![]()
智東西
作者 王涵
編輯 心緣
智東西2月3日?qǐng)?bào)道,近期,英偉達(dá)宣布其全新3D通用模型論文將發(fā)表于2026國(guó)際3D視覺(jué)會(huì)議,論文的預(yù)印本已于去年7月發(fā)表。這篇論文構(gòu)建出了一種建構(gòu)3D世界的新范式,驗(yàn)證了“AI生成的3D合成數(shù)據(jù)”可規(guī)模化替代人工標(biāo)注數(shù)據(jù),能夠大幅降低視覺(jué)模型預(yù)訓(xùn)練的成本。
論文的主要成果為3D-GENERALIST模型,該模型使用統(tǒng)一化框架,將3D環(huán)境生成的四大核心要素即布局、材質(zhì)、光照、資產(chǎn)等統(tǒng)一到序貫決策框架中。研究團(tuán)隊(duì)還提出了基于CLIP評(píng)分的自改進(jìn)微調(diào)策略,可以讓模型在下一輪生成中能自主修正前序錯(cuò)誤。
這篇論文的作者有8位華人,第一二作者都是中國(guó)留學(xué)生,清華“姚班”出身的斯坦福大學(xué)助理教授吳佳俊也名列其中。
![]()
CES 2025上,英偉達(dá)正式推出世界基礎(chǔ)模型平臺(tái)Cosmos。在CES 2026的演講中,黃仁勛依舊將“Physical AI”作為了整場(chǎng)發(fā)布的核心靈魂,正式將Cosmos定位為Physical AI的“底層代碼”與“世界模擬器”。此外,黃仁勛還發(fā)布了Cosmos Reason 2,讓AI不僅生成世界,還能用自然語(yǔ)言進(jìn)行鏈?zhǔn)揭蚬评怼?/p>
3D-GENERALIST這一技術(shù)會(huì)給英偉達(dá)的Cosmos補(bǔ)全哪塊拼圖?又是如何實(shí)現(xiàn)技術(shù)突破的?我們?cè)噲D從論文中尋找答案。
論文鏈接:https://arxiv.org/abs/2507.06484
一、現(xiàn)有痛點(diǎn):只是在生成3D圖像,杯子水杯不能獨(dú)立交互
當(dāng)前可交互3D環(huán)境的創(chuàng)建仍面臨諸多痛點(diǎn)。
例如,現(xiàn)有技術(shù)往往聚焦于3D生成的單一環(huán)節(jié),僅優(yōu)化布局或合成紋理,難以實(shí)現(xiàn)全要素的協(xié)同優(yōu)化。
且現(xiàn)有技術(shù)生成的場(chǎng)景缺乏可分離、可操作的物體和表面,即便借助大語(yǔ)言模型或擴(kuò)散模型的方法,現(xiàn)有成果也難以通過(guò)擴(kuò)展計(jì)算資源提升生成質(zhì)量。生成的數(shù)據(jù)也不適合需要精準(zhǔn)標(biāo)注的合成數(shù)據(jù)應(yīng)用或機(jī)器人交互仿真場(chǎng)景,與下游任務(wù)對(duì)3D環(huán)境的質(zhì)量要求存在差距。
簡(jiǎn)單來(lái)說(shuō),現(xiàn)有技術(shù)只是在生成一個(gè)整體的3D圖像,虛擬世界中的杯子、書(shū)本沒(méi)辦法獨(dú)立交互。
而3D-GENERALIST就是來(lái)解決這些痛點(diǎn)的。
二、研究方法:引入自改進(jìn)機(jī)制,讓擴(kuò)散模型畫(huà)圖、VLM指揮、API執(zhí)行
斯坦福和英偉達(dá)研究團(tuán)隊(duì)的核心思路就是將一個(gè)“設(shè)計(jì)師”擴(kuò)展為一個(gè)“建筑師團(tuán)隊(duì)”,把搭房子的工作細(xì)化,每個(gè)步驟交給專(zhuān)門(mén)的人去做。
具體來(lái)講,研究團(tuán)隊(duì)首先通過(guò)全景擴(kuò)散模型生成360°引導(dǎo)圖像,這一步就相當(dāng)于先畫(huà)了一張戶(hù)型圖,之后的建設(shè)都要按照這一圖像來(lái)。
![]()
然后,研究團(tuán)隊(duì)提出了“場(chǎng)景性策略”,一共分為三步:
首先利用HorizonNet提取房間基礎(chǔ)結(jié)構(gòu),搭好房梁結(jié)構(gòu),后通過(guò)Grounded-SAM技術(shù),在識(shí)別好的墻體上,分割出門(mén)和窗戶(hù)的具體區(qū)域。最后再由GPT-4o等VLM(視覺(jué)語(yǔ)言模型)標(biāo)注門(mén)窗類(lèi)型與材質(zhì),通過(guò)程序化生成構(gòu)建帶基礎(chǔ)構(gòu)件的3D房間。
搭好毛坯房后,研究團(tuán)隊(duì)以VLM作為決策“大腦”,向其輸入含坐標(biāo)標(biāo)記、資產(chǎn)名稱(chēng)標(biāo)記的多視角場(chǎng)景渲染圖和文本提示。
隨后VLM會(huì)直接輸出代碼形式的具體動(dòng)作指令,比如添加資產(chǎn)、調(diào)整光照、更換材質(zhì)等,這些代碼指令會(huì)對(duì)接3D環(huán)境的工具API,API自動(dòng)執(zhí)行指令,實(shí)時(shí)更新整個(gè)3D房間。
![]()
為了讓虛擬場(chǎng)景中的每一個(gè)物體都能實(shí)現(xiàn)獨(dú)立交互,研究團(tuán)隊(duì)還針對(duì)性設(shè)計(jì)了一套資產(chǎn)級(jí)優(yōu)化策略。
具體來(lái)看,團(tuán)隊(duì)先借助GPT-4o識(shí)別出場(chǎng)景中可承載小物件的容器類(lèi)資產(chǎn),例如桌子、書(shū)架等載體,再通過(guò)基于網(wǎng)格的表面檢測(cè)技術(shù),精準(zhǔn)定位這些載體上適合放置物品的有效區(qū)域。
隨后,團(tuán)隊(duì)引入擅長(zhǎng)像素級(jí)精細(xì)推理的視覺(jué)語(yǔ)言模型Molmo-7B,進(jìn)一步確定小物體的具體放置像素點(diǎn),并通過(guò)3D射線轉(zhuǎn)換,將像素位置換算為高精度的3D空間坐標(biāo)。
結(jié)合碰撞檢測(cè)技術(shù),3D-GENERALIST最終實(shí)現(xiàn)如把書(shū)擺到桌上、把筆放在書(shū)上這類(lèi)貼合現(xiàn)實(shí)邏輯的交互效果。
![]()
此外,3D-GENERALIST背后還有3大關(guān)鍵技術(shù)做支撐:
首先研究團(tuán)隊(duì)引入了自改進(jìn)微調(diào)機(jī)制,模型在每輪微調(diào)中會(huì)生成多個(gè)候選動(dòng)作序列,通過(guò)CLIP評(píng)分篩選出與文本提示最對(duì)齊的最優(yōu)動(dòng)作,再用該最優(yōu)動(dòng)作對(duì)VLM進(jìn)行監(jiān)督微調(diào),以此提升模型自我修正能力。
![]()
其次,研究團(tuán)隊(duì)還規(guī)范了場(chǎng)景領(lǐng)域特定語(yǔ)言,定義了類(lèi)別、放置位置、材質(zhì)、光照等核心描述符,規(guī)范VLM輸出的動(dòng)作指令格式,確保其與工具API兼容。
研究團(tuán)隊(duì)使用的上下文庫(kù)收錄能顯著提升CLIP對(duì)齊分?jǐn)?shù)的動(dòng)作代碼片段,生成時(shí)隨機(jī)采樣作為示例,提升動(dòng)作序列的多樣性和有效性。
三、成績(jī)驗(yàn)證:物理合理性99%,合成數(shù)據(jù)訓(xùn)練效果接近真實(shí)數(shù)據(jù)
在模擬就緒3D環(huán)境生成任務(wù)中,3D-GENERALIST的3D環(huán)境生成質(zhì)量層級(jí)全面超越LayoutGPT、Holodeck、LayoutVLM等基線方法。
物理合理性方面,3D-GENERALIST的無(wú)碰撞分?jǐn)?shù)達(dá)99.0,邊界內(nèi)分?jǐn)?shù)達(dá)98.0。語(yǔ)義一致性方面,其位置連貫性和旋轉(zhuǎn)連貫性的分?jǐn)?shù)分別為78.2和79.1,綜合物理語(yǔ)義對(duì)齊分?jǐn)?shù)達(dá)67.9,遠(yuǎn)高于基線最高值58.8。
![]()
經(jīng)3輪自改進(jìn)微調(diào)后,3D-GENERALIST的CLIP分?jǐn)?shù)達(dá)0.275,顯著高于無(wú)微調(diào)版本和無(wú)上下文庫(kù)版本,且能迭代修正場(chǎng)景缺陷。
資產(chǎn)級(jí)策略生成的場(chǎng)景平均CLIP分?jǐn)?shù)達(dá)0.282,高于基線方法的0.269,可自然實(shí)現(xiàn)小物體的語(yǔ)義對(duì)齊和物理合理放置,避免物體重疊。
![]()
自改進(jìn)微調(diào)技術(shù)的引入還降低了VLM的視覺(jué)幻覺(jué)率,在Object HalBench和AMBER基準(zhǔn)測(cè)試中,微調(diào)后模型的幻覺(jué)相關(guān)指標(biāo)均優(yōu)于原始GPT-4o。
![]()
基于3D-GENERALIST生成的合成數(shù)據(jù)預(yù)訓(xùn)練視覺(jué)模型ImageNet-1K Top-1,使用86萬(wàn)條標(biāo)簽訓(xùn)練時(shí),準(zhǔn)確率達(dá)0.731,超過(guò)基于人工構(gòu)建的HyperSim數(shù)據(jù)集。
當(dāng)標(biāo)簽量擴(kuò)展至1217萬(wàn)條時(shí),ImageNet-1K Top-1準(zhǔn)確率提升至0.776,接近基于50億真實(shí)數(shù)據(jù)訓(xùn)練的模型效果,驗(yàn)證了其在合成數(shù)據(jù)規(guī)模化生成上的優(yōu)勢(shì)。
![]()
四、研究團(tuán)隊(duì):8個(gè)華人,創(chuàng)企CEO、清華姚班天才,還有Qwen實(shí)習(xí)生
除了研究本身,論文的作者欄也十分引人矚目。
該篇論文的第一作者Fan-Yun Sun是斯坦福大學(xué)AI實(shí)驗(yàn)室(SAIL)的計(jì)算機(jī)科學(xué)博士生,隸屬于Autonomous Agents Lab和斯坦福視覺(jué)與學(xué)習(xí)實(shí)驗(yàn)室(SVL)。
![]()
在讀博期間,他也深度參與了英偉達(dá)研究院的工作,曾效力于學(xué)習(xí)與感知研究組、Metropolis深度學(xué)習(xí)(Omniverse)以及自動(dòng)駕駛汽車(chē)研究組。
他的研究興趣主要在于生成具身環(huán)境與數(shù)據(jù),用于訓(xùn)練機(jī)器人和強(qiáng)化學(xué)習(xí)策略,致力于推動(dòng)具身、多模態(tài)基礎(chǔ)模型及其推理能力的發(fā)展。
此外,他還創(chuàng)辦了AI游戲公司Moonlake,是一家專(zhuān)注于交互式世界構(gòu)建的前沿人工智能實(shí)驗(yàn)室,融合了多模態(tài)推理和世界建模。
該創(chuàng)企此前已從Threshold Ventures、AIX Ventures和NVentureS(NVIDIA的風(fēng)險(xiǎn)投資部門(mén))籌集了2800萬(wàn)美元(約合人民幣1.95億元)的種子資金。
![]()
第二作者Shengguang Wu目前是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士生,在北京大學(xué)獲得碩士學(xué)位。
![]()
他此前曾在Qwen團(tuán)隊(duì)擔(dān)任研究實(shí)習(xí)生,并且參與了Qwen 1的研究工作。
![]()
吳佳俊是斯坦福大學(xué)計(jì)算機(jī)科學(xué)和心理學(xué)的助理教授。2014年他從清華大學(xué)交叉信息研究院“姚班”本科畢業(yè),師從屠卓文(Zhuowen Tu)教授。在校期間,他曾三年都是年級(jí)名次第一,還擔(dān)任了世界頂級(jí)的計(jì)算機(jī)視覺(jué)會(huì)議CVPR審稿人。
![]()
吳佳俊博士畢業(yè)于麻省理工學(xué)院,導(dǎo)師是Bill Freeman和Josh Tenenbaum。在加入斯坦福大學(xué)之前,他曾是谷歌Research的客座研究員,和Noah Snavely一起工作。
目前,他的團(tuán)隊(duì)致力于物理場(chǎng)景理解研究——即構(gòu)建能夠觀察、推理并與物理世界互動(dòng)的智能機(jī)器,以及以下方面:
1、基于視覺(jué)、聽(tīng)覺(jué)與觸覺(jué)信號(hào)的多模態(tài)感知(如物體文件夾、真實(shí)影響力項(xiàng)目)
2、四維物理世界的視覺(jué)生成(如三維生成對(duì)抗網(wǎng)絡(luò)、π生成對(duì)抗網(wǎng)絡(luò)、點(diǎn)體素?cái)U(kuò)散模型、SDEdit圖像編輯、奇幻世界)
3、通過(guò)物理概念基底的視覺(jué)推理(常采用神經(jīng)符號(hào)化方法,如神經(jīng)符號(hào)視覺(jué)問(wèn)答、形狀程序、動(dòng)態(tài)視覺(jué)推理數(shù)據(jù)集、邏輯視覺(jué)推理框架)
4、運(yùn)用習(xí)得物理場(chǎng)景表征的機(jī)器人學(xué)與具身人工智能(如機(jī)器人廚師、行為模擬平臺(tái))。
Shangru Li目前是英偉達(dá)公司的高級(jí)系統(tǒng)軟件工程師,之前曾在騰訊有過(guò)工作經(jīng)歷。
他2019年本科畢業(yè)于廣東外語(yǔ)外貿(mào)大學(xué)的計(jì)算機(jī)軟件工程專(zhuān)業(yè),在大三的時(shí)候,其曾在騰訊實(shí)習(xí)。2021年,Shangru Li于美國(guó)賓夕法尼亞大學(xué)的計(jì)算機(jī)圖形學(xué)和游戲技術(shù)專(zhuān)業(yè)碩士畢業(yè),此后便一直在英偉達(dá)工作。
![]()
此外,還有4位華人研究員參與其中,分別為Haoming Zou、Yu-Hsin Chou、Ethem Can以及Xunlei Wu。
結(jié)語(yǔ):模型與機(jī)器人訓(xùn)練成本或?qū)⑦M(jìn)一步降低
3D-GENERALIST將傳統(tǒng)分離的建模、布局、材質(zhì)、光照等環(huán)節(jié)整合為統(tǒng)一的決策序列,并通過(guò)自改進(jìn)機(jī)制賦予AI自我改錯(cuò)的能力。
這不僅顯著提升了復(fù)雜3D場(chǎng)景的構(gòu)建效率與物理合理性,更關(guān)鍵的是,其驗(yàn)證了高質(zhì)量合成數(shù)據(jù)規(guī)模化替代人工標(biāo)注的可行性,將有望降低下游視覺(jué)與機(jī)器人模型訓(xùn)練的成本門(mén)檻。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.