網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)3D模型打造“AI建筑師特工隊(duì)”，8位華人合著，包括千問(wèn)實(shí)習(xí)生

2026-02-03 18:11:11　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者王涵
編輯心緣

智東西2月3日?qǐng)?bào)道，近期，英偉達(dá)宣布其全新3D通用模型論文將發(fā)表于2026國(guó)際3D視覺(jué)會(huì)議，論文的預(yù)印本已于去年7月發(fā)表。這篇論文構(gòu)建出了一種建構(gòu)3D世界的新范式，驗(yàn)證了“AI生成的3D合成數(shù)據(jù)”可規(guī)模化替代人工標(biāo)注數(shù)據(jù)，能夠大幅降低視覺(jué)模型預(yù)訓(xùn)練的成本。

論文的主要成果為3D-GENERALIST模型，該模型使用統(tǒng)一化框架，將3D環(huán)境生成的四大核心要素即布局、材質(zhì)、光照、資產(chǎn)等統(tǒng)一到序貫決策框架中。研究團(tuán)隊(duì)還提出了基于CLIP評(píng)分的自改進(jìn)微調(diào)策略，可以讓模型在下一輪生成中能自主修正前序錯(cuò)誤。

這篇論文的作者有8位華人，第一二作者都是中國(guó)留學(xué)生，清華“姚班”出身的斯坦福大學(xué)助理教授吳佳俊也名列其中。

CES 2025上，英偉達(dá)正式推出世界基礎(chǔ)模型平臺(tái)Cosmos。在CES 2026的演講中，黃仁勛依舊將“Physical AI”作為了整場(chǎng)發(fā)布的核心靈魂，正式將Cosmos定位為Physical AI的“底層代碼”與“世界模擬器”。此外，黃仁勛還發(fā)布了Cosmos Reason 2，讓AI不僅生成世界，還能用自然語(yǔ)言進(jìn)行鏈?zhǔn)揭蚬评怼?/p>

3D-GENERALIST這一技術(shù)會(huì)給英偉達(dá)的Cosmos補(bǔ)全哪塊拼圖？又是如何實(shí)現(xiàn)技術(shù)突破的？我們?cè)噲D從論文中尋找答案。

論文鏈接：https://arxiv.org/abs/2507.06484

一、現(xiàn)有痛點(diǎn)：只是在生成3D圖像，杯子水杯不能獨(dú)立交互

當(dāng)前可交互3D環(huán)境的創(chuàng)建仍面臨諸多痛點(diǎn)。

例如，現(xiàn)有技術(shù)往往聚焦于3D生成的單一環(huán)節(jié)，僅優(yōu)化布局或合成紋理，難以實(shí)現(xiàn)全要素的協(xié)同優(yōu)化。

且現(xiàn)有技術(shù)生成的場(chǎng)景缺乏可分離、可操作的物體和表面，即便借助大語(yǔ)言模型或擴(kuò)散模型的方法，現(xiàn)有成果也難以通過(guò)擴(kuò)展計(jì)算資源提升生成質(zhì)量。生成的數(shù)據(jù)也不適合需要精準(zhǔn)標(biāo)注的合成數(shù)據(jù)應(yīng)用或機(jī)器人交互仿真場(chǎng)景，與下游任務(wù)對(duì)3D環(huán)境的質(zhì)量要求存在差距。

簡(jiǎn)單來(lái)說(shuō)，現(xiàn)有技術(shù)只是在生成一個(gè)整體的3D圖像，虛擬世界中的杯子、書(shū)本沒(méi)辦法獨(dú)立交互。

而3D-GENERALIST就是來(lái)解決這些痛點(diǎn)的。

二、研究方法：引入自改進(jìn)機(jī)制，讓擴(kuò)散模型畫(huà)圖、VLM指揮、API執(zhí)行

斯坦福和英偉達(dá)研究團(tuán)隊(duì)的核心思路就是將一個(gè)“設(shè)計(jì)師”擴(kuò)展為一個(gè)“建筑師團(tuán)隊(duì)”，把搭房子的工作細(xì)化，每個(gè)步驟交給專(zhuān)門(mén)的人去做。

具體來(lái)講，研究團(tuán)隊(duì)首先通過(guò)全景擴(kuò)散模型生成360°引導(dǎo)圖像，這一步就相當(dāng)于先畫(huà)了一張戶(hù)型圖，之后的建設(shè)都要按照這一圖像來(lái)。

然后，研究團(tuán)隊(duì)提出了“場(chǎng)景性策略”，一共分為三步：

首先利用HorizonNet提取房間基礎(chǔ)結(jié)構(gòu)，搭好房梁結(jié)構(gòu)，后通過(guò)Grounded-SAM技術(shù)，在識(shí)別好的墻體上，分割出門(mén)和窗戶(hù)的具體區(qū)域。最后再由GPT-4o等VLM（視覺(jué)語(yǔ)言模型）標(biāo)注門(mén)窗類(lèi)型與材質(zhì)，通過(guò)程序化生成構(gòu)建帶基礎(chǔ)構(gòu)件的3D房間。

搭好毛坯房后，研究團(tuán)隊(duì)以VLM作為決策“大腦”，向其輸入含坐標(biāo)標(biāo)記、資產(chǎn)名稱(chēng)標(biāo)記的多視角場(chǎng)景渲染圖和文本提示。

隨后VLM會(huì)直接輸出代碼形式的具體動(dòng)作指令，比如添加資產(chǎn)、調(diào)整光照、更換材質(zhì)等，這些代碼指令會(huì)對(duì)接3D環(huán)境的工具API，API自動(dòng)執(zhí)行指令，實(shí)時(shí)更新整個(gè)3D房間。

為了讓虛擬場(chǎng)景中的每一個(gè)物體都能實(shí)現(xiàn)獨(dú)立交互，研究團(tuán)隊(duì)還針對(duì)性設(shè)計(jì)了一套資產(chǎn)級(jí)優(yōu)化策略。

具體來(lái)看，團(tuán)隊(duì)先借助GPT-4o識(shí)別出場(chǎng)景中可承載小物件的容器類(lèi)資產(chǎn)，例如桌子、書(shū)架等載體，再通過(guò)基于網(wǎng)格的表面檢測(cè)技術(shù)，精準(zhǔn)定位這些載體上適合放置物品的有效區(qū)域。

隨后，團(tuán)隊(duì)引入擅長(zhǎng)像素級(jí)精細(xì)推理的視覺(jué)語(yǔ)言模型Molmo-7B，進(jìn)一步確定小物體的具體放置像素點(diǎn)，并通過(guò)3D射線轉(zhuǎn)換，將像素位置換算為高精度的3D空間坐標(biāo)。

結(jié)合碰撞檢測(cè)技術(shù)，3D-GENERALIST最終實(shí)現(xiàn)如把書(shū)擺到桌上、把筆放在書(shū)上這類(lèi)貼合現(xiàn)實(shí)邏輯的交互效果。

此外，3D-GENERALIST背后還有3大關(guān)鍵技術(shù)做支撐：

首先研究團(tuán)隊(duì)引入了自改進(jìn)微調(diào)機(jī)制，模型在每輪微調(diào)中會(huì)生成多個(gè)候選動(dòng)作序列，通過(guò)CLIP評(píng)分篩選出與文本提示最對(duì)齊的最優(yōu)動(dòng)作，再用該最優(yōu)動(dòng)作對(duì)VLM進(jìn)行監(jiān)督微調(diào)，以此提升模型自我修正能力。

其次，研究團(tuán)隊(duì)還規(guī)范了場(chǎng)景領(lǐng)域特定語(yǔ)言，定義了類(lèi)別、放置位置、材質(zhì)、光照等核心描述符，規(guī)范VLM輸出的動(dòng)作指令格式，確保其與工具API兼容。

研究團(tuán)隊(duì)使用的上下文庫(kù)收錄能顯著提升CLIP對(duì)齊分?jǐn)?shù)的動(dòng)作代碼片段，生成時(shí)隨機(jī)采樣作為示例，提升動(dòng)作序列的多樣性和有效性。

三、成績(jī)驗(yàn)證：物理合理性99%，合成數(shù)據(jù)訓(xùn)練效果接近真實(shí)數(shù)據(jù)

在模擬就緒3D環(huán)境生成任務(wù)中，3D-GENERALIST的3D環(huán)境生成質(zhì)量層級(jí)全面超越LayoutGPT、Holodeck、LayoutVLM等基線方法。

物理合理性方面，3D-GENERALIST的無(wú)碰撞分?jǐn)?shù)達(dá)99.0，邊界內(nèi)分?jǐn)?shù)達(dá)98.0。語(yǔ)義一致性方面，其位置連貫性和旋轉(zhuǎn)連貫性的分?jǐn)?shù)分別為78.2和79.1，綜合物理語(yǔ)義對(duì)齊分?jǐn)?shù)達(dá)67.9，遠(yuǎn)高于基線最高值58.8。

經(jīng)3輪自改進(jìn)微調(diào)后，3D-GENERALIST的CLIP分?jǐn)?shù)達(dá)0.275，顯著高于無(wú)微調(diào)版本和無(wú)上下文庫(kù)版本，且能迭代修正場(chǎng)景缺陷。

資產(chǎn)級(jí)策略生成的場(chǎng)景平均CLIP分?jǐn)?shù)達(dá)0.282，高于基線方法的0.269，可自然實(shí)現(xiàn)小物體的語(yǔ)義對(duì)齊和物理合理放置，避免物體重疊。

自改進(jìn)微調(diào)技術(shù)的引入還降低了VLM的視覺(jué)幻覺(jué)率，在Object HalBench和AMBER基準(zhǔn)測(cè)試中，微調(diào)后模型的幻覺(jué)相關(guān)指標(biāo)均優(yōu)于原始GPT-4o。

基于3D-GENERALIST生成的合成數(shù)據(jù)預(yù)訓(xùn)練視覺(jué)模型ImageNet-1K Top-1，使用86萬(wàn)條標(biāo)簽訓(xùn)練時(shí)，準(zhǔn)確率達(dá)0.731，超過(guò)基于人工構(gòu)建的HyperSim數(shù)據(jù)集。

當(dāng)標(biāo)簽量擴(kuò)展至1217萬(wàn)條時(shí)，ImageNet-1K Top-1準(zhǔn)確率提升至0.776，接近基于50億真實(shí)數(shù)據(jù)訓(xùn)練的模型效果，驗(yàn)證了其在合成數(shù)據(jù)規(guī)模化生成上的優(yōu)勢(shì)。

四、研究團(tuán)隊(duì)：8個(gè)華人，創(chuàng)企CEO、清華姚班天才，還有Qwen實(shí)習(xí)生

除了研究本身，論文的作者欄也十分引人矚目。

該篇論文的第一作者Fan-Yun Sun是斯坦福大學(xué)AI實(shí)驗(yàn)室（SAIL）的計(jì)算機(jī)科學(xué)博士生，隸屬于Autonomous Agents Lab和斯坦福視覺(jué)與學(xué)習(xí)實(shí)驗(yàn)室（SVL）。

在讀博期間，他也深度參與了英偉達(dá)研究院的工作，曾效力于學(xué)習(xí)與感知研究組、Metropolis深度學(xué)習(xí)（Omniverse）以及自動(dòng)駕駛汽車(chē)研究組。

他的研究興趣主要在于生成具身環(huán)境與數(shù)據(jù)，用于訓(xùn)練機(jī)器人和強(qiáng)化學(xué)習(xí)策略，致力于推動(dòng)具身、多模態(tài)基礎(chǔ)模型及其推理能力的發(fā)展。

此外，他還創(chuàng)辦了AI游戲公司Moonlake，是一家專(zhuān)注于交互式世界構(gòu)建的前沿人工智能實(shí)驗(yàn)室，融合了多模態(tài)推理和世界建模。

該創(chuàng)企此前已從Threshold Ventures、AIX Ventures和NVentureS（NVIDIA的風(fēng)險(xiǎn)投資部門(mén)）籌集了2800萬(wàn)美元（約合人民幣1.95億元）的種子資金。

第二作者Shengguang Wu目前是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士生，在北京大學(xué)獲得碩士學(xué)位。

他此前曾在Qwen團(tuán)隊(duì)擔(dān)任研究實(shí)習(xí)生，并且參與了Qwen 1的研究工作。

吳佳俊是斯坦福大學(xué)計(jì)算機(jī)科學(xué)和心理學(xué)的助理教授。2014年他從清華大學(xué)交叉信息研究院“姚班”本科畢業(yè)，師從屠卓文（Zhuowen Tu）教授。在校期間，他曾三年都是年級(jí)名次第一，還擔(dān)任了世界頂級(jí)的計(jì)算機(jī)視覺(jué)會(huì)議CVPR審稿人。

吳佳俊博士畢業(yè)于麻省理工學(xué)院，導(dǎo)師是Bill Freeman和Josh Tenenbaum。在加入斯坦福大學(xué)之前，他曾是谷歌Research的客座研究員，和Noah Snavely一起工作。

目前，他的團(tuán)隊(duì)致力于物理場(chǎng)景理解研究——即構(gòu)建能夠觀察、推理并與物理世界互動(dòng)的智能機(jī)器，以及以下方面：

1、基于視覺(jué)、聽(tīng)覺(jué)與觸覺(jué)信號(hào)的多模態(tài)感知（如物體文件夾、真實(shí)影響力項(xiàng)目）

2、四維物理世界的視覺(jué)生成（如三維生成對(duì)抗網(wǎng)絡(luò)、π生成對(duì)抗網(wǎng)絡(luò)、點(diǎn)體素?cái)U(kuò)散模型、SDEdit圖像編輯、奇幻世界）

3、通過(guò)物理概念基底的視覺(jué)推理（常采用神經(jīng)符號(hào)化方法，如神經(jīng)符號(hào)視覺(jué)問(wèn)答、形狀程序、動(dòng)態(tài)視覺(jué)推理數(shù)據(jù)集、邏輯視覺(jué)推理框架）

4、運(yùn)用習(xí)得物理場(chǎng)景表征的機(jī)器人學(xué)與具身人工智能（如機(jī)器人廚師、行為模擬平臺(tái)）。

Shangru Li目前是英偉達(dá)公司的高級(jí)系統(tǒng)軟件工程師，之前曾在騰訊有過(guò)工作經(jīng)歷。

他2019年本科畢業(yè)于廣東外語(yǔ)外貿(mào)大學(xué)的計(jì)算機(jī)軟件工程專(zhuān)業(yè)，在大三的時(shí)候，其曾在騰訊實(shí)習(xí)。2021年，Shangru Li于美國(guó)賓夕法尼亞大學(xué)的計(jì)算機(jī)圖形學(xué)和游戲技術(shù)專(zhuān)業(yè)碩士畢業(yè)，此后便一直在英偉達(dá)工作。

此外，還有4位華人研究員參與其中，分別為Haoming Zou、Yu-Hsin Chou、Ethem Can以及Xunlei Wu。

結(jié)語(yǔ)：模型與機(jī)器人訓(xùn)練成本或?qū)⑦M(jìn)一步降低

3D-GENERALIST將傳統(tǒng)分離的建模、布局、材質(zhì)、光照等環(huán)節(jié)整合為統(tǒng)一的決策序列，并通過(guò)自改進(jìn)機(jī)制賦予AI自我改錯(cuò)的能力。

這不僅顯著提升了復(fù)雜3D場(chǎng)景的構(gòu)建效率與物理合理性，更關(guān)鍵的是，其驗(yàn)證了高質(zhì)量合成數(shù)據(jù)規(guī)模化替代人工標(biāo)注的可行性，將有望降低下游視覺(jué)與機(jī)器人模型訓(xùn)練的成本門(mén)檻。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.