<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      英偉達(dá)3D模型打造“AI建筑師特工隊(duì)”,8位華人合著,包括千問(wèn)實(shí)習(xí)生

      0
      分享至


      智東西
      作者 王涵
      編輯 心緣

      智東西2月3日?qǐng)?bào)道,近期,英偉達(dá)宣布其全新3D通用模型論文將發(fā)表于2026國(guó)際3D視覺(jué)會(huì)議,論文的預(yù)印本已于去年7月發(fā)表。這篇論文構(gòu)建出了一種建構(gòu)3D世界的新范式,驗(yàn)證了“AI生成的3D合成數(shù)據(jù)”可規(guī)模化替代人工標(biāo)注數(shù)據(jù),能夠大幅降低視覺(jué)模型預(yù)訓(xùn)練的成本。

      論文的主要成果為3D-GENERALIST模型,該模型使用統(tǒng)一化框架,將3D環(huán)境生成的四大核心要素即布局、材質(zhì)、光照、資產(chǎn)等統(tǒng)一到序貫決策框架中。研究團(tuán)隊(duì)還提出了基于CLIP評(píng)分的自改進(jìn)微調(diào)策略,可以讓模型在下一輪生成中能自主修正前序錯(cuò)誤。

      這篇論文的作者有8位華人,第一二作者都是中國(guó)留學(xué)生,清華“姚班”出身的斯坦福大學(xué)助理教授吳佳俊也名列其中。


      CES 2025上,英偉達(dá)正式推出世界基礎(chǔ)模型平臺(tái)Cosmos。在CES 2026的演講中,黃仁勛依舊將“Physical AI”作為了整場(chǎng)發(fā)布的核心靈魂,正式將Cosmos定位為Physical AI的“底層代碼”與“世界模擬器”。此外,黃仁勛還發(fā)布了Cosmos Reason 2,讓AI不僅生成世界,還能用自然語(yǔ)言進(jìn)行鏈?zhǔn)揭蚬评怼?/p>

      3D-GENERALIST這一技術(shù)會(huì)給英偉達(dá)的Cosmos補(bǔ)全哪塊拼圖?又是如何實(shí)現(xiàn)技術(shù)突破的?我們?cè)噲D從論文中尋找答案。

      論文鏈接:https://arxiv.org/abs/2507.06484

      一、現(xiàn)有痛點(diǎn):只是在生成3D圖像,杯子水杯不能獨(dú)立交互

      當(dāng)前可交互3D環(huán)境的創(chuàng)建仍面臨諸多痛點(diǎn)。

      例如,現(xiàn)有技術(shù)往往聚焦于3D生成的單一環(huán)節(jié),僅優(yōu)化布局或合成紋理,難以實(shí)現(xiàn)全要素的協(xié)同優(yōu)化。

      且現(xiàn)有技術(shù)生成的場(chǎng)景缺乏可分離、可操作的物體和表面,即便借助大語(yǔ)言模型或擴(kuò)散模型的方法,現(xiàn)有成果也難以通過(guò)擴(kuò)展計(jì)算資源提升生成質(zhì)量。生成的數(shù)據(jù)也不適合需要精準(zhǔn)標(biāo)注的合成數(shù)據(jù)應(yīng)用或機(jī)器人交互仿真場(chǎng)景,與下游任務(wù)對(duì)3D環(huán)境的質(zhì)量要求存在差距

      簡(jiǎn)單來(lái)說(shuō),現(xiàn)有技術(shù)只是在生成一個(gè)整體的3D圖像,虛擬世界中的杯子、書(shū)本沒(méi)辦法獨(dú)立交互。

      而3D-GENERALIST就是來(lái)解決這些痛點(diǎn)的。

      二、研究方法:引入自改進(jìn)機(jī)制,讓擴(kuò)散模型畫(huà)圖、VLM指揮、API執(zhí)行

      斯坦福和英偉達(dá)研究團(tuán)隊(duì)的核心思路就是將一個(gè)“設(shè)計(jì)師”擴(kuò)展為一個(gè)“建筑師團(tuán)隊(duì)”,把搭房子的工作細(xì)化,每個(gè)步驟交給專(zhuān)門(mén)的人去做。

      具體來(lái)講,研究團(tuán)隊(duì)首先通過(guò)全景擴(kuò)散模型生成360°引導(dǎo)圖像,這一步就相當(dāng)于先畫(huà)了一張戶(hù)型圖,之后的建設(shè)都要按照這一圖像來(lái)。


      然后,研究團(tuán)隊(duì)提出了“場(chǎng)景性策略”,一共分為三步:

      首先利用HorizonNet提取房間基礎(chǔ)結(jié)構(gòu),搭好房梁結(jié)構(gòu),后通過(guò)Grounded-SAM技術(shù),在識(shí)別好的墻體上,分割出門(mén)和窗戶(hù)的具體區(qū)域。最后再由GPT-4o等VLM(視覺(jué)語(yǔ)言模型)標(biāo)注門(mén)窗類(lèi)型與材質(zhì),通過(guò)程序化生成構(gòu)建帶基礎(chǔ)構(gòu)件的3D房間。

      搭好毛坯房后,研究團(tuán)隊(duì)以VLM作為決策“大腦”,向其輸入含坐標(biāo)標(biāo)記、資產(chǎn)名稱(chēng)標(biāo)記的多視角場(chǎng)景渲染圖和文本提示。

      隨后VLM會(huì)直接輸出代碼形式的具體動(dòng)作指令,比如添加資產(chǎn)、調(diào)整光照、更換材質(zhì)等,這些代碼指令會(huì)對(duì)接3D環(huán)境的工具API,API自動(dòng)執(zhí)行指令,實(shí)時(shí)更新整個(gè)3D房間。


      為了讓虛擬場(chǎng)景中的每一個(gè)物體都能實(shí)現(xiàn)獨(dú)立交互,研究團(tuán)隊(duì)還針對(duì)性設(shè)計(jì)了一套資產(chǎn)級(jí)優(yōu)化策略

      具體來(lái)看,團(tuán)隊(duì)先借助GPT-4o識(shí)別出場(chǎng)景中可承載小物件的容器類(lèi)資產(chǎn),例如桌子、書(shū)架等載體,再通過(guò)基于網(wǎng)格的表面檢測(cè)技術(shù),精準(zhǔn)定位這些載體上適合放置物品的有效區(qū)域。

      隨后,團(tuán)隊(duì)引入擅長(zhǎng)像素級(jí)精細(xì)推理的視覺(jué)語(yǔ)言模型Molmo-7B,進(jìn)一步確定小物體的具體放置像素點(diǎn),并通過(guò)3D射線轉(zhuǎn)換,將像素位置換算為高精度的3D空間坐標(biāo)

      結(jié)合碰撞檢測(cè)技術(shù),3D-GENERALIST最終實(shí)現(xiàn)如把書(shū)擺到桌上、把筆放在書(shū)上這類(lèi)貼合現(xiàn)實(shí)邏輯的交互效果。


      此外,3D-GENERALIST背后還有3大關(guān)鍵技術(shù)做支撐:

      首先研究團(tuán)隊(duì)引入了自改進(jìn)微調(diào)機(jī)制,模型在每輪微調(diào)中會(huì)生成多個(gè)候選動(dòng)作序列,通過(guò)CLIP評(píng)分篩選出與文本提示最對(duì)齊的最優(yōu)動(dòng)作,再用該最優(yōu)動(dòng)作對(duì)VLM進(jìn)行監(jiān)督微調(diào),以此提升模型自我修正能力。


      其次,研究團(tuán)隊(duì)還規(guī)范了場(chǎng)景領(lǐng)域特定語(yǔ)言,定義了類(lèi)別、放置位置、材質(zhì)、光照等核心描述符,規(guī)范VLM輸出的動(dòng)作指令格式,確保其與工具API兼容。

      研究團(tuán)隊(duì)使用的上下文庫(kù)收錄能顯著提升CLIP對(duì)齊分?jǐn)?shù)的動(dòng)作代碼片段,生成時(shí)隨機(jī)采樣作為示例,提升動(dòng)作序列的多樣性和有效性。

      三、成績(jī)驗(yàn)證:物理合理性99%,合成數(shù)據(jù)訓(xùn)練效果接近真實(shí)數(shù)據(jù)

      在模擬就緒3D環(huán)境生成任務(wù)中,3D-GENERALIST的3D環(huán)境生成質(zhì)量層級(jí)全面超越LayoutGPT、Holodeck、LayoutVLM等基線方法。

      物理合理性方面,3D-GENERALIST的無(wú)碰撞分?jǐn)?shù)達(dá)99.0,邊界內(nèi)分?jǐn)?shù)達(dá)98.0。語(yǔ)義一致性方面,其位置連貫性和旋轉(zhuǎn)連貫性的分?jǐn)?shù)分別為78.279.1,綜合物理語(yǔ)義對(duì)齊分?jǐn)?shù)達(dá)67.9,遠(yuǎn)高于基線最高值58.8


      經(jīng)3輪自改進(jìn)微調(diào)后,3D-GENERALIST的CLIP分?jǐn)?shù)達(dá)0.275,顯著高于無(wú)微調(diào)版本和無(wú)上下文庫(kù)版本,且能迭代修正場(chǎng)景缺陷。

      資產(chǎn)級(jí)策略生成的場(chǎng)景平均CLIP分?jǐn)?shù)達(dá)0.282,高于基線方法的0.269,可自然實(shí)現(xiàn)小物體的語(yǔ)義對(duì)齊和物理合理放置,避免物體重疊。


      自改進(jìn)微調(diào)技術(shù)的引入還降低了VLM的視覺(jué)幻覺(jué)率,在Object HalBench和AMBER基準(zhǔn)測(cè)試中,微調(diào)后模型的幻覺(jué)相關(guān)指標(biāo)均優(yōu)于原始GPT-4o


      基于3D-GENERALIST生成的合成數(shù)據(jù)預(yù)訓(xùn)練視覺(jué)模型ImageNet-1K Top-1,使用86萬(wàn)條標(biāo)簽訓(xùn)練時(shí),準(zhǔn)確率達(dá)0.731,超過(guò)基于人工構(gòu)建的HyperSim數(shù)據(jù)集。

      當(dāng)標(biāo)簽量擴(kuò)展至1217萬(wàn)條時(shí),ImageNet-1K Top-1準(zhǔn)確率提升至0.776,接近基于50億真實(shí)數(shù)據(jù)訓(xùn)練的模型效果,驗(yàn)證了其在合成數(shù)據(jù)規(guī)模化生成上的優(yōu)勢(shì)。


      四、研究團(tuán)隊(duì):8個(gè)華人,創(chuàng)企CEO、清華姚班天才,還有Qwen實(shí)習(xí)生

      除了研究本身,論文的作者欄也十分引人矚目。

      該篇論文的第一作者Fan-Yun Sun是斯坦福大學(xué)AI實(shí)驗(yàn)室(SAIL)的計(jì)算機(jī)科學(xué)博士生,隸屬于Autonomous Agents Lab和斯坦福視覺(jué)與學(xué)習(xí)實(shí)驗(yàn)室(SVL)。


      在讀博期間,他也深度參與了英偉達(dá)研究院的工作,曾效力于學(xué)習(xí)與感知研究組、Metropolis深度學(xué)習(xí)(Omniverse)以及自動(dòng)駕駛汽車(chē)研究組。

      他的研究興趣主要在于生成具身環(huán)境與數(shù)據(jù),用于訓(xùn)練機(jī)器人和強(qiáng)化學(xué)習(xí)策略,致力于推動(dòng)具身、多模態(tài)基礎(chǔ)模型及其推理能力的發(fā)展。

      此外,他還創(chuàng)辦了AI游戲公司Moonlake,是一家專(zhuān)注于交互式世界構(gòu)建的前沿人工智能實(shí)驗(yàn)室,融合了多模態(tài)推理和世界建模。

      該創(chuàng)企此前已從Threshold Ventures、AIX Ventures和NVentureS(NVIDIA的風(fēng)險(xiǎn)投資部門(mén))籌集了2800萬(wàn)美元(約合人民幣1.95億元)的種子資金。


      第二作者Shengguang Wu目前是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士生,在北京大學(xué)獲得碩士學(xué)位。


      他此前曾在Qwen團(tuán)隊(duì)擔(dān)任研究實(shí)習(xí)生,并且參與了Qwen 1的研究工作。


      吳佳俊是斯坦福大學(xué)計(jì)算機(jī)科學(xué)和心理學(xué)的助理教授。2014年他從清華大學(xué)交叉信息研究院“姚班”本科畢業(yè),師從屠卓文(Zhuowen Tu)教授。在校期間,他曾三年都是年級(jí)名次第一,還擔(dān)任了世界頂級(jí)的計(jì)算機(jī)視覺(jué)會(huì)議CVPR審稿人。


      吳佳俊博士畢業(yè)于麻省理工學(xué)院,導(dǎo)師是Bill Freeman和Josh Tenenbaum。在加入斯坦福大學(xué)之前,他曾是谷歌Research的客座研究員,和Noah Snavely一起工作。

      目前,他的團(tuán)隊(duì)致力于物理場(chǎng)景理解研究——即構(gòu)建能夠觀察、推理并與物理世界互動(dòng)的智能機(jī)器,以及以下方面:

      1、基于視覺(jué)、聽(tīng)覺(jué)與觸覺(jué)信號(hào)的多模態(tài)感知(如物體文件夾、真實(shí)影響力項(xiàng)目)

      2、四維物理世界的視覺(jué)生成(如三維生成對(duì)抗網(wǎng)絡(luò)、π生成對(duì)抗網(wǎng)絡(luò)、點(diǎn)體素?cái)U(kuò)散模型、SDEdit圖像編輯、奇幻世界)

      3、通過(guò)物理概念基底的視覺(jué)推理(常采用神經(jīng)符號(hào)化方法,如神經(jīng)符號(hào)視覺(jué)問(wèn)答、形狀程序、動(dòng)態(tài)視覺(jué)推理數(shù)據(jù)集、邏輯視覺(jué)推理框架)

      4、運(yùn)用習(xí)得物理場(chǎng)景表征的機(jī)器人學(xué)與具身人工智能(如機(jī)器人廚師、行為模擬平臺(tái))。

      Shangru Li目前是英偉達(dá)公司的高級(jí)系統(tǒng)軟件工程師,之前曾在騰訊有過(guò)工作經(jīng)歷。

      他2019年本科畢業(yè)于廣東外語(yǔ)外貿(mào)大學(xué)的計(jì)算機(jī)軟件工程專(zhuān)業(yè),在大三的時(shí)候,其曾在騰訊實(shí)習(xí)。2021年,Shangru Li于美國(guó)賓夕法尼亞大學(xué)的計(jì)算機(jī)圖形學(xué)和游戲技術(shù)專(zhuān)業(yè)碩士畢業(yè),此后便一直在英偉達(dá)工作。


      此外,還有4位華人研究員參與其中,分別為Haoming Zou、Yu-Hsin Chou、Ethem Can以及Xunlei Wu。

      結(jié)語(yǔ):模型與機(jī)器人訓(xùn)練成本或?qū)⑦M(jìn)一步降低

      3D-GENERALIST將傳統(tǒng)分離的建模、布局、材質(zhì)、光照等環(huán)節(jié)整合為統(tǒng)一的決策序列,并通過(guò)自改進(jìn)機(jī)制賦予AI自我改錯(cuò)的能力。

      這不僅顯著提升了復(fù)雜3D場(chǎng)景的構(gòu)建效率與物理合理性,更關(guān)鍵的是,其驗(yàn)證了高質(zhì)量合成數(shù)據(jù)規(guī)模化替代人工標(biāo)注的可行性,將有望降低下游視覺(jué)與機(jī)器人模型訓(xùn)練的成本門(mén)檻。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      震驚 國(guó)家再三警告成耳旁風(fēng) 北海道暴雪困國(guó)人 巨嬰行為讓國(guó)家蒙羞

      震驚 國(guó)家再三警告成耳旁風(fēng) 北海道暴雪困國(guó)人 巨嬰行為讓國(guó)家蒙羞

      瓜哥的動(dòng)物日記
      2026-02-03 08:05:49
      響水月港大橋垮塌已造成2人死亡3人失聯(lián),該橋曾力爭(zhēng)9月份建成通車(chē),目前航段已臨時(shí)封航

      響水月港大橋垮塌已造成2人死亡3人失聯(lián),該橋曾力爭(zhēng)9月份建成通車(chē),目前航段已臨時(shí)封航

      極目新聞
      2026-02-03 07:04:37
      投資圈大佬去世!年僅40歲,坊間流傳死因或與黃金白銀暴跌有關(guān)

      投資圈大佬去世!年僅40歲,坊間流傳死因或與黃金白銀暴跌有關(guān)

      火山詩(shī)話
      2026-02-03 09:11:09
      愛(ài)潑斯坦案文件再度曝光,各國(guó)政要都有哪些被“拉下水”?

      愛(ài)潑斯坦案文件再度曝光,各國(guó)政要都有哪些被“拉下水”?

      上游新聞
      2026-02-03 15:13:08
      日經(jīng)225指數(shù)漲幅擴(kuò)大至3%,最新報(bào)54233.93點(diǎn)

      日經(jīng)225指數(shù)漲幅擴(kuò)大至3%,最新報(bào)54233.93點(diǎn)

      每日經(jīng)濟(jì)新聞
      2026-02-03 09:29:09
      中紀(jì)委在2026年放大招!劍指7大領(lǐng)域,這類(lèi)人員都別想逃!

      中紀(jì)委在2026年放大招!劍指7大領(lǐng)域,這類(lèi)人員都別想逃!

      細(xì)說(shuō)職場(chǎng)
      2026-02-03 16:03:16
      日本宣布從南鳥(niǎo)島海域成功采掘到含稀土的淤泥,外交部回應(yīng)

      日本宣布從南鳥(niǎo)島海域成功采掘到含稀土的淤泥,外交部回應(yīng)

      環(huán)球網(wǎng)資訊
      2026-02-03 14:29:17
      太狠了!95后小伙為降血脂,從上海徒步1400公里回恩施老家過(guò)年…

      太狠了!95后小伙為降血脂,從上海徒步1400公里回恩施老家過(guò)年…

      火山詩(shī)話
      2026-02-03 15:54:11
      最新公布愛(ài)潑斯坦蘿莉島文件完整梳理:嬰兒被肢解、案板有人腿太駭人

      最新公布愛(ài)潑斯坦蘿莉島文件完整梳理:嬰兒被肢解、案板有人腿太駭人

      不二表姐
      2026-02-02 23:32:35
      摳到家了!20萬(wàn)的比亞迪都是1000V了,30萬(wàn)的特斯拉還是400V?

      摳到家了!20萬(wàn)的比亞迪都是1000V了,30萬(wàn)的特斯拉還是400V?

      少數(shù)派報(bào)告Report
      2026-02-02 09:34:44
      精神病院騙保內(nèi)幕:收正常人住院,有人進(jìn)不來(lái)自殺

      精神病院騙保內(nèi)幕:收正常人住院,有人進(jìn)不來(lái)自殺

      剝洋蔥people
      2026-02-03 08:21:38
      貴陽(yáng)男子花40多萬(wàn)買(mǎi)理想SUV,開(kāi)了沒(méi)多久三個(gè)車(chē)門(mén)飾板全變色!4S店回應(yīng)

      貴陽(yáng)男子花40多萬(wàn)買(mǎi)理想SUV,開(kāi)了沒(méi)多久三個(gè)車(chē)門(mén)飾板全變色!4S店回應(yīng)

      瀟湘晨報(bào)
      2026-02-03 18:01:28
      油價(jià)今晚上調(diào),加滿(mǎn)1箱油將多花8元

      油價(jià)今晚上調(diào),加滿(mǎn)1箱油將多花8元

      界面新聞
      2026-02-03 16:57:40
      8000元相親餐男子尿遁逃單!女子被迫買(mǎi)單,婚介甩鍋:與我們無(wú)關(guān)

      8000元相親餐男子尿遁逃單!女子被迫買(mǎi)單,婚介甩鍋:與我們無(wú)關(guān)

      今朝牛馬
      2026-02-01 21:14:04
      震動(dòng)全美!克林頓夫婦同意作證,極其罕見(jiàn)

      震動(dòng)全美!克林頓夫婦同意作證,極其罕見(jiàn)

      浙江之聲
      2026-02-03 16:56:26
      李亞鵬1188元茶葉賣(mài)出1.6億,老板紅溫的樣子走紅網(wǎng)絡(luò)

      李亞鵬1188元茶葉賣(mài)出1.6億,老板紅溫的樣子走紅網(wǎng)絡(luò)

      映射生活的身影
      2026-02-02 22:02:15
      周生生足金掛墜戴一天就被刮花,檢測(cè)后發(fā)現(xiàn)含鐵、銀、鈀

      周生生足金掛墜戴一天就被刮花,檢測(cè)后發(fā)現(xiàn)含鐵、銀、鈀

      都市快報(bào)橙柿互動(dòng)
      2026-02-02 22:03:00
      夫妻網(wǎng)購(gòu)?fù)尥薏酥卸敬蠓崔D(zhuǎn)!是丈夫投毒,對(duì)妻子滅口,商家被坑慘

      夫妻網(wǎng)購(gòu)?fù)尥薏酥卸敬蠓崔D(zhuǎn)!是丈夫投毒,對(duì)妻子滅口,商家被坑慘

      離離言幾許
      2026-02-03 15:12:39
      夫妻網(wǎng)購(gòu)?fù)尥薏耸秤弥卸鞠嫡煞蛳露荆饲霸ń邮苊襟w采訪

      夫妻網(wǎng)購(gòu)?fù)尥薏耸秤弥卸鞠嫡煞蛳露荆饲霸ń邮苊襟w采訪

      可達(dá)鴨面面觀
      2026-02-03 14:12:43
      中國(guó)成功研制出一款星鏈干擾器

      中國(guó)成功研制出一款星鏈干擾器

      跟著老李看世界
      2026-02-03 00:02:33
      2026-02-03 20:04:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
      11175文章數(shù) 116956關(guān)注度
      往期回顧 全部

      科技要聞

      1.25萬(wàn)億美元!xAI員工贏麻了

      頭條要聞

      浙江一對(duì)夫妻"網(wǎng)購(gòu)?fù)尥薏酥卸?:合謀意圖騙賠

      頭條要聞

      浙江一對(duì)夫妻"網(wǎng)購(gòu)?fù)尥薏酥卸?:合謀意圖騙賠

      體育要聞

      “也許我的一小步,會(huì)成為中國(guó)足球的一大步”

      娛樂(lè)要聞

      小S致詞:感謝具俊曄陪伴大S的最后3年

      財(cái)經(jīng)要聞

      中央一號(hào)文件:扎實(shí)推進(jìn)鄉(xiāng)村全面振興

      汽車(chē)要聞

      上汽決定不再等那個(gè)“正確答案”了

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      時(shí)尚
      手機(jī)
      公開(kāi)課

      本地新聞

      云游中國(guó)|撥開(kāi)云霧,巫山每幀都是航拍大片

      數(shù)碼要聞

      冬季加濕器推薦,看德業(yè)無(wú)霧加濕器F15 Pro如何解決白粉和二次污染

      冬天還是“羽絨服”最保暖!看看這些穿搭,簡(jiǎn)單舒適又不老氣

      手機(jī)要聞

      掌機(jī)電池“縮水”背后,官方補(bǔ)償了一臺(tái)新機(jī)

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版