中科大與騰訊聯(lián)手突破：單照片生成超精細(xì)3D模型

2025-12-10 20:58:49　來源: 科技行者

北京舉報

分享至

想象一下，你只需要拿出手機(jī)拍一張照片，AI就能為你生成一個精美的三維模型——這聽起來像是科幻電影里的情節(jié)，但現(xiàn)在已經(jīng)成為現(xiàn)實(shí)。由香港中文大學(xué)MMLab實(shí)驗(yàn)室與騰訊混元團(tuán)隊(duì)合作完成的這項(xiàng)研究，于2025年11月24日發(fā)表在計(jì)算機(jī)圖形學(xué)頂級會議arXiv上，論文編號為2512.03052v1。這項(xiàng)名為LATTICE的突破性技術(shù)，正在徹底改變我們對3D內(nèi)容創(chuàng)作的認(rèn)知。

研究團(tuán)隊(duì)由來自香港中文大學(xué)MMLab的賴澤強(qiáng)、余湘宇教授，以及騰訊混元團(tuán)隊(duì)的趙云飛、趙梓博、劉浩林、林清祥、黃靖煒、郭春超等多位專家組成。他們聯(lián)手攻克了困擾業(yè)界多年的難題：如何讓AI既能生成高質(zhì)量的3D模型，又能像2D圖像生成那樣高效可擴(kuò)展。

要理解這項(xiàng)研究的重要性，我們可以把3D建模比作雕刻藝術(shù)。傳統(tǒng)的3D建模就像用鑿子一點(diǎn)點(diǎn)雕刻大理石，需要藝術(shù)家有深厚的技藝和大量時間。而現(xiàn)有的AI 3D生成技術(shù)，雖然能自動"雕刻"，但要么雕出來的作品粗糙簡陋，要么需要消耗巨大的計(jì)算資源，效率低下。研究團(tuán)隊(duì)要解決的核心問題是：能否讓AI既雕得精細(xì)，又雕得快速？

這個問題的癥結(jié)在于3D世界和2D世界的本質(zhì)差異。在2D圖像生成中，AI就像在固定的畫布上作畫——每個像素的位置都是確定的，AI只需要決定每個位置畫什么顏色。但在3D世界里，AI不僅要決定在哪里放置內(nèi)容，還要決定放什么內(nèi)容，這就像同時決定雕刻的位置和雕刻的形狀，難度呈指數(shù)級增長。

一、VoxSet：給3D數(shù)據(jù)裝上"GPS定位系統(tǒng)"

解決這個難題的關(guān)鍵，研究團(tuán)隊(duì)提出了一個巧妙的創(chuàng)新——VoxSet表示方法。如果把傳統(tǒng)的3D數(shù)據(jù)比作散落在地上的拼圖塊，那么VoxSet就是給每個拼圖塊裝上了"GPS定位系統(tǒng)"。

在傳統(tǒng)方法中，AI處理3D數(shù)據(jù)時就像在黑暗中摸索拼圖。以往有兩種主要方法：一種叫VecSet，就像把所有拼圖塊放在一個袋子里，雖然緊湊但找起來很麻煩；另一種叫稀疏體素，就像把拼圖塊按網(wǎng)格整齊擺放，位置清楚但占地太大。

VoxSet巧妙地結(jié)合了兩者的優(yōu)點(diǎn)。它的工作原理類似于快遞分揀系統(tǒng)：首先用一個粗略的網(wǎng)格將3D空間劃分成若干區(qū)域，就像快遞站的分揀區(qū)；然后將詳細(xì)的3D信息壓縮成緊湊的"信息包"，并將這些包分配到對應(yīng)的網(wǎng)格位置。這樣，AI在生成3D模型時，既知道每個"信息包"的具體位置，又能高效地處理壓縮后的數(shù)據(jù)。

這種設(shè)計(jì)帶來了三個顯著優(yōu)勢。首先是靈活的分辨率：就像數(shù)碼相機(jī)可以拍攝不同分辨率的照片，VoxSet可以根據(jù)需要生成不同精細(xì)度的3D模型，而不需要重新訓(xùn)練。其次是結(jié)構(gòu)化指導(dǎo)：每個數(shù)據(jù)塊都有明確的空間位置信息，AI生成時就像有了詳細(xì)的施工圖紙。最后是測試時擴(kuò)展：訓(xùn)練時用較少的數(shù)據(jù)塊，測試時可以使用更多數(shù)據(jù)塊來獲得更精細(xì)的結(jié)果，就像用低成本訓(xùn)練出的模型，在實(shí)際使用時能發(fā)揮出更強(qiáng)的性能。

二、兩階段流水線：從草圖到精雕細(xì)琢

LATTICE采用了一個巧妙的兩階段生成流水線，就像藝術(shù)家創(chuàng)作雕塑的過程：先勾勒出大致輪廓，再精雕細(xì)節(jié)。

第一階段是"結(jié)構(gòu)生成"，就像畫家先用鉛筆勾勒草圖。系統(tǒng)使用現(xiàn)有的3D生成模型（如Hunyuan3D-2或Trellis）從輸入圖片生成一個粗糙的3D結(jié)構(gòu)，然后將這個結(jié)構(gòu)轉(zhuǎn)化為稀疏的體素網(wǎng)格。這個過程類似于建筑師先畫出房屋的框架圖，確定主要的空間布局和結(jié)構(gòu)要素。

第二階段是"精細(xì)幾何生成"，這是LATTICE的核心創(chuàng)新所在。系統(tǒng)使用專門設(shè)計(jì)的VoxSet變分自編碼器（VAE）和擴(kuò)散Transformer來生成詳細(xì)的幾何信息。這個過程就像雕刻家在已有的石塊輪廓基礎(chǔ)上，精心雕琢每一個細(xì)節(jié)——從粗糙的表面雕出精美的紋理，從簡單的形狀塑造出復(fù)雜的結(jié)構(gòu)。

整個流水線的巧妙之處在于分工明確：第一階段專注解決"在哪里生成"的問題，提供空間結(jié)構(gòu)指導(dǎo)；第二階段專注解決"生成什么"的問題，在已知位置上創(chuàng)造精美細(xì)節(jié)。這種設(shè)計(jì)不僅提高了生成質(zhì)量，還大大降低了計(jì)算成本，因?yàn)槊總€階段都在做自己最擅長的事情。

三、技術(shù)架構(gòu)：智能與效率的完美結(jié)合

LATTICE的技術(shù)架構(gòu)就像一座精心設(shè)計(jì)的現(xiàn)代工廠，每個組件都有明確的分工，整體運(yùn)作高效協(xié)調(diào)。

VoxSet VAE是這個"工廠"的核心壓縮設(shè)備。它的工作原理類似于高級壓縮機(jī)：將復(fù)雜的3D幾何信息壓縮成緊湊的向量序列，同時保持重要信息不丟失。與傳統(tǒng)方法不同，VoxSet VAE使用"體素查詢"而不是"點(diǎn)查詢"。這就像從隨機(jī)抽樣改為按網(wǎng)格有序抽樣，確保每個查詢都有明確的空間對應(yīng)關(guān)系。

擴(kuò)散Transformer則是"工廠"的智能裝配線。它接收壓縮后的數(shù)據(jù)，通過多層注意力機(jī)制逐步"去噪"生成最終結(jié)果。關(guān)鍵創(chuàng)新在于加入了旋轉(zhuǎn)位置編碼（RoPE），這就像給裝配工人提供了詳細(xì)的位置指引圖，確保每個零件都能精確安裝到正確位置。

訓(xùn)練策略采用漸進(jìn)式方法，就像學(xué)習(xí)技能的自然過程。系統(tǒng)首先用較少的數(shù)據(jù)塊進(jìn)行預(yù)訓(xùn)練，就像學(xué)生先學(xué)基礎(chǔ)知識；然后逐步增加數(shù)據(jù)塊數(shù)量，就像逐漸學(xué)習(xí)更復(fù)雜的內(nèi)容。這種方式不僅降低了訓(xùn)練成本，還提高了最終性能。

圖像條件化使用DINOv2-Giant編碼器，將輸入圖像轉(zhuǎn)換為高維特征表示。這個過程類似于翻譯，將2D視覺信息翻譯成3D生成器能理解的"語言"。系統(tǒng)使用1022×1022的高分辨率圖像，并通過二值掩碼精確裁剪對象，確保生成的3D模型與輸入圖像高度一致。

四、突破性實(shí)驗(yàn)結(jié)果：數(shù)據(jù)說話的實(shí)力證明

實(shí)驗(yàn)結(jié)果就像一場精彩的比武大會，LATTICE在各個項(xiàng)目上都展現(xiàn)出了壓倒性優(yōu)勢。

在重建質(zhì)量測試中，研究團(tuán)隊(duì)構(gòu)建了名為LATTICE-Bench(R)的具挑戰(zhàn)性基準(zhǔn)數(shù)據(jù)集，包含大量復(fù)雜精細(xì)的3D資產(chǎn)。結(jié)果顯示，LATTICE在保持緊湊表示的同時，實(shí)現(xiàn)了最佳的重建性能。具體來說，使用64×8192個token時，倒角距離（衡量幾何精度的指標(biāo)）僅為2.909×10^-4，F(xiàn)-score達(dá)到98.53，顯著超越了所有對比方法。

在生成質(zhì)量評估中，LATTICE與多個先進(jìn)方法進(jìn)行了全面對比，包括開源方法Michelangelo、Craftsman 1.5、Trellis、Hunyuan3D-2、Hi3DGen和Direct3D-s2。評估使用ULIP和Uni3D等多個權(quán)威指標(biāo)，結(jié)果顯示LATTICE-1.9B在所有指標(biāo)上都達(dá)到或接近最佳性能。更重要的是，視覺對比顯示LATTICE生成的模型在細(xì)節(jié)豐富度、表面光滑度和整體質(zhì)量方面都明顯優(yōu)于競爭對手。

模型擴(kuò)展性實(shí)驗(yàn)證實(shí)了LATTICE的強(qiáng)大潛力。從0.6B參數(shù)到4.5B參數(shù)，模型性能持續(xù)提升，生成的3D模型細(xì)節(jié)越來越豐富。更令人興奮的是測試時擴(kuò)展能力：訓(xùn)練時使用最多6144個token的模型，在測試時可以直接擴(kuò)展到12288、24576甚至更多token，生成質(zhì)量隨token數(shù)量增加而持續(xù)改善。

用戶研究結(jié)果更是令人印象深刻。在與四個商業(yè)模型的對比中，LATTICE在整體質(zhì)量、主體建模和場景生成三個維度上都獲得了顯著優(yōu)勢，勝率分別達(dá)到23.1%、26.1%和58.6%。這意味著在大多數(shù)情況下，普通用戶都能明顯感受到LATTICE生成結(jié)果的優(yōu)越性。

五、技術(shù)細(xì)節(jié)：工程實(shí)現(xiàn)的智慧結(jié)晶

LATTICE的成功不僅在于理論創(chuàng)新，更在于工程實(shí)現(xiàn)的精妙設(shè)計(jì)。整個系統(tǒng)就像一臺精密的瑞士手表，每個組件都經(jīng)過精心調(diào)校。

數(shù)據(jù)處理流水線包含三個關(guān)鍵步驟：數(shù)據(jù)過濾、水密化處理和點(diǎn)云采樣。數(shù)據(jù)過濾階段嚴(yán)格篩選高質(zhì)量資產(chǎn)，剔除AI生成、掃描獲得、過于復(fù)雜的場景以及平面化資產(chǎn)，確保訓(xùn)練數(shù)據(jù)的質(zhì)量。水密化處理解決了網(wǎng)格模型的拓?fù)鋯栴}，就像修補(bǔ)漏水的容器。點(diǎn)云采樣結(jié)合了表面均勻采樣和尖銳邊緣重點(diǎn)采樣，確保既捕獲整體形狀又保留重要細(xì)節(jié)。

訓(xùn)練配置采用多尺度漸進(jìn)策略。系統(tǒng)首先在1024個token上預(yù)訓(xùn)練，然后逐步擴(kuò)展到6144個token。每個階段使用恒定學(xué)習(xí)率配合線性預(yù)熱，基礎(chǔ)學(xué)習(xí)率從1×10^-4逐漸降低到1×10^-6。批大小根據(jù)GPU內(nèi)存最大化，在實(shí)驗(yàn)中達(dá)到2048。系統(tǒng)使用ZeRO優(yōu)化器實(shí)現(xiàn)分布式訓(xùn)練，支持在多GPU集群上高效訓(xùn)練大規(guī)模模型。

模型架構(gòu)基于rectified flow matching目標(biāo)，采用線性耦合方案。為支持classifier-free guidance，訓(xùn)練時以10%的概率將條件嵌入替換為零嵌入。這種設(shè)計(jì)讓系統(tǒng)在推理時可以靈活調(diào)節(jié)生成結(jié)果與條件圖像的符合程度。

后期優(yōu)化包含兩個重要環(huán)節(jié)。高質(zhì)量微調(diào)使用約15000個精選樣本進(jìn)行額外訓(xùn)練，這些樣本根據(jù)面數(shù)、尖銳邊數(shù)和重建質(zhì)量等多個標(biāo)準(zhǔn)篩選而出。模型加速采用FlashVDM技術(shù)加速幾何VAE解碼，并通過引導(dǎo)蒸餾和步驟蒸餾進(jìn)一步降低采樣成本，實(shí)現(xiàn)實(shí)用化部署。

六、應(yīng)用前景：從研究到產(chǎn)業(yè)的無限可能

LATTICE的應(yīng)用前景就像一個不斷擴(kuò)展的生態(tài)系統(tǒng)，從核心技術(shù)向各個領(lǐng)域輻射影響。

在內(nèi)容創(chuàng)作領(lǐng)域，LATTICE將徹底改變傳統(tǒng)工作流程。游戲開發(fā)者不再需要花費(fèi)大量時間手工建模，只需提供概念圖就能快速獲得高質(zhì)量3D資產(chǎn)。影視制作團(tuán)隊(duì)可以用它快速構(gòu)建場景原型，大大縮短前期制作周期。建筑師和工業(yè)設(shè)計(jì)師能夠?qū)⒉輬D瞬間轉(zhuǎn)化為三維模型，加速設(shè)計(jì)迭代過程。

電商和虛擬展示正迎來革命性改變。商家只需拍攝產(chǎn)品照片，就能自動生成3D模型用于在線展示。消費(fèi)者可以從各個角度查看商品，甚至在虛擬環(huán)境中試用，購物體驗(yàn)將更加直觀真實(shí)。博物館和文化機(jī)構(gòu)可以輕松數(shù)字化珍貴文物，創(chuàng)建虛擬展覽和教育內(nèi)容。

虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用將獲得強(qiáng)大的內(nèi)容生成引擎。VR游戲和元宇宙平臺可以快速創(chuàng)建豐富的虛擬世界，用戶生成內(nèi)容變得前所未有地簡單。AR應(yīng)用能夠?qū)崟r將現(xiàn)實(shí)物體轉(zhuǎn)換為數(shù)字化模型，支持更豐富的交互體驗(yàn)。

教育培訓(xùn)領(lǐng)域也將受益匪淺。教師可以輕松創(chuàng)建3D教學(xué)模型，讓抽象概念變得直觀可見。學(xué)生可以從平面圖片快速構(gòu)建立體模型，增強(qiáng)空間想象能力。專業(yè)培訓(xùn)可以快速構(gòu)建仿真環(huán)境，提供更安全、更經(jīng)濟(jì)的學(xué)習(xí)平臺。

然而，技術(shù)的普及也帶來新的挑戰(zhàn)。知識產(chǎn)權(quán)保護(hù)變得更加復(fù)雜，因?yàn)閺乃苏掌?D模型的門檻大幅降低。內(nèi)容真實(shí)性驗(yàn)證面臨新考驗(yàn)，需要新的技術(shù)手段區(qū)分原創(chuàng)和生成內(nèi)容。計(jì)算資源需求雖然相比傳統(tǒng)方法大幅降低，但仍需要進(jìn)一步優(yōu)化以實(shí)現(xiàn)真正的普及化應(yīng)用。

七、技術(shù)影響：重新定義3D內(nèi)容創(chuàng)作的未來

LATTICE的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身，它正在重新定義3D內(nèi)容創(chuàng)作的整個生態(tài)。就像數(shù)碼相機(jī)革命性地改變了攝影行業(yè)，LATTICE也將引發(fā)3D建模領(lǐng)域的深刻變革。

在技術(shù)層面，LATTICE證明了"結(jié)構(gòu)化指導(dǎo)"的關(guān)鍵作用。這個發(fā)現(xiàn)將影響未來3D生成模型的設(shè)計(jì)思路，推動行業(yè)從"表示優(yōu)先"轉(zhuǎn)向"生成優(yōu)先"的理念。VoxSet表示方法為后續(xù)研究提供了新的基礎(chǔ)框架，預(yù)計(jì)將衍生出更多創(chuàng)新應(yīng)用。

產(chǎn)業(yè)格局正在發(fā)生微妙變化。傳統(tǒng)3D建模軟件公司需要重新思考產(chǎn)品定位，從純工具提供商轉(zhuǎn)向智能輔助平臺。新興AI公司獲得了切入傳統(tǒng)建模市場的機(jī)會。內(nèi)容創(chuàng)作的門檻大幅降低，可能催生新的商業(yè)模式和創(chuàng)作生態(tài)。

人才需求結(jié)構(gòu)也在調(diào)整。純技術(shù)性的建模工作可能被AI取代，但創(chuàng)意構(gòu)思、藝術(shù)指導(dǎo)和質(zhì)量把控的重要性進(jìn)一步凸顯。未來的3D藝術(shù)家需要更強(qiáng)的創(chuàng)意能力和AI工具使用技能，而非單純的技術(shù)操作熟練度。

研究方向的啟示同樣重要。LATTICE的成功表明，有效的條件信息比復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)更關(guān)鍵。這個發(fā)現(xiàn)可能推動AI研究重心從"如何設(shè)計(jì)更復(fù)雜的模型"轉(zhuǎn)向"如何提供更有效的指導(dǎo)信息"。位置編碼和結(jié)構(gòu)化表示的重要性得到驗(yàn)證，將影響多模態(tài)生成模型的未來發(fā)展。

更廣闊的社會影響正在顯現(xiàn)。數(shù)字化門檻的降低將推動更多傳統(tǒng)行業(yè)擁抱數(shù)字化轉(zhuǎn)型。虛擬資產(chǎn)的創(chuàng)建成本大幅下降，可能催生新的數(shù)字經(jīng)濟(jì)形態(tài)。個人創(chuàng)作者獲得了以往只有專業(yè)團(tuán)隊(duì)才具備的內(nèi)容生產(chǎn)能力，創(chuàng)意經(jīng)濟(jì)的參與門檻進(jìn)一步降低。

說到底，LATTICE不僅僅是一個技術(shù)突破，更是一個時代轉(zhuǎn)折點(diǎn)的象征。它預(yù)示著我們正在進(jìn)入一個新的創(chuàng)作時代——在這個時代里，創(chuàng)意的價值將超越技術(shù)的復(fù)雜性，任何人都能將想象轉(zhuǎn)化為精美的三維現(xiàn)實(shí)。就像智能手機(jī)讓每個人都能成為攝影師一樣，LATTICE正在讓每個人都能成為3D藝術(shù)家。

這項(xiàng)研究的完整論文可以通過arXiv編號2512.03052v1查閱，感興趣的讀者不妨深入了解其技術(shù)細(xì)節(jié)。隨著技術(shù)的不斷成熟和普及，我們有理由相信，在不遠(yuǎn)的將來，從照片到3D模型的轉(zhuǎn)換將像拍照一樣簡單自然，成為我們數(shù)字生活中不可或缺的一部分。

Q&A

Q1：LATTICE技術(shù)相比傳統(tǒng)3D建模方法有什么優(yōu)勢？

A：LATTICE最大的優(yōu)勢是只需要一張照片就能生成高質(zhì)量3D模型，而傳統(tǒng)方法需要專業(yè)技能和大量時間。它結(jié)合了VecSet方法的高效壓縮和稀疏體素方法的空間結(jié)構(gòu)優(yōu)勢，實(shí)現(xiàn)了質(zhì)量、效率和可擴(kuò)展性的完美平衡。更重要的是，LATTICE支持測試時擴(kuò)展，訓(xùn)練成本低但實(shí)際應(yīng)用時能獲得更精細(xì)的結(jié)果。

Q2：VoxSet表示方法解決了什么關(guān)鍵問題？

A：VoxSet解決了3D生成中"在哪里放置內(nèi)容"和"放置什么內(nèi)容"的雙重難題。它通過將3D信息錨定到粗糙的體素網(wǎng)格上，為每個數(shù)據(jù)塊提供明確的空間位置信息，就像給拼圖塊裝上GPS定位系統(tǒng)。這樣AI在生成時既知道位置又能高效處理數(shù)據(jù)，避免了傳統(tǒng)方法中結(jié)構(gòu)混亂或計(jì)算成本過高的問題。

Q3：普通用戶什么時候能使用LATTICE技術(shù)？

A：目前LATTICE還在研究階段，但考慮到騰訊混元團(tuán)隊(duì)的產(chǎn)業(yè)化能力，預(yù)計(jì)不久后會有相關(guān)產(chǎn)品面世。隨著計(jì)算成本進(jìn)一步降低和模型優(yōu)化，這類技術(shù)最終會集成到各種應(yīng)用中，比如手機(jī)拍照應(yīng)用、電商平臺、游戲開發(fā)工具等，讓普通用戶能夠輕松體驗(yàn)從照片到3D模型的神奇轉(zhuǎn)換。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.