模擬真實世界:多模態(tài)生成模型的統(tǒng)一綜述
Simulating the Real World: A Unified Survey of Multimodal Generative Models
https://arxiv.org/pdf/2503.04641
![]()
摘要
——理解和復(fù)現(xiàn)現(xiàn)實世界是通用人工智能(AGI)研究中的一項關(guān)鍵挑戰(zhàn)。為實現(xiàn)這一目標(biāo),許多現(xiàn)有方法(如世界模型)試圖捕捉支配物理世界的基本原理,從而實現(xiàn)更精確的模擬和有意義的交互。然而,當(dāng)前方法通常將不同模態(tài)(包括2D圖像、視頻、3D和4D表征)視為獨立領(lǐng)域,忽視了它們之間的相互依賴關(guān)系。此外,這些方法往往聚焦于現(xiàn)實的孤立維度,未能系統(tǒng)性地整合各維度之間的關(guān)聯(lián)。在本綜述中,我們對多模態(tài)生成模型進(jìn)行了統(tǒng)一梳理,重點考察其在真實世界模擬中數(shù)據(jù)維度演進(jìn)的脈絡(luò)。具體而言,本綜述從2D生成(外觀)出發(fā),逐步推進(jìn)到視頻生成(外觀+動態(tài))、3D生成(外觀+幾何),最終達(dá)到融合所有維度的4D生成。據(jù)我們所知,這是首次嘗試在單一框架內(nèi)系統(tǒng)性地統(tǒng)一2D、視頻、3D和4D生成的研究。為指導(dǎo)未來研究,我們?nèi)婊仡櫫讼嚓P(guān)數(shù)據(jù)集、評估指標(biāo)及未來方向,以幫助新進(jìn)入者獲得深入見解。本綜述旨在搭建一座橋梁,推動多模態(tài)生成模型與真實世界模擬在統(tǒng)一框架下的發(fā)展。
關(guān)鍵詞—生成模型,圖像生成,視頻生成,3D生成,4D生成,深度學(xué)習(xí),文獻(xiàn)綜述。
I. 引言
數(shù)十年來,研究界一直致力于開發(fā)能夠封裝物理世界基本原理的系統(tǒng),這是通向通用人工智能(AGI)[1] 之路的基石。這一努力的核心在于用機(jī)器模擬現(xiàn)實世界,通過多模態(tài)生成模型的視角捕捉現(xiàn)實的復(fù)雜性。由此構(gòu)建的“世界模擬器”有望深化對真實世界的理解,并催生變革性應(yīng)用,如虛擬現(xiàn)實 [2]、游戲 [3]、機(jī)器人 [4] 和自動駕駛 [5]。
“世界模擬器”一詞最早由 Ha David [6] 提出,其靈感源自認(rèn)知科學(xué)中的“心智模型”(mental model)[7] 概念。在此基礎(chǔ)上,現(xiàn)代研究者 [8] 將該模擬器形式化為一個抽象框架,使智能系統(tǒng)能夠通過多模態(tài)生成模型模擬現(xiàn)實世界。這些模型將現(xiàn)實世界的視覺內(nèi)容與時空動態(tài)編碼為緊湊表征。由于幾何結(jié)構(gòu)、外觀表現(xiàn)和動態(tài)行為共同構(gòu)成了生成內(nèi)容的“真實感”,這三個方面已成為學(xué)界廣泛研究的重點 [9]。
傳統(tǒng)的現(xiàn)實世界模擬方法長期依賴圖形學(xué)技術(shù),整合幾何、紋理與動態(tài)特性:具體而言,通過幾何與紋理建模 [10] 構(gòu)建物體,再借助關(guān)鍵幀動畫 [11] 或基于物理的仿真 [12] 模擬物體隨時間的運動與行為。
盡管取得了顯著進(jìn)展,這些傳統(tǒng)方法通常需要大量人工設(shè)計、啟發(fā)式規(guī)則定義以及計算成本高昂的處理流程,限制了其在多樣化場景中的可擴(kuò)展性與適應(yīng)性。近年來,以數(shù)據(jù)驅(qū)動為核心的學(xué)習(xí)型方法,尤其是多模態(tài)生成模型,徹底革新了內(nèi)容生成方式。這類方法減少了對人工干預(yù)的依賴,提升了跨任務(wù)的泛化能力,并實現(xiàn)了人與模型之間更直觀的交互。例如,Sora [13] 因其逼真的模擬能力廣受關(guān)注,展現(xiàn)出對物理規(guī)律的初步理解。
此類生成模型的出現(xiàn)帶來了全新的視角與方法論:它們通過減少繁重的人工設(shè)計和高成本建模需求,同時增強(qiáng)在多樣模擬場景中的適應(yīng)性與可擴(kuò)展性,有效克服了傳統(tǒng)方法的局限。
盡管現(xiàn)有生成模型在各自的數(shù)據(jù)維度上提供了強(qiáng)大的逼真內(nèi)容合成能力,但現(xiàn)實世界本質(zhì)上具有高維復(fù)雜性。目前仍缺乏一份系統(tǒng)性綜述,將不同維度上的進(jìn)展有機(jī)整合。本文旨在填補(bǔ)這一空白,從數(shù)據(jù)維度增長的視角統(tǒng)一梳理現(xiàn)實世界模擬的研究(如圖1所示):我們從僅包含外觀的2D生成出發(fā),逐步擴(kuò)展至引入動態(tài)特性的視頻生成和引入幾何結(jié)構(gòu)的3D生成,最終融合所有維度,達(dá)到4D生成。
![]()
綜上所述,本綜述做出三項主要貢獻(xiàn):
第一,從數(shù)據(jù)維度演進(jìn)的視角,通過多模態(tài)生成模型系統(tǒng)性地回顧現(xiàn)實世界模擬方法。據(jù)我們所知,這是首個將2D、視頻、3D和4D生成研究統(tǒng)一起來的綜述,為該領(lǐng)域提供了結(jié)構(gòu)清晰且全面的概覽。
第二,全面調(diào)研了常用數(shù)據(jù)集及其特性,并從多角度梳理了相應(yīng)的評估指標(biāo)。
第三,識別了當(dāng)前開放的研究挑戰(zhàn),旨在引導(dǎo)該領(lǐng)域的進(jìn)一步探索。
以往關(guān)于生成模型的綜述通常分別聚焦于文本到圖像、文本到視頻和文本到3D生成,未能深入探討它們之間的內(nèi)在聯(lián)系。相比之下,本綜述通過追蹤生成模型如何從僅處理外觀(2D生成),發(fā)展到融入動態(tài)(視頻生成)和幾何(3D生成),最終在4D生成中整合外觀、動態(tài)與幾何,提供了一個更集成的多模態(tài)生成模型研究視角。這一維度演進(jìn)的框架旨在連接以往孤立的研究方向,并凸顯跨領(lǐng)域的共性挑戰(zhàn)與機(jī)遇。
我們期望本綜述能為初學(xué)者提供寶貴洞見,并激發(fā)資深研究者的批判性思考。全文結(jié)構(gòu)如下:
第二節(jié)介紹深度生成模型的基礎(chǔ)概念;
第三節(jié)闡述四大范式:2D、視頻、3D 和 4D 生成;
第四節(jié)回顧各范式對應(yīng)的數(shù)據(jù)集與評估指標(biāo);
第五節(jié)展望未來研究方向;
第六節(jié)總結(jié)全文。
II. 預(yù)備知識
![]()
![]()
與GAN訓(xùn)練相關(guān)的挑戰(zhàn)有幾個。例如,納什均衡可能并不總是存在[19]或難以實現(xiàn)[20],導(dǎo)致訓(xùn)練不穩(wěn)定。另一個問題是模式崩潰,其中生成器只產(chǎn)生特定類型的樣本,多樣性較低[20],[21]。
![]()
其中d是序列長度。這種分解簡化了多變量密度估計,并已被廣泛采用來順序地對圖像中的像素進(jìn)行建模[23]–[25]。 為了降低標(biāo)準(zhǔn)基于Transformer的AR模型中注意力的二次成本,最近引入了幾種非Transformer架構(gòu)。RWKV [26]、Mamba [27]和RetNet [28]用遞歸或狀態(tài)空間機(jī)制替換或增強(qiáng)注意力。RWKV和Mamba采用純粹的遞歸設(shè)計,保持固定大小的內(nèi)存,在適度的序列長度上提供線性時間推理,但在極端上下文大小下仍面臨挑戰(zhàn)。RetNet通過保留機(jī)制更新隱藏狀態(tài),為全局自注意力提供了一種有效的替代方案。盡管這些架構(gòu)在語言和其他序列任務(wù)上顯示出有希望的結(jié)果,但它們作為深度生成模型的骨干使用仍然有限。將它們整合到生成管道中的未來工作可能會改善樣本質(zhì)量、可擴(kuò)展性和內(nèi)存使用之間的權(quán)衡。
D. 歸一化流(NFs)
NFs使用可逆神經(jīng)網(wǎng)絡(luò)g(·)將z從已知且易于處理的分布映射到真實數(shù)據(jù)分布。通過這種方式,pθ (x)可以被表述為,
![]()
III. 范式
本節(jié)從數(shù)據(jù)維度增長的角度介紹了模擬真實世界的方法。它從2D生成(第III-A節(jié))開始,用于外觀建模,然后轉(zhuǎn)向視頻生成(第III-B節(jié))和3D生成(第III-C節(jié)),通過結(jié)合動態(tài)和幾何維度。最后,通過整合所有這三個維度,介紹了4D生成的最新進(jìn)展(第III-D節(jié))。
A. 2D生成
最近,生成模型領(lǐng)域,特別是在文本到圖像生成方面,取得了顯著進(jìn)展。文本到圖像生成因其能夠從文本描述中生成真實圖像而受到關(guān)注,這種能力通過捕捉真實世界的外貌來實現(xiàn)。利用擴(kuò)散模型、大型語言模型(LLMs)和自編碼器等技術(shù),這些模型實現(xiàn)了高質(zhì)量和語義上準(zhǔn)確的圖像生成。
算法:Imagen [29] 在GLIDE建立的原則基礎(chǔ)上進(jìn)行了構(gòu)建,但引入了顯著的優(yōu)化和改進(jìn)。與從頭開始訓(xùn)練特定任務(wù)的文本編碼器不同,Imagen使用預(yù)訓(xùn)練和凍結(jié)的語言模型,從而降低了計算需求。Imagen測試了在圖像-文本數(shù)據(jù)集(例如,CLIP [30])上訓(xùn)練的模型和在純文本數(shù)據(jù)集(例如,BERT [31] 和 T5 [32])上訓(xùn)練的模型。這一實踐表明,擴(kuò)大語言模型的規(guī)模比擴(kuò)大圖像擴(kuò)散模型更有效地增強(qiáng)圖像保真度和文本一致性。
DALL-E[33](版本1)使用一種Transformer架構(gòu),將文本和圖像作為單一數(shù)據(jù)流進(jìn)行處理。DALL-E 2 [34]利用了CLIP [30]強(qiáng)大的語義和風(fēng)格能力,采用生成擴(kuò)散解碼器來逆轉(zhuǎn)CLIP圖像編碼器的過程。DALL-E 3 [35]在DALL-E 2 [34]的進(jìn)步基礎(chǔ)上進(jìn)行了構(gòu)建,顯著提高了圖像保真度和文本對齊度。它增強(qiáng)了文本理解能力,允許從復(fù)雜描述中生成更準(zhǔn)確和細(xì)致的圖像。DALL-E 3與ChatGPT [36]集成,使用戶能夠在ChatGPT界面內(nèi)直接進(jìn)行頭腦風(fēng)暴和完善提示,簡化了生成詳細(xì)和定制提示的過程。該模型生成的圖像具有更高的真實性和與所提供文本更好的對齊度,使其成為創(chuàng)意和專業(yè)應(yīng)用的強(qiáng)大工具。
DeepFloyd IF [37]以其出色的照片真實感和先進(jìn)的語言理解能力而聞名。該系統(tǒng)是模塊化的,具有一個靜態(tài)文本編碼器和三個連續(xù)的像素擴(kuò)散模塊。最初,基礎(chǔ)模型從文本描述中創(chuàng)建64×64像素的圖像。然后,這些圖像通過兩個超分辨率模型分別增強(qiáng)到256×256像素,再進(jìn)一步增強(qiáng)到1024×1024像素。每個階段都使用來自T5 [32] Transformer的靜態(tài)文本編碼器生成文本嵌入,隨后由具有集成交叉注意力和注意力池化機(jī)制的U-Net架構(gòu)進(jìn)行處理。
Stable Diffusion (SD)[38],也稱為潛在擴(kuò)散模型(LDM),在有限的計算資源上提高了訓(xùn)練和推理效率,同時產(chǎn)生高質(zhì)量和多樣化的圖像。去噪過程發(fā)生在預(yù)訓(xùn)練自編碼器的潛在空間中,這些自編碼器將圖像映射到空間潛在空間。底層的U-Net架構(gòu)通過交叉注意力機(jī)制增強(qiáng),以模擬條件分布,可以包括文本提示、分割掩碼等。它使用CLIP [30]文本嵌入作為條件,并在LAION [39]數(shù)據(jù)集上訓(xùn)練,以生成512×512分辨率(潛在分辨率為64×64)的圖像。在Stable Diffusion的基礎(chǔ)上,SDXL [40]采用了一個大三倍的U-Net骨干網(wǎng)絡(luò)。它通過使用第二個文本編碼器引入了額外的注意力塊和更大的交叉注意力上下文。此外,SDXL還包括一個細(xì)化模型,該模型通過事后圖像到圖像技術(shù)增強(qiáng)由SDXL生成的樣本的視覺保真度。
FLUX.1[41]利用混合架構(gòu),集成了多模態(tài)和并行擴(kuò)散Transformer塊,實現(xiàn)了120億參數(shù)的顯著規(guī)模。通過采用流匹配,這是一種簡單但有效的訓(xùn)練生成模型的技術(shù),F(xiàn)LUX.1超越了以前的最先進(jìn)擴(kuò)散模型。該套件還具有旋轉(zhuǎn)位置嵌入和并行注意力層,大大提高了模型性能和效率。
B. 視頻生成
由于圖像和視頻之間的結(jié)構(gòu)相似性,早期的視頻生成方法主要適應(yīng)和微調(diào)現(xiàn)有的2D圖像生成模型(第III-A節(jié))。最初對這一挑戰(zhàn)的看法集中在引入時間動態(tài)建模機(jī)制上,通常是通過在架構(gòu)中添加時間層(圖2),如注意力和卷積。一種常見的訓(xùn)練策略還涉及混合2D圖像和視頻數(shù)據(jù),以提高生成視頻的視覺質(zhì)量。受到Sora [13]的啟發(fā),最先進(jìn)的模型現(xiàn)在經(jīng)常采用擴(kuò)散Transformer架構(gòu)。這些模型通過將視頻分解為一系列“塊”來操作壓縮的時空潛在空間,這些塊作為Transformer的標(biāo)記。這種方法同時處理空間和時間信息。盡管這些模型復(fù)雜,但它們通常保留了處理單幀圖像作為一幀視頻的能力,使它們能夠利用2D圖像生成的大量數(shù)據(jù)。
![]()
在本節(jié)中,我們將這些模型根據(jù)其底層生成機(jī)器學(xué)習(xí)架構(gòu)分為三個主要類別。圖3總結(jié)了最近的文本到視頻生成技術(shù)。對于尋求更深入探索的讀者,詳細(xì)的調(diào)查可以在[42],[43]中找到。
![]()
算法:(1) 基于VAE和GAN的方法。在擴(kuò)散模型之前,視頻生成研究主要通過兩種方法推進(jìn):基于VAE和基于GAN的方法,每種方法都為視頻合成的挑戰(zhàn)提供了獨特的解決方案。基于VAE的方法從SV2P [44]的隨機(jī)動態(tài)發(fā)展到VideoGPT [72]中VQ-VAE [71]與Transformer的結(jié)合,通過分層離散潛在變量有效處理高分辨率視頻。顯著的改進(jìn)來自FitVid [45]中的參數(shù)高效架構(gòu)和對抗性訓(xùn)練的整合,以實現(xiàn)更真實的預(yù)測。并行的基于GAN的方法帶來了顯著的創(chuàng)新,從MoCoGAN [46]開始,它將內(nèi)容和運動組件分解以進(jìn)行控制生成。StyleGAN-V [47]通過位置嵌入將視頻視為時間連續(xù)信號,而DIGAN [48]引入了隱式神經(jīng)表示以改進(jìn)連續(xù)視頻建模。StyleInV [49]利用預(yù)訓(xùn)練的StyleGAN [73]生成器和時間風(fēng)格調(diào)制反演網(wǎng)絡(luò),在具有時間一致性的高質(zhì)量幀合成方面標(biāo)志著另一個里程碑。
(2) 基于擴(kuò)散的方法。文本到視頻生成最近取得了顯著進(jìn)展,方法通常分為兩類:基于U-Net的架構(gòu)和基于Transformer的架構(gòu)。 (i) 基于U-Net的架構(gòu)。開創(chuàng)性的視頻擴(kuò)散模型(VDM)[50]通過擴(kuò)展圖像擴(kuò)散架構(gòu)并引入聯(lián)合圖像-視頻訓(xùn)練以減少梯度方差,實現(xiàn)了高保真度、時間一致的視頻生成。Make-A-Video [51]通過利用現(xiàn)有的視覺表示[30]和創(chuàng)新的時空模塊,在沒有配對文本-視頻數(shù)據(jù)的情況下推進(jìn)了文本到視頻生成。Imagen Video [52]引入了一系列擴(kuò)散模型,結(jié)合基礎(chǔ)生成和超分辨率,而MagicVideo [53]通過在低維空間中的潛在擴(kuò)散實現(xiàn)了高效生成。GEN-1 [54]專注于使用深度估計進(jìn)行結(jié)構(gòu)保持編輯,而PYoCo [55]通過精心設(shè)計的視頻噪聲先驗,在有限數(shù)據(jù)上展示了高效的微調(diào)。Align-your-Latents [56]通過擴(kuò)展Stable Diffusion [38]與時間對齊技術(shù),實現(xiàn)了高分辨率生成(1280 × 2048)。Show-1 [74]結(jié)合了基于像素和基于潛在的方法,以提高質(zhì)量和減少計算。VideoComposer [57]通過時空條件編碼器引入了一種新的可控合成范式,實現(xiàn)了基于多個條件的靈活組合。AnimateDiff [58]提出了一個可插拔的運動模塊,具有可轉(zhuǎn)移的運動先驗,并引入了MotionLoRA以實現(xiàn)高效適應(yīng)。PixelDance [59]通過結(jié)合文本提示以及第一幀和最后一幀圖像指令來增強(qiáng)生成。
(ii) 基于Transformer的架構(gòu)。在擴(kuò)散Transformer(DiT)[75]的成功之后,基于Transformer的模型獲得了顯著地位。VDT [62]引入了模塊化的時間和空間注意力機(jī)制,用于包括預(yù)測、插值和完成在內(nèi)的多樣化任務(wù)。W.A.L.T [63]通過統(tǒng)一的潛在空間和因果編碼器架構(gòu)實現(xiàn)了照片級真實感生成,生成512 × 896的高分辨率視頻。Snap Video [76]通過空間和時間冗余像素處理,提高了3.31倍的訓(xùn)練效率,而GenTron [64]在無運動引導(dǎo)下擴(kuò)展到超過30億參數(shù)。Luminia-T2X [65]通過零初始化注意力和標(biāo)記化潛在時空空間整合了多種模態(tài)。CogVideoX [66]通過專家Transformer、3D VAE和漸進(jìn)訓(xùn)練,在長時間視頻生成方面表現(xiàn)出色,通過多個指標(biāo)驗證了最先進(jìn)的性能。開創(chuàng)性的Sora [13]是一種先進(jìn)的擴(kuò)散Transformer模型,強(qiáng)調(diào)在不同分辨率、縱橫比和持續(xù)時間下生成高質(zhì)量圖像和視頻。Sora通過標(biāo)記化潛在時空空間實現(xiàn)了靈活和可擴(kuò)展的生成能力。
(3) 基于自回歸的方法。與基于擴(kuò)散的方法并行,受大型語言模型(LLMs)啟發(fā)的自回歸框架已成為視頻生成的替代方法。這些方法通常遵循兩階段過程:首先使用像VQ-GAN [77]和MAGVIT [68],[78]–[81]這樣的向量量化自編碼器將視覺內(nèi)容編碼為離散潛在標(biāo)記,然后在潛在空間中對標(biāo)記分布進(jìn)行建模。CogVideo [69],一個基于預(yù)訓(xùn)練文本到圖像模型CogView [82]的90億參數(shù)Transformer模型,代表了這一方向的重要進(jìn)展。它采用多幀率分層訓(xùn)練策略來增強(qiáng)文本-視頻對齊,并且作為第一個開源的大規(guī)模預(yù)訓(xùn)練文本到視頻模型,它在機(jī)器和人類評估中都建立了新的基準(zhǔn)。VideoPoet [70]引入了一種僅解碼器的Transformer架構(gòu),用于零樣本視頻生成,能夠處理多種輸入模態(tài),包括圖像、視頻、文本和音頻。遵循LLM訓(xùn)練范式,通過預(yù)訓(xùn)練和任務(wù)特定適應(yīng)階段,VideoPoet在零樣本視頻創(chuàng)作中實現(xiàn)了最先進(jìn)的性能,特別是在通過其多樣化的生成預(yù)訓(xùn)練目標(biāo)在運動保真度方面表現(xiàn)出色。
評估。隨著任務(wù)復(fù)雜性的增加,視頻生成模型的評估也不斷發(fā)展。早期方法依賴于基于分布的指標(biāo),最顯著的是弗雷切特視頻距離(FVD)[50],[56],[83]。作為圖像弗雷切特初始距離(FID)[84]的時間擴(kuò)展,F(xiàn)VD比較時空特征分布以評估視覺質(zhì)量和一致性。最近的基準(zhǔn)測試,如VBench [85],提供了更細(xì)粒度的特定屬性分析,如運動平滑度和主體身份,使用來自模型如CLIP [30]和DINO [86]的特征。然而,由于自動化指標(biāo)往往與人類感知不一致,該領(lǐng)域越來越多地轉(zhuǎn)向人類研究,以進(jìn)行更全面和準(zhǔn)確的評估,特別是對于先進(jìn)的開放領(lǐng)域模型。表II展示了現(xiàn)代視頻生成模型的人類偏好評估。
![]()
應(yīng)用:(1) 視頻編輯最近從擴(kuò)散模型中顯著受益,能夠在保持時間一致性的同時進(jìn)行復(fù)雜的修改。該領(lǐng)域通過幾種創(chuàng)新方法發(fā)展,解決了視頻操作的不同方面。早期發(fā)展包括Tune-A-Video [90],它開創(chuàng)了一次性調(diào)整范式,通過時空注意力機(jī)制將文本到圖像擴(kuò)散模型擴(kuò)展到視頻生成。通過各種方法解決了時間一致性問題。VidToMe [91]引入了標(biāo)記合并以對齊幀,而EI [92]開發(fā)了專門的注意力模塊。幾項工作專注于專門的編輯能力。Ground-A-Video [93]通過基于基礎(chǔ)的框架解決了多屬性編輯,而Video-P2P [94]引入了跨注意力控制以進(jìn)行角色生成。最近的框架如UniEdit [95]和AnyV2V [96]代表了最新的發(fā)展,提供了無需調(diào)整的方法和簡化的編輯過程。專門的應(yīng)用如CoDeF [97]和Pix2Video [98]引入了創(chuàng)新技術(shù),用于時間一致性處理和漸進(jìn)變化傳播。這些方法成功地平衡了內(nèi)容編輯與結(jié)構(gòu)保留,在視頻操作技術(shù)方面取得了顯著進(jìn)展。
(2) 新視角合成通過視頻擴(kuò)散模型得到了革命性的改變,這些模型受益于對真實世界幾何形狀的學(xué)習(xí)先驗,能夠從有限的輸入圖像中生成高質(zhì)量的視角。ViewCrafter [99]通過將視頻擴(kuò)散模型與基于點的3D表示集成,引入了迭代合成策略和相機(jī)軌跡規(guī)劃,從稀疏輸入中獲得高保真度結(jié)果,開創(chuàng)了這一方向。相機(jī)控制已成為一個關(guān)鍵方面,CameraCtrl [100]通過可插拔模塊引入了精確的相機(jī)姿態(tài)控制。幾種創(chuàng)新方法解決了視角一致性挑戰(zhàn)。ViVid-1-to-3 [101]將新視角合成重新定義為相機(jī)運動的視頻生成,而NVS-Solver [102]引入了一種零樣本范式,通過給定視圖調(diào)制擴(kuò)散采樣。這一趨勢表明,利用視頻擴(kuò)散先驗的同時保持幾何一致性和相機(jī)控制,使合成應(yīng)用越來越真實。
(3) 視頻中的人物動畫在視頻生成中獲得了重要性,這在世界模擬器中起著關(guān)鍵作用,如在第III-B1節(jié)中討論的。這一點尤其重要,因為人類是現(xiàn)實世界中最重要的參與者,使他們的現(xiàn)實模擬至關(guān)重要。由于生成模型的早期成功,有一些代表性的工作[46],[103],[104]引入了生成對抗網(wǎng)絡(luò)(GAN)[14]來在視頻中動畫化人類。盡管取得了這些進(jìn)展,但人類視頻動畫的最關(guān)鍵問題仍然是生成視頻的視覺保真度。ControlNet [105]和HumanSD [106]是基于基礎(chǔ)文本到圖像模型(如Stable Diffusion [38])的即插即用方法,用于根據(jù)姿勢動畫化人類。此外,為了解決這些方法的泛化問題,animate-anyone [107]提出了一個ReferenceNet來保持更多參考視頻的空間細(xì)節(jié),并推動野外生成質(zhì)量達(dá)到一個新的里程碑。還有一些后續(xù)工作[108],[109]試圖簡化訓(xùn)練架構(gòu)和成本。此外,隨著計算機(jī)圖形學(xué)領(lǐng)域?qū)缀魏图y理的深入研究,一些工作將3D建模引入人類視頻動畫。Liquid Warping GAN [110]、CustomHuman [111]和LatentMan [112]是將3D人體先驗引入生成循環(huán)的早期嘗試。最新的進(jìn)展,MIMO [113],明確地分別建模角色、3D運動和場景,以驅(qū)動野外的人類動畫。這些有或沒有3D先驗的方法為將人類引入世界模擬器循環(huán)邁出了重要一步。
C. 3D生成 3D生成專注于幾何和外觀,以更好地模擬真實世界場景。在本節(jié)中,我們探索各種3D表示和生成算法,提供近期進(jìn)展的結(jié)構(gòu)化概述。具體來說,我們根據(jù)輸入模態(tài)對3D生成方法進(jìn)行分類,包括文本到3D生成,它直接從文本描述合成3D內(nèi)容,圖像到3D生成,它引入圖像約束以優(yōu)化文本驅(qū)動的輸出,以及視頻到3D生成,它利用視頻先驗實現(xiàn)更一致的3D生成。這些進(jìn)展的按時間順序的總結(jié)在圖7中展示,而表IV提供了尖端方法的全面比較。值得注意的是,幾種方法跨越多個類別,展示了現(xiàn)代3D生成技術(shù)的多功能性。 與其從頭開始構(gòu)建3D生成模型,大多數(shù)現(xiàn)有方法與2D和視頻生成模型高度耦合,以利用它們強(qiáng)大的外觀建模能力來更好地進(jìn)行3D生成,如圖5、圖8和圖10所示。首先,2D中編碼的圖像先驗和視頻生成模型中編碼的幾何線索可以用來為3D生成模型提供監(jiān)督。其次,可以微調(diào)2D和視頻生成模型以接受額外的3D信息(例如,法線)作為輸入,以合成3D感知的多視圖圖像,以促進(jìn)3D生成。
![]()
![]()
![]()
![]()
![]()
![]()
3D表示:在3D生成領(lǐng)域,選擇最優(yōu)的3D表示至關(guān)重要。對于神經(jīng)場景表示,3D數(shù)據(jù)通常可以分為三個主要類別:顯式、隱式和混合表示,如圖4所示。 (1) 顯式表示。顯式表示提供由一組元素定義的對象和場景的精確可視化。傳統(tǒng)形式,如點云、網(wǎng)格和體素,多年來已被廣泛使用。


為了便于優(yōu)化,協(xié)方差矩陣 Σ 通常被分解為一個縮放矩陣 S 和一個旋轉(zhuǎn)矩陣 R,使得:

(2) 隱式表示。隱式表示使用連續(xù)函數(shù)(如數(shù)學(xué)模型或神經(jīng)網(wǎng)絡(luò))來描述3D空間,捕捉體積屬性而非表面幾何。隱式神經(jīng)表示通過神經(jīng)網(wǎng)絡(luò)來近似這些函數(shù),以更高的訓(xùn)練和推理開銷為代價增強(qiáng)了表達(dá)能力。主要方法包括有符號距離場(SDF)[117]和神經(jīng)輻射場(NeRF)[123]。



(3) 混合表示。大多數(shù)當(dāng)前的隱式方法依賴于回歸NeRF或SDF值,這可能限制它們利用目標(biāo)視圖或表面的顯式監(jiān)督的能力。然而,顯式表示在訓(xùn)練期間提供了有用的約束并改善了用戶交互。為了利用兩種范式的互補(bǔ)優(yōu)勢,混合表示可以看作是顯式和隱式表示之間的權(quán)衡。
(i) 混合體素網(wǎng)格可以作為混合表示在方法如[124]–[126]中使用。[125]使用密度和特征網(wǎng)格進(jìn)行輻射場重建,而Instant-NGP [126]使用基于哈希的多級網(wǎng)格,優(yōu)化GPU性能以實現(xiàn)更快的訓(xùn)練和渲染。
(ii) DMTet [119]結(jié)合了四面體網(wǎng)格和隱式SDF,以實現(xiàn)靈活的3D表面表示。神經(jīng)網(wǎng)絡(luò)預(yù)測每個頂點的SDF值和位置偏移,允許對復(fù)雜拓?fù)溥M(jìn)行建模。網(wǎng)格通過可微分的Marching Tetrahedra(MT)層轉(zhuǎn)換為網(wǎng)格,實現(xiàn)高效、高分辨率的渲染。通過使用基于網(wǎng)格的損失優(yōu)化幾何和拓?fù)洌珼MTet實現(xiàn)了更精細(xì)的細(xì)節(jié)、更少的偽影,并在從粗體素到復(fù)雜3D數(shù)據(jù)集的條件下的形狀合成方面超越了以前的方法。
(iii) Tri-plane提供了一種內(nèi)存高效的替代方案,用于3D形狀表示和神經(jīng)渲染。它將3D體積分解為三個正交的2D特征平面(XY, XZ, YZ)。EG3D [127]利用這種結(jié)構(gòu),使用MLP從平面中聚合特征,并預(yù)測任何3D點的顏色和密度值。這種方法比基于體素的NeRF減少了內(nèi)存消耗,并實現(xiàn)了更快的渲染。
算法:(1) 文本到3D生成。通過模擬真實世界的幾何形狀,從文本提示生成3D內(nèi)容,已經(jīng)進(jìn)行了大量的研究,可以分為三個分支。讀者可以參考[128]–[130]以獲得該領(lǐng)域的更全面的調(diào)查。不同的方法分支的比較如圖5所示。正如我們所看到的,圖像生成模型作為文本到3D方法的關(guān)鍵組件,提供監(jiān)督(即,SDS損失)或合成多視圖圖像以實現(xiàn)更準(zhǔn)確的3D生成。
(i) 正向方法。受文本到圖像生成的啟發(fā),一種主要的方法分支擴(kuò)展了現(xiàn)有的成功生成模型,以直接從文本提示中合成3D表示。成功的關(guān)鍵在于將3D幾何編碼為緊湊的表示,并將其與相應(yīng)的文本提示對齊。
Michelangelo [131]首先構(gòu)建了一個VAE模型,將3D形狀編碼為潛在嵌入。然后,這個嵌入與使用CLIP [30]模型從語言和圖像中提取的特征對齊。使用對比損失進(jìn)行優(yōu)化,可以從文本提示中推斷出3D形狀。ATT3D [132]使用Instant-NGP模型作為3D表示,并通過映射網(wǎng)絡(luò)將其與文本嵌入橋接。然后,從Instant-NGP模型渲染多視圖圖像,整個網(wǎng)絡(luò)使用SDS損失進(jìn)行優(yōu)化。受ATT3D的啟發(fā),Atom [133]學(xué)習(xí)從文本嵌入中預(yù)測一個三角表示,并采用兩階段優(yōu)化策略。Hyperfields [134]訓(xùn)練了一個動態(tài)超網(wǎng)來記錄從不同場景中學(xué)到的NeRF參數(shù)。
最近,擴(kuò)散模型的出色表現(xiàn)激勵研究人員將其擴(kuò)展到3D生成。早期的方法側(cè)重于從文本提示中學(xué)習(xí)合成顯式的3D表示。具體來說,Point-E [135]首先使用GLIDE [136]合成多個視圖,然后使用這些視圖作為條件,使用擴(kuò)散模型生成點云。后來,MeshDiffusion [137]使用擴(kuò)散來建立從文本到網(wǎng)格的映射。后續(xù)的方法嘗試將擴(kuò)散模型應(yīng)用于隱式的3D表示。Shap-E [138]首先將3D內(nèi)容映射到輻射場的參數(shù),然后訓(xùn)練一個擴(kuò)散模型,根據(jù)文本嵌入生成這些參數(shù)。3D-LDM [139]使用SDF來表示3D內(nèi)容的幾何形狀,并訓(xùn)練一個擴(kuò)散模型進(jìn)行文本條件生成。同樣,Diffusion-SDF [140]構(gòu)建了一個SDF自編碼器,使用體素化的擴(kuò)散模型從文本提示生成體素化的有符號距離場(SDFs)。LATTE3D [141]開發(fā)了一個紋理網(wǎng)絡(luò)和一個幾何網(wǎng)絡(luò),分別根據(jù)文本嵌入生成NeRF和SDF。然后,通過SDS損失優(yōu)化3D感知擴(kuò)散模型。
討論。與基于優(yōu)化的方法相比,正向方法更傾向于高效率,并能夠在沒有測試時優(yōu)化的情況下生成3D內(nèi)容。然而,這些方法嚴(yán)重依賴于數(shù)據(jù)的數(shù)量,通常在結(jié)構(gòu)和紋理細(xì)節(jié)方面表現(xiàn)較差。
(ii) 基于優(yōu)化的方法。除了文本到圖像生成之外,另一種方法分支通過利用強(qiáng)大的文本到圖像生成模型提供豐富的監(jiān)督來優(yōu)化3D表示。 DreamFusion [142] 首先引入得分蒸餾采樣(SDS)損失來優(yōu)化NeRF,使用從文本提示合成的圖像。MVDream [143] 微調(diào)多視圖擴(kuò)散模型,生成具有跨視圖一致性的多視圖圖像,以訓(xùn)練NeRF捕捉3D內(nèi)容。Magic3D [144] 使用紋理網(wǎng)格來表示3D對象,并采用SDS損失進(jìn)行優(yōu)化。Dream3D [145] 首先從文本提示生成圖像,然后用于產(chǎn)生3D形狀以初始化神經(jīng)輻射場。接下來,使用CLIP指導(dǎo)優(yōu)化NeRF。Fantasia3D [146] 進(jìn)一步結(jié)合DMTet和SDS損失,從文本提示生成3D對象。ProlificDreamer [147] 開發(fā)變分得分蒸餾(VSD)來模擬3D表示的分布,并產(chǎn)生具有豐富細(xì)節(jié)的更高質(zhì)量結(jié)果。為了解決多面Janus問題,PI3D [148] 首先微調(diào)文本到圖像擴(kuò)散模型以產(chǎn)生偽圖像。然后,這些圖像被用來使用SDS損失生成3D形狀。VP3D [149] 首先使用文本到圖像擴(kuò)散模型從文本提示生成高質(zhì)量圖像。然后,通過SDS損失優(yōu)化3D表示,使用生成的圖像和文本提示作為條件。 隨著3D高斯的顯著進(jìn)展,它在文本到3D生成領(lǐng)域得到了廣泛研究。DreamGaussian [150] 首先使用擴(kuò)散獲得3D高斯,并使用SDS損失進(jìn)行優(yōu)化。然后,從3D高斯中提取網(wǎng)格,并對紋理進(jìn)行細(xì)化以獲得更高質(zhì)量的內(nèi)容。為了促進(jìn)收斂,GSGEN [151] 和GaussianDreamer [152] 首先使用Point·E從文本提示生成點云,以初始化高斯的位置。然后,這些高斯被優(yōu)化以細(xì)化它們的幾何形狀和外觀,使用SDS損失。Sculpt3D [153] 通過在數(shù)據(jù)庫中檢索參考3D對象引入3D先驗,可以無縫集成到現(xiàn)有流程中。
討論。由于文本到圖像模型中的豐富知識,基于優(yōu)化的方法產(chǎn)生了更精細(xì)的細(xì)節(jié)。然而,這些方法需要昂貴的每次提示優(yōu)化,并且耗時。
(iii) 基于MVS的方法。與直接從文本提示生成3D表示不同,為了更好地利用文本到圖像模型,已經(jīng)有許多嘗試合成多視圖圖像以進(jìn)行3D生成。 Instant3D [154] 首先微調(diào)文本到圖像擴(kuò)散模型以生成四視圖圖像。然后,這些圖像被傳遞給一個Transformer以預(yù)測三平面表示。Direct2.5 [155] 在2.5D渲染和自然圖像上微調(diào)多視圖法線擴(kuò)散模型。給定文本提示,Direct2.5首先產(chǎn)生法線圖,并通過可微分光柵化進(jìn)行優(yōu)化。然后,最優(yōu)法線圖被用作條件來合成具有3D一致性的多視圖圖像。Sherpa3D [156] 首先使用3D擴(kuò)散模型從文本提示生成粗略的3D先驗。然后,產(chǎn)生法線圖并用于合成具有3D一致性的多視圖圖像。
討論。隨著VLMs的最近進(jìn)展,通過注入3D先驗來提升這些2D生成模型進(jìn)行3D生成引起了越來越多的興趣。然而,3D一致性的制定和有限的3D數(shù)據(jù)微調(diào)仍然是開放問題。
評估。文本到3D方法的定量評估仍然是一個開放問題。對于主觀質(zhì)量評估,常見的基于參考的指標(biāo)(例如,PSNR)不適用,因為缺乏真實數(shù)據(jù),而非參考質(zhì)量(例如,F(xiàn)ID)指標(biāo)可能并不總是與人類偏好一致。因此,大多數(shù)方法采用CLIP分?jǐn)?shù)和CLIP R-Precision來評估3D模型與文本提示的對齊。最近,已經(jīng)建立了幾個基準(zhǔn)[158],[159]來全面評估文本到3D生成方法。在這里,我們在表III中報告了代表性方法的定量分?jǐn)?shù),并在圖6中展示了它們的視覺結(jié)果。讀者可以參考[158],[159]以獲取更多細(xì)節(jié)。
![]()
![]()
(2) 圖像到3D生成。圖像到3D任務(wù)的目標(biāo)是生成與給定圖像身份一致的高質(zhì)量3D資產(chǎn)。由于3D數(shù)據(jù)收集成本高,文本到3D生成缺乏足夠的高質(zhì)量文本注釋來擴(kuò)大規(guī)模,與圖像和視頻生成相比。由于圖像自然捕獲更多與3D模態(tài)緊密對齊的低級信息,圖像到3D任務(wù)縮小了輸入和輸出之間的模態(tài)差距,與文本到3D生成相比。因此,圖像到3D已成為推進(jìn)原生3D生成的基礎(chǔ)任務(wù)。為了利用圖像生成模型中的知識,它們經(jīng)常被用作圖像到3D模型的組成部分(圖8)。部分方法的定性比較顯示在圖9中,定量比較在表V中說明。由于論文中使用的評估數(shù)據(jù)集或指標(biāo)的不一致性,一些工作未在圖和表中列出。
![]()
(i) 前饋方法。這些方法首先使用壓縮網(wǎng)絡(luò)(如VAE)將3D資產(chǎn)編碼為潛在代碼,然后訓(xùn)練潛在空間樣本的生成模型。3DGen [160] 引入三平面作為潛在空間,提高了壓縮網(wǎng)絡(luò)的準(zhǔn)確性和效率。Direct3D [163] 采用三平面表示,并直接使用3D監(jiān)督進(jìn)行訓(xùn)練,在潛在三平面中保留詳細(xì)的3D信息。Michelangelo [131] 從3Dshape2vecset [184] 中汲取靈感,使用1D向量作為潛在空間,并在占用場的監(jiān)督下輸出。CraftsMan [162] 進(jìn)一步引入多視圖生成模型,生成多視圖圖像作為擴(kuò)散模型的條件,隨后基于法線的細(xì)化生成網(wǎng)格。Clay [161] 引入了一個全面的系統(tǒng),預(yù)訓(xùn)練在大規(guī)模3D數(shù)據(jù)集上進(jìn)行3D生成,包括基于1D向量的VAE和擴(kuò)散模型用于幾何生成,材料擴(kuò)散用于PBR紋理,以及跨各種模態(tài)的條件設(shè)計。
討論。原生方法在3D數(shù)據(jù)集上訓(xùn)練壓縮網(wǎng)絡(luò)和生成模型,并在幾何生成方面表現(xiàn)出優(yōu)越的性能,與基于MVS和基于優(yōu)化的方法相比,能夠產(chǎn)生更細(xì)粒度的幾何細(xì)節(jié)。然而,由于制作和收集成本高,3D數(shù)據(jù)集[185],[186]的規(guī)模比圖像或視頻數(shù)據(jù)集[187],[188]增長得慢得多。因此,原生方法缺乏足夠多樣化和廣泛的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。因此,如何利用來自視頻和圖像的先驗來增強(qiáng)3D生成的多樣性和泛化能力,特別是在紋理生成方面,仍然是一個需要進(jìn)一步探索的領(lǐng)域。
(ii) 基于優(yōu)化的方法。隨著文本到3D模型中基于蒸餾方法的發(fā)展,基于優(yōu)化的方法通過預(yù)訓(xùn)練的圖像到圖像或文本到圖像生成模型的SDS損失監(jiān)督的訓(xùn)練過程直接優(yōu)化3D資產(chǎn),同時通過各種額外的損失約束保持圖像身份。
從Dreamfusion [142]、Magic3D [144]和SJC [189]適應(yīng)而來,RealFusion [165]僅從預(yù)訓(xùn)練的文本到圖像模型中提取先驗,使用SDS損失,同時使用圖像重建損失和文本反轉(zhuǎn)分別保留低級和語義身份。隨著大規(guī)模開放集3D數(shù)據(jù)集[185]的出現(xiàn),Zero123 [166]通過替換文本到圖像模型為新視圖合成模型來引入3D數(shù)據(jù)集的先驗到圖像到3D任務(wù)中。具體來說,Zero123在3D數(shù)據(jù)集上微調(diào)預(yù)訓(xùn)練的圖像到圖像生成模型,通過引入相機(jī)姿態(tài)作為條件來控制生成圖像的視點。預(yù)訓(xùn)練的新視圖合成模型保留了圖像模型的細(xì)節(jié)和3D數(shù)據(jù)集的多視圖一致性,顯著緩解了Janus問題。
一系列工作在Zero123 [166]的基礎(chǔ)上進(jìn)行了擴(kuò)展。Zero123-xl [186]在10倍大的3D數(shù)據(jù)集上預(yù)訓(xùn)練Zero123管道,以獲得更好的泛化能力。Magic123 [167]同時利用2D和3D先驗進(jìn)行蒸餾,以管理泛化和一致性之間的權(quán)衡,并使用粗到細(xì)的管道以獲得更高質(zhì)量的結(jié)果。SyncDreamer [168]和Consistent123 [169]都通過引入同步多視圖擴(kuò)散模型進(jìn)一步改進(jìn)了NVS模型的多視圖一致性,前者利用3D體積來模擬圖像的聯(lián)合分布關(guān)系,后者利用跨視圖注意力和共享自注意力。Toss [170]此外將文本標(biāo)題作為3D數(shù)據(jù)的高級語義引入NVS模型預(yù)訓(xùn)練中,以增強(qiáng)不可見視圖的合理性和可控性。ImageDream [171]通過設(shè)計多級圖像提示控制器和使用文本描述進(jìn)行訓(xùn)練,解決了多視圖一致性和3D細(xì)節(jié)問題。Wonder3D [173]結(jié)合了跨域注意力機(jī)制,使NVS模型能夠同時去噪圖像和對齊法線圖,同時在優(yōu)化過程中額外引入法線圖。IPDreamer [172]通過引入IPSDS(SDS的一種變體)和多提示一致性的掩碼引導(dǎo)對齊策略,實現(xiàn)了從復(fù)雜圖像提示的可控3D合成。
討論。繼承了圖像生成模型的強(qiáng)大先驗,基于優(yōu)化的方法展示了強(qiáng)大的泛化能力,并且能夠模擬高精度紋理。然而,由于新視圖合成(NVS)模型在預(yù)訓(xùn)練期間僅使用從3D采樣的2D數(shù)據(jù)而不是直接3D數(shù)據(jù)進(jìn)行監(jiān)督,多視圖一致性問題無法從根本上解決,盡管通過3D體積建模或跨視圖注意力有所改進(jìn)。因此,基于優(yōu)化的方法通常由于優(yōu)化范式而遭受過于平滑的幾何形狀和長時間的訓(xùn)練。
(iii) 基于MVS的方法。基于MVS的方法將圖像到3D生成分為兩個階段:首先使用NVS模型從單個圖像生成多視圖圖像,然后直接使用前饋重建網(wǎng)絡(luò)從這些多視圖圖像創(chuàng)建3D資產(chǎn)。
基于Zero123 [166]預(yù)測的多視圖圖像,One-2-3-45 [174]提出了一個高度估計模塊,并利用基于SDF的可推廣神經(jīng)表面重建模塊在3D數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,以實現(xiàn)360°網(wǎng)格重建,與基于優(yōu)化的方法相比,將重建時間減少到45秒。CRM [175]進(jìn)一步將多視圖生成模型的輸出圖像凍結(jié)到六個固定相機(jī)姿態(tài),大大提高了多視圖之間的一致性。然后CRM將多視圖圖像輸入卷積U-Net,以深度和RGB圖像為監(jiān)督創(chuàng)建高分辨率三平面。InstantMesh [176]也凍結(jié)了多視圖圖像的相機(jī)姿態(tài),但采用基于LRM [177]的基于Transformer的多視圖重建模型來重建3D網(wǎng)格,以犧牲一些圖像到3D細(xì)節(jié)一致性為代價提供更好的泛化。Unique3d [178]引入了多級放大策略,逐步生成更高分辨率的多視圖圖像,并使用法線圖擴(kuò)散模型預(yù)測多視圖法線圖,用于粗略網(wǎng)格的初始化,然后根據(jù)多視圖圖像進(jìn)行細(xì)化和上色。
討論。與基于優(yōu)化的方法相比,基于多視角立體視覺(MVS)的方法在3D數(shù)據(jù)集上訓(xùn)練前饋重建模型,從多視角圖像中重建出高質(zhì)量的3D模型,顯著提升了3D一致性,并將推理時間縮短至秒級。然而,由于模型規(guī)模的限制,MVS方法通常缺乏高質(zhì)量的幾何細(xì)節(jié)。
(3)視頻到3D生成。視頻到3D生成方法從根本上建立在2D擴(kuò)散模型的進(jìn)展之上,將基于圖像的生成先驗擴(kuò)展到時間域。通過建模具有連貫紋理、光照和幾何結(jié)構(gòu)的幀序列,視頻擴(kuò)散模型能夠利用2D視頻中捕捉到的運動和視角變化,隱式地學(xué)習(xí)3D結(jié)構(gòu)。諸如SV3D、Hi3D和V3D等框架,采用預(yù)訓(xùn)練的視頻擴(kuò)散主干網(wǎng)絡(luò)生成多視角幀序列,然后通過體渲染(volume rendering)、網(wǎng)格優(yōu)化(mesh optimization)或高斯?jié)姙R(Gaussian splatting)等技術(shù)整合為顯式的3D幾何結(jié)構(gòu)。這種協(xié)同機(jī)制既利用了2D視頻模型強(qiáng)大的內(nèi)容合成能力,又引入了稠密3D重建所必需的空間一致性和相機(jī)控制能力。
海量的在線視頻數(shù)據(jù)構(gòu)成了豐富的3D信息庫,其中包含物體運動、視角變化和相機(jī)轉(zhuǎn)場等內(nèi)容,揭示了靜態(tài)圖像中通常無法獲得的多視角信息[190]–[195]。這類動態(tài)內(nèi)容在連續(xù)幀之間提供了時間連貫性與空間一致性,對于理解復(fù)雜3D場景和生成高保真3D結(jié)構(gòu)至關(guān)重要[13]。因此,利用這些多視角且隨時間變化的數(shù)據(jù)已成為重建和合成3D一致對象的一種有前景的方法[196]。
近期研究探索了基于視頻的先驗用于魯棒3D生成[180]–[182],旨在學(xué)習(xí)跨幀保持一致、并能適應(yīng)視角變化的3D表示。總體而言,這些視頻到3D生成工作的核心思想是:將具備相機(jī)可控能力的視頻模型用作一致的多視角生成器,以實現(xiàn)稠密3D重建(見圖10)。
近期視頻擴(kuò)散模型的進(jìn)展凸顯了其在生成逼真視頻方面的卓越能力,同時展現(xiàn)出對3D結(jié)構(gòu)的隱式推理潛力。然而,在將其有效用于3D生成方面仍存在顯著挑戰(zhàn),尤其是在精確的相機(jī)控制方面。傳統(tǒng)模型[197]–[199]通常僅限于生成具有平滑且短程相機(jī)軌跡的片段,難以有效構(gòu)建動態(tài)3D場景或整合多樣化的相機(jī)角度。
為應(yīng)對這些局限,研究人員已開發(fā)出若干創(chuàng)新技術(shù),以增強(qiáng)視頻擴(kuò)散框架中的相機(jī)控制能力。早期方法之一是AnimateDiff [58],它采用低秩自適應(yīng)(LoRA)[200]對視頻擴(kuò)散模型進(jìn)行微調(diào),使其適配固定的相機(jī)運動類型。該方法可在指定相機(jī)動力學(xué)約束下合成結(jié)構(gòu)化場景。另一項重要進(jìn)展是MotionCtrl [201],它引入了條件機(jī)制,使模型能夠遵循任意相機(jī)路徑,從而在生成多樣化視角方面獲得更大靈活性,克服了以往方法的僵化性。
基于可控相機(jī)視頻生成能力的發(fā)展,SVD-MV [202]、SV3D [181] 和 IM-3D [179] 等工作探索了如何利用相機(jī)控制來提升從視頻數(shù)據(jù)生成3D對象的效果。例如,SV3D訓(xùn)練了一個能夠渲染任意視角的視頻擴(kuò)散模型,展現(xiàn)出更強(qiáng)的泛化能力和高分辨率輸出(576×576像素)。這種能力可在適應(yīng)不同視角的同時維持幀間空間一致性,有效應(yīng)對稠密重建中的關(guān)鍵挑戰(zhàn)。盡管效果顯著,這些方法通常仍將相機(jī)運動限制在圍繞中心物體的固定軌道路徑上,限制了其在具有豐富上下文背景的復(fù)雜場景中的適用性。然而,在生成包含多物體交互和視角劇烈變化的復(fù)雜環(huán)境的高質(zhì)量3D表示方面,許多現(xiàn)有方法仍顯不足。
鑒于視頻模型中的相機(jī)控制可補(bǔ)充新視角信息,一些方法已探索視頻擴(kuò)散模型在新視角合成(NVS)中的潛力。例如,Vivid-1-to-3 [101] 有效融合了視角條件擴(kuò)散模型與視頻擴(kuò)散模型,能夠生成時間一致的新視角。通過確保幀間平滑過渡,該模型顯著提升了合成輸出的質(zhì)量,特別適用于3D場景表示。CAT3D [182] 則通過多視角擴(kuò)散模型增強(qiáng)了豐富的多視角信息。
討論。利用視頻先驗進(jìn)行多視角生成,可將視頻擴(kuò)散模型轉(zhuǎn)變?yōu)橛糜诔砻?D重建的一致性多視角生成器。進(jìn)一步的探索將有助于提升高保真3D表示能力,尤其是在需要魯棒多視角合成的復(fù)雜動態(tài)環(huán)境中。
3)應(yīng)用:
(1)虛擬化身生成(Avatar Generation)。隨著元宇宙的興起以及VR/AR技術(shù)的普及,3D虛擬化身生成引起了越來越多的關(guān)注。早期工作主要聚焦于頭部化身的生成 [203]–[205],利用文本到圖像的擴(kuò)散模型與神經(jīng)輻射場(Neural Radiance Fields)來創(chuàng)建面部資產(chǎn)。后續(xù)方法則更加關(guān)注逼真的全身化身生成,通過將神經(jīng)輻射場與統(tǒng)計模型相結(jié)合來實現(xiàn) [206], [207]。近期,化身生成的動畫能力受到廣泛關(guān)注,大量相關(guān)方法被提出 [208], [209]。
(2)場景生成(Scene Generation)。除了化身生成之外,在元宇宙和具身智能等應(yīng)用中,對創(chuàng)建逼真3D環(huán)境的場景生成也存在強(qiáng)烈需求。早期方法聚焦于以物體為中心的場景,利用條件擴(kuò)散模型合成多視角圖像,進(jìn)而優(yōu)化神經(jīng)輻射場 [139], [140]。后續(xù)工作通過引入漸進(jìn)式策略,將這些方法擴(kuò)展至房間尺度的場景 [210], [211]。受其成功啟發(fā),近期研究進(jìn)一步探索了戶外場景的生成,范圍從街道尺度 [212], [213] 到城市尺度 [214], [215]。
(3)3D編輯(3D Editing)。強(qiáng)大的3D生成能力催生了3D內(nèi)容編輯這一下游應(yīng)用。一些方法專注于全局性地改變3D內(nèi)容的外觀或幾何結(jié)構(gòu) [216], [217],而無需從場景中分離出特定區(qū)域。例如,場景風(fēng)格化方法 [218], [219] 旨在操控3D資產(chǎn)的風(fēng)格,如調(diào)整光照或模擬氣候變化。近期的研究致力于實現(xiàn)更細(xì)粒度的靈活3D內(nèi)容編輯。具體而言,外觀修改 [220], [221]、幾何形變 [222], [223] 以及對象級操控 [224], [225] 均已被深入研究,并取得了富有前景的編輯效果。
D. 4D生成我們通過整合所有維度,最終實現(xiàn)4D生成。作為計算機(jī)視覺領(lǐng)域的前沿方向,4D生成聚焦于根據(jù)文本、圖像或視頻等多模態(tài)輸入,合成隨時間演化的動態(tài)3D場景。與傳統(tǒng)的2D或3D生成方法不同 [226],4D合成帶來了獨特的挑戰(zhàn):它不僅要求空間一致性(spatial coherence)和時間連續(xù)性(temporal consistency),還需在高保真度、計算效率和動態(tài)真實感之間取得平衡 [227]。
本節(jié)首先介紹4D表示(4D representation),該表示建立在3D表示基礎(chǔ)之上;隨后總結(jié)當(dāng)前的4D生成方法。近期研究主要探索了兩種范式:一是基于優(yōu)化的方法,利用分?jǐn)?shù)蒸餾采樣(Score Distillation Sampling, SDS);二是前饋式方法(feedforward-based approaches),避免對每個提示進(jìn)行逐次優(yōu)化。這兩種范式應(yīng)對不同的技術(shù)挑戰(zhàn),凸顯了該領(lǐng)域的復(fù)雜性,以及在視覺質(zhì)量、計算效率和場景靈活性之間尋求可行平衡的持續(xù)努力。代表性4D生成工作匯總見表VI。
![]()
1)4D表示:4D表示將時間維度引入3D建模,為理解動態(tài)場景提供了堅實基礎(chǔ)。通過在靜態(tài)3D空間坐標(biāo)(x, y, z)基礎(chǔ)上增加時間維度(t),這類方法能夠編碼場景的動態(tài)變化與形變,對于非剛性人體動作捕捉、物體軌跡模擬等應(yīng)用至關(guān)重要 [257]–[260]。
大多數(shù)4D表示可分解為兩個模塊:規(guī)范3D表示(canonical 3D representation)和形變模塊(deformation)。第一個模塊用于建模靜態(tài)模板形狀;第二個模塊則通過對該模板進(jìn)行形變以合成運動。常見的形變表示包括:
- 形變場(deformation fields):一種神經(jīng)網(wǎng)絡(luò),將時空點映射到其在規(guī)范模板上的對應(yīng)位置;
- 形變基元(deformation primitives):如線性混合蒙皮(linear blend skinning),通過將某一點的運動表示為與不同身體部位或控制點相關(guān)的剛性運動的組合。
這兩種形變表示各有優(yōu)劣。形變場比形變基元更靈活,理論上可擬合更復(fù)雜的運動,具有更強(qiáng)的通用性;而針對關(guān)節(jié)化物體(如人或動物)設(shè)計的形變基元,在處理大幅關(guān)節(jié)運動時更具魯棒性,因為形變場缺乏必要的歸納偏置(inductive bias),尤其在快速運動下難以實現(xiàn)精確重建。
下文我們將重點討論采用規(guī)范3D表示+形變場這一類型的4D表示。
4D表示面臨的一大挑戰(zhàn)是單個場景重建的高昂計算成本。為解決此問題,顯式(explicit)與混合(hybrid)方法在不犧牲質(zhì)量的前提下提升了效率。例如,平面分解(planar decompositions)通過將4D時空網(wǎng)格拆分為更小的組件來簡化計算 [261]–[263];基于哈希的表示(hash-based representations)則降低了內(nèi)存與處理需求 [264]。3DGS(3D Gaussian Splatting)通過形變網(wǎng)絡(luò)將靜態(tài)高斯分布自適應(yīng)為動態(tài)高斯,從而在速度與質(zhì)量之間取得良好平衡 [116], [265]。
近期進(jìn)展進(jìn)一步將靜態(tài)與動態(tài)場景成分解耦,以高效渲染剛性與非剛性運動。例如:
- D-NeRF 首先將場景編碼到規(guī)范空間,再映射到隨時間形變的狀態(tài) [266];
- 3D Cinemagraphy 從單張圖像生成基于特征的點云,并利用3D場景流(scene flow)進(jìn)行動畫化 [267];
- 4DGS 通過將尺度、位置、旋轉(zhuǎn)等屬性建模為時間函數(shù)來捕捉時間動態(tài),同時保持靜態(tài)場景不變 [268]。
基于NeRF的混合方法通過引入平面或體素特征網(wǎng)格擴(kuò)展了4D建模能力。這些網(wǎng)格與MLP結(jié)合,不僅支持高效的多視角合成,還可通過引入時間平面(temporal planes)擴(kuò)展至動態(tài)場景 [261], [262]。可變形NeRF(Deformable NeRFs)將幾何與運動分離,簡化了運動學(xué)習(xí)過程,支持如圖像到4D視頻生成、多視角重建等應(yīng)用 [126]。
總體而言,這些進(jìn)展反映了在實現(xiàn)高效、高質(zhì)量動態(tài)場景時間建模方面的持續(xù)進(jìn)步。
2)算法:現(xiàn)代4D生成方法在很大程度上植根于3D生成所奠定的基礎(chǔ)。特別是NeRF和3DGS等3D重建技術(shù)的突破,直接影響了我們對動態(tài)4D場景的建模與渲染方式。這些3D框架不僅提供了高效的數(shù)據(jù)結(jié)構(gòu)和渲染技術(shù),還引入了對4D時間建模至關(guān)重要的歸納偏置。
在表示層面,3D方法提供的規(guī)范空間先驗(canonical spatial priors)可通過形變場或運動軌跡擴(kuò)展,以捕捉時間演化。在訓(xùn)練層面,3D中的快速訓(xùn)練技術(shù)(如哈希編碼、分層采樣)已被適配用于加速4D優(yōu)化。作為最具代表性的4D任務(wù),人體動畫尤其受益于3D人體建模的成果。SMPL(-X)、線性混合蒙皮、神經(jīng)形變場等技術(shù)為關(guān)節(jié)化運動建模提供了強(qiáng)大的結(jié)構(gòu)先驗,顯著提升了4D人體運動合成的真實感與可控性。
(1)前饋式方法(Feedforward Approaches):前饋式方法通過單次前向傳播生成4D內(nèi)容(見圖11),繞過了SDS流水線所需的迭代優(yōu)化,提供了一種高效替代方案。這些方法依賴預(yù)訓(xùn)練模型,利用時空先驗實現(xiàn)快速且一致的生成。
![]()
- Control4D [228] 和 Animate3D [229] 可直接從文本或視覺輸入合成動態(tài)場景,適用于交互媒體、個性化內(nèi)容創(chuàng)作等實時應(yīng)用;
- Vidu4D [230] 通過引入時間先驗優(yōu)化運動軌跡,確保幀間連貫性和平滑過渡;
- Diffusion4D [231] 將擴(kuò)散模型的能力擴(kuò)展至4D場景合成,結(jié)合時空特征提取與高效推理機(jī)制;
- L4GM [232] 進(jìn)一步增強(qiáng)前饋技術(shù),通過集成潛在幾何建模(latent geometry modeling),在保持計算效率的同時產(chǎn)出高質(zhì)量結(jié)果。
討論:前饋式方法在強(qiáng)調(diào)速度與適應(yīng)性的場景中表現(xiàn)優(yōu)異,如實時內(nèi)容生成和消費級設(shè)備上的輕量部署。然而,其對預(yù)訓(xùn)練模型的依賴以及在處理復(fù)雜動態(tài)時的靈活性有限,使其在細(xì)節(jié)豐富度和多樣性方面仍難以匹敵基于優(yōu)化的方法。盡管如此,前饋技術(shù)代表了邁向?qū)嵱没?D生成的重要一步,有效應(yīng)對了計算效率與可擴(kuò)展性的關(guān)鍵挑戰(zhàn)。通過彌合質(zhì)量與速度之間的鴻溝,這些方法有望在廣泛的4D內(nèi)容生成應(yīng)用中發(fā)揮關(guān)鍵作用。
(2)基于優(yōu)化的方法(Optimization-based Approaches):基于優(yōu)化的方法是4D生成的基石,采用迭代技術(shù)(如分?jǐn)?shù)蒸餾采樣SDS)將預(yù)訓(xùn)練擴(kuò)散模型適配用于合成動態(tài)4D場景(見圖12)。這些方法充分利用來自文本到圖像、多視角圖像及文本到視頻生成模型的強(qiáng)大先驗,生成具有豐富運動動態(tài)且時間連貫的場景。
![]()
例如:
- MAV3D [237] 在文本提示引導(dǎo)下,對NeRF或HexPlane特征進(jìn)行SDS損失優(yōu)化;
- 4D-fy [238] 與 Dream-in-4D [241] 通過在SDS監(jiān)督中融合圖像、多視角和視頻擴(kuò)散模型,提升3D一致性與運動動態(tài);
- AYG [239] 提出使用可變形3DGS作為內(nèi)在表示,通過簡單的Δ形變場輕松解耦靜態(tài)幾何與動態(tài)運動,從而提升靈活性。
基于此類流程,近期工作從多個維度進(jìn)一步改進(jìn)4D生成:外觀質(zhì)量、幾何一致性、運動保真度和生成可控性。具體而言:
- TC4D [242] 與 SC4D [246] 支持用戶自由控制4D對象的運動軌跡;
- STAG4D [248] 采用多視角融合策略,增強(qiáng)幀間的時空對齊,確保平滑過渡與一致性;
- DreamScene4D [249] 與 DreamMesh4D [251] 采用解耦策略,將優(yōu)化集中在局部區(qū)域,顯著降低計算開銷同時保持高保真度;
- 最新進(jìn)展如 4Real [243] 與 C3V [244] 通過將組合式場景生成與高效優(yōu)化相結(jié)合,進(jìn)一步拓展了基于優(yōu)化方法的邊界。這些方法將動態(tài)場景分解為模塊化組件(如靜態(tài)幾何與運動場),支持靈活更新與多樣化內(nèi)容生成。
盡管基于優(yōu)化的方法在生成高質(zhì)量、時間一致的結(jié)果方面具有優(yōu)勢,但其計算成本高昂,運行時間通常無法滿足實時應(yīng)用需求。隨著研究推進(jìn),當(dāng)前努力正聚焦于在不犧牲視覺保真度或動態(tài)真實感的前提下,提升可擴(kuò)展性并降低延遲。
評估(Evaluation):
4D生成方法的定量評估主要聚焦于以下三個方面:
1)生成單個4D資產(chǎn)所需的時間成本;
2)CLIP分?jǐn)?shù),用于評估生成結(jié)果與真實新視角圖像之間的圖像相似性;
3)生成結(jié)果與真實新視角圖像之間的感知相似性(LPIPS)。
我們在表VII中報告了代表性方法的定量評分,并在圖13中展示了其視覺結(jié)果。讀者可參考文獻(xiàn)[232]獲取更多細(xì)節(jié)。
![]()
![]()
3)應(yīng)用:
(1)4D編輯(4D Editing):
基于指令的編輯(instruction-guided editing)允許用戶通過自然語言對場景進(jìn)行編輯,提供了一種用戶友好且直觀的操作方式。這一能力已在2D圖像領(lǐng)域通過如Instruct-Pix2Pix(IP2P)[271]等模型成功實現(xiàn),在3D場景中也已通過Instruct-NeRF2NeRF(IN2N)[217]得以達(dá)成。然而,將其擴(kuò)展至4D場景仍面臨顯著挑戰(zhàn)。
近期文本到圖像擴(kuò)散模型與可微分場景表示的發(fā)展,使得利用文本提示編輯4D場景成為可能。例如,Instruct 4D-to-4D [272] 將4D場景視為偽3D場景,采用視頻編輯策略,迭代生成時空一致的編輯后數(shù)據(jù)集。同期工作如Control4D [228] 則結(jié)合GAN與擴(kuò)散模型,根據(jù)文本指令對動態(tài)4D人像進(jìn)行一致性編輯。
(2)人體動畫(Human Animation):
作為4D仿真中的核心組成部分,人體運動生成是社區(qū)關(guān)注度最高的研究分支之一。不同于第三節(jié)-B2中所述的以人體為中心的視頻生成,3D人體運動生成更便于在3D應(yīng)用(如游戲、具身智能)中驅(qū)動角色動畫。近期3D人體運動生成的成功主要得益于成熟的人體參數(shù)化模型研究 [273], [274]。
人體運動生成的目標(biāo)可概括為:在數(shù)字世界中模擬4D人體對象,具體可分為兩個方向:
1)基于稀疏控制信號的運動生成:主要根據(jù)用戶指定的稀疏動作(如關(guān)鍵幀)在虛擬世界中模擬人體動畫。
- Robust motion in-between [275] 提出了“到達(dá)時間嵌入”(time-to-arrival embedding)和“調(diào)度目標(biāo)噪聲向量”(scheduled target noise vector),以魯棒地實現(xiàn)不同過渡長度下的運動插值。
- 鑒于運動空間的相位流形(phase manifold)具有良好的結(jié)構(gòu),Starke 等人 [276] 提出使用混合專家網(wǎng)絡(luò)(mixture-of-expert network)在相位流形中進(jìn)行運動插值。
- 此外,稀疏控制引導(dǎo)的運動生成另一重要方向是運動預(yù)測(motion prediction),亦稱運動外推(motion extrapolation)。早期研究 [277]–[280] 嘗試以確定性方式預(yù)測運動;考慮到運動預(yù)測具有主觀性,后續(xù)多項工作 [281]–[285] 轉(zhuǎn)而生成多樣化的預(yù)測運動。
2)基于多模態(tài)條件的運動生成:旨在利用其他模態(tài)輸入(如文本、音頻、音樂)來模擬人體動作。
- 為解決文本-動作配對數(shù)據(jù)稀缺的問題,Guo 等人 [286] 構(gòu)建了規(guī)模相對較大的文本-動作數(shù)據(jù)集 HumanML3D,其體量遠(yuǎn)超以往數(shù)據(jù)集,極大推動了該任務(wù)的發(fā)展。
- 同時,有研究驗證了VQ-VAE [286]–[291] 是另一種利用文本合成動作的有效范式。
- 隨著擴(kuò)散模型的快速發(fā)展,大量工作 [292]–[297] 將擴(kuò)散模型引入該任務(wù),并取得了優(yōu)異的生成質(zhì)量。
- 類似于文本到動作生成任務(wù) [298]–[303],音樂驅(qū)動舞蹈生成的技術(shù)路線也可劃分為三類:cVAE [304]、VQ-VAE [305] 和基于擴(kuò)散的方法 [306], [307]。
IV. 數(shù)據(jù)集與評估(DATASETS AND EVALUATIONS)
本節(jié)中,我們在表VIII中匯總了2D、視頻、3D和4D生成任務(wù)中常用的數(shù)據(jù)集。隨后,在表IX中對評估指標(biāo)進(jìn)行了統(tǒng)一且全面的總結(jié)。
![]()
在定量分析方面,我們從兩個角度評估指標(biāo):
1)質(zhì)量(Quality):評估合成數(shù)據(jù)的感知質(zhì)量,不依賴于輸入條件(如文本提示);
2)對齊性(Alignment):衡量條件一致性,即生成數(shù)據(jù)與用戶預(yù)期輸入的匹配程度。
在定性分析方面,生成結(jié)果的視覺質(zhì)量在方法評估中起著關(guān)鍵作用。因此,我們納入了一些基于人類偏好的指標(biāo)作為參考,以更有效地開展用戶研究,從而獲得更具說服力的定性分析結(jié)果。
此外,我們主張在評估中應(yīng)重視生成模型部署時所面臨的實際挑戰(zhàn),尤其是與計算效率相關(guān)的問題。許多當(dāng)前最先進(jìn)的方法需要大量GPU資源和較長的推理時間,這限制了它們在現(xiàn)實應(yīng)用中的可及性與可擴(kuò)展性。這些因素雖未必總體現(xiàn)在評估指標(biāo)中,但在資源受限環(huán)境或交互式系統(tǒng)中部署時至關(guān)重要。我們鼓勵未來的基準(zhǔn)測試納入運行時間、內(nèi)存占用和訓(xùn)練成本等指標(biāo),以更真實地反映生成模型的實際可行性。
V. 未來方向(FUTURE DIRECTIONS)
盡管2D、視頻、3D和4D生成領(lǐng)域進(jìn)展迅速,但仍存在諸多開放性問題,尤其是在多模態(tài)交互的場景下。這些問題因空間與時間維度整合的復(fù)雜性而進(jìn)一步加劇。
- 2D生成中,提升生成圖像的真實感與多樣性仍是關(guān)鍵障礙;
- 視頻生成中,建模長期時間動態(tài)并確保幀間平滑過渡是核心挑戰(zhàn);
- 3D生成中,如何在高質(zhì)量輸出與計算效率之間取得平衡仍是關(guān)鍵問題。
解決上述挑戰(zhàn)對推進(jìn)4D生成至關(guān)重要,因為4D生成建立在這些已有基礎(chǔ)之上。因此,一條清晰的技術(shù)路線圖不僅有助于4D研究,也對4D模型所依賴的2D、視頻和3D相關(guān)領(lǐng)域具有指導(dǎo)意義。
多模態(tài)生成(Multimodal Generation):
生成多樣化且逼真的4D內(nèi)容十分困難,因為真實場景在空間、時間及感官通道上跨越多種模態(tài)。多模態(tài)學(xué)習(xí)的研究揭示了三個持續(xù)存在的障礙:
1)需要可靠的跨模態(tài)對齊機(jī)制,以確保合成的4D資產(chǎn)能準(zhǔn)確遵循給定的文本、圖像或視頻提示;
2)高質(zhì)量標(biāo)注的多模態(tài)數(shù)據(jù)集稀缺,尤其在專業(yè)領(lǐng)域,限制了當(dāng)前模型所能學(xué)習(xí)的真實世界動態(tài)范圍;
3)現(xiàn)有架構(gòu)難以擴(kuò)展到高分辨率3D場景隨時間演化的內(nèi)存與計算開銷。
盡管條件擴(kuò)散模型、組合式潛在空間和跨模態(tài)對比預(yù)訓(xùn)練已提升了生成質(zhì)量,但在上述約束下同時實現(xiàn)多樣性與保真度仍是一個開放的研究問題。
時間一致性與連貫性(Temporal Consistency and Coherence):
在4D生成中,確保長時間序列中幀與幀之間平滑且逼真的過渡是一項重大挑戰(zhàn)。與靜態(tài)3D生成不同,4D生成需在時間步長上維持形狀、紋理和運動的一致性。閃爍(flickering)或非自然形變等偽影極易在長序列中出現(xiàn)。如何在不犧牲細(xì)節(jié)或真實感的前提下強(qiáng)制實現(xiàn)時間連貫性,仍是一個未解難題。
效率與可控性(Efficiency and Controllability):
4D資產(chǎn)生成涉及龐大的時空張量和漫長的優(yōu)化周期,對GPU內(nèi)存與算力造成巨大壓力。當(dāng)使用分?jǐn)?shù)蒸餾采樣(SDS)時,這種開銷進(jìn)一步加劇,因其隱式形式使結(jié)果對控制信號和擴(kuò)散先驗高度敏感。亟需緊湊的表示方法與可擴(kuò)展的架構(gòu)以降低這些負(fù)擔(dān)。同時,當(dāng)前流程僅支持粗粒度控制;精確的運動路徑與語義級編輯仍然困難。未來進(jìn)展將依賴于面向控制的算法設(shè)計和清晰的交互界面。
保真度與多樣性(Fidelity and Diversity):
在4D生成中同時維持高保真度與多樣性依然困難。
- 保真度方面:形狀、紋理和運動必須在時間上保持一致;否則,長序列會出現(xiàn)閃爍、細(xì)節(jié)模糊以及幾何或光度漂移等問題。當(dāng)前用于圖像到4D、視頻到4D、3D到4D生成流程中的擴(kuò)散模型,難以從有限輸入中推斷缺失視角和高頻細(xì)節(jié),凸顯出對更強(qiáng)時間正則化、視角感知條件機(jī)制以及內(nèi)存高效架構(gòu)的需求——這些架構(gòu)需在保障逐幀質(zhì)量的同時確保平滑演化。
- 多樣性方面:當(dāng)前模型在不同物體、運動風(fēng)格和環(huán)境下的泛化能力較差,因為動態(tài)3D內(nèi)容高度可變,而訓(xùn)練數(shù)據(jù)集仍較為狹窄。要實現(xiàn)魯棒泛化,需更廣泛的數(shù)據(jù)覆蓋、自適應(yīng)條件機(jī)制和模塊化訓(xùn)練策略,以確保在未見場景中仍能維持高保真合成。
物理與動力學(xué)建模(Physics and Dynamics Modeling):
逼真的4D生成必須以物理精度再現(xiàn)碰撞、彈性/塑性形變和流體流動。然而,將此類物理規(guī)律嵌入生成模型極具挑戰(zhàn),因其涉及求解偏微分方程或?qū)崟r模擬交互過程,難以在物理保真度與計算速度之間取得可行平衡。一個有前景的方向是將生成網(wǎng)絡(luò)與可微分模擬器或神經(jīng)常微分方程(Neural ODE)層相結(jié)合,通過基于梯度的訓(xùn)練強(qiáng)制滿足牛頓力學(xué)定律。構(gòu)建此類耦合系統(tǒng)可形成一種“世界模型”(world model),封裝真實世界特性,并為評估物理與動力學(xué)一致的4D生成提供天然基準(zhǔn)。未來研究可在此類基準(zhǔn)基礎(chǔ)上,更好地模擬真實交互,同時保持計算效率。
VI. 結(jié)論(CONCLUSIONS)
在本綜述中,我們回顧了用于模擬現(xiàn)實世界的多模態(tài)生成模型的最新進(jìn)展,聚焦于外觀、動力學(xué)與幾何這三個交織的維度。我們對2D、視頻、3D和4D生成領(lǐng)域的現(xiàn)有方法進(jìn)行了分類,討論了其代表性方法、跨域關(guān)聯(lián)與技術(shù)差異,并輔以對比性視覺示例。此外,我們匯總了常用數(shù)據(jù)集與評估指標(biāo),為基準(zhǔn)測試提供了實用參考。
盡管進(jìn)展迅速,根本性挑戰(zhàn)依然存在,例如生成流程的可擴(kuò)展性、長序列中的時間一致性,以及對真實世界動態(tài)的適應(yīng)能力。我們指出了若干開放研究方向,包括:跨模態(tài)的統(tǒng)一表示、稀疏監(jiān)督下的高效訓(xùn)練,以及融入物理約束以增強(qiáng)真實感。
我們希望本綜述不僅能為初學(xué)者提供全面概覽,也能為未來研究奠定基礎(chǔ),推動構(gòu)建更加連貫、可控且物理可信的多模態(tài)生成系統(tǒng)。
原文鏈接:https://arxiv.org/pdf/2503.04641
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.