<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      《現(xiàn)代電影技術(shù)》|黃東晉等:人工智能生成內(nèi)容在電影創(chuàng)制中的革新:ECCV 2024 AIGC技術(shù)綜述

      0
      分享至


      本文刊發(fā)于《現(xiàn)代電影技術(shù)》2024年第11期

      專家點評

      人工智能技術(shù)的飛速發(fā)展與廣泛應(yīng)用為電影創(chuàng)制領(lǐng)域帶來了一場深刻的變革。AIGC技術(shù)及其在圖像生成、視頻生成、3D生成等方面的突破性進(jìn)展,為電影行業(yè)帶來了前所未有的創(chuàng)新動力。當(dāng)前在圖像、視頻和3D內(nèi)容生成中的AIGC前沿技術(shù),在提升內(nèi)容真實感、多樣性和可控性方面取得了顯著進(jìn)展。同時,這些技術(shù)在劇本撰寫、特效制作、角色扮演等電影創(chuàng)制環(huán)節(jié)可以有效簡化制作流程、降低成本,并為創(chuàng)作者提供更多樣化的工具和方法。然而,盡管AIGC技術(shù)為電影創(chuàng)制帶來了巨大潛力,但也面臨著技術(shù)可控性、版權(quán)保護(hù)和創(chuàng)作者權(quán)益等挑戰(zhàn)。此外,只有在技術(shù)創(chuàng)新與倫理規(guī)范的共同推動下,AIGC技術(shù)才能更好地賦能電影創(chuàng)制,助力電影產(chǎn)業(yè)的高質(zhì)量發(fā)展。《人工智能生成內(nèi)容在電影創(chuàng)制中的革新:ECCV 2024 AIGC 技術(shù)綜述》深入探討了ECCV 2024會議上展示的AIGC技術(shù)在電影創(chuàng)制中的融合創(chuàng)新應(yīng)用,揭示了AIGC技術(shù)如何推動電影制作流程的自動化和智能化,以及其在提升作品藝術(shù)價值和市場競爭力方面的潛力。整體而言,本文為讀者提供了一個關(guān)于AIGC技術(shù)在電影創(chuàng)制中應(yīng)用的全面視角,不僅展示了技術(shù)的進(jìn)步,也提出了行業(yè)發(fā)展中需要關(guān)注的問題,對于電影行業(yè)的從業(yè)者和研究人員來說,這是一篇兼具啟發(fā)性和指導(dǎo)性的文章。

      ——葉龍

      教授

      中國傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院院長

      作 者 簡 介

      黃東晉

      上海大學(xué)上海電影學(xué)院、上海電影特效工程技術(shù)研究中心副教授、博士生導(dǎo)師,主要研究方向:虛擬現(xiàn)實、人工智能、數(shù)字影視技術(shù)等。

      上海大學(xué)上海電影學(xué)院博士研究生在讀,主要研究方向:深度學(xué)習(xí)、圖像處理等。

      劉金華

      王 倩

      上海大學(xué)上海電影學(xué)院碩士研究生在讀,主要研究方向:計算機視覺與深度學(xué)習(xí)。

      上海大學(xué)上海電影學(xué)院碩士研究生在讀,主要研究方向:深度學(xué)習(xí)、生成式模型等。

      湯譯翔

      近年來,人工智能生成內(nèi)容(AIGC)技術(shù)取得突破性進(jìn)展,電影行業(yè)作為內(nèi)容創(chuàng)作和傳播的重要陣地,正面臨AIGC技術(shù)帶來的變革浪潮。本文深入剖析2024年歐洲計算機視覺國際會議(ECCV)在AIGC領(lǐng)域的最新研究成果,重點探討圖像生成、視頻生成、3D生成等前沿技術(shù)以及在電影創(chuàng)制領(lǐng)域的融合創(chuàng)新應(yīng)用。最后,本文總結(jié)AIGC技術(shù)在電影創(chuàng)制流程中的巨大潛力和當(dāng)前面臨的挑戰(zhàn),并對其未來的發(fā)展路徑進(jìn)行了展望。

      關(guān)鍵詞

      電影創(chuàng)制;人工智能生成內(nèi)容;圖像生成;視頻生成;3D生成

      1引言

      歐洲計算機視覺國際會議(European Conference on Computer Vision, ECCV)自1986年在法國首次舉辦以來,已發(fā)展成為計算機視覺(CV)和人工智能(AI)領(lǐng)域最具影響力的學(xué)術(shù)盛會之一。ECCV 每兩年舉辦一次,吸引了來自全球的頂尖研究人員和業(yè)界專家前來分享圖像處理、機器學(xué)習(xí)(ML)、模式識別、深度學(xué)習(xí)(DL)等領(lǐng)域的最新研究成果和技術(shù)突破。ECCV 2024于9月29日至10月4日在意大利米蘭召開,大會共收到8585篇論文投稿,最終錄用了2395篇,錄用率為27.9%[1]。

      在本屆大會上,人工智能生成內(nèi)容(Artificial Intelligence Generated Content, AIGC)成為主要的焦點議題,展示了其在視覺生成和內(nèi)容創(chuàng)作中的巨大潛力。AIGC在圖像生成與編輯、視頻生成與編輯、3D生成與編輯等領(lǐng)域取得了顯著進(jìn)展,特別是擴散模型(Diffusion Model)、生成式對抗網(wǎng)絡(luò)(GAN)、變分自編碼器(VAE)等生成技術(shù),極大提升了圖像、視頻和3D生成的真實感、多樣性和可控性。這些創(chuàng)新成果極大地推動了影視、游戲、動畫等文化創(chuàng)意產(chǎn)業(yè)的應(yīng)用創(chuàng)新,深刻重塑其創(chuàng)制流程。

      2AIGC技術(shù)與電影創(chuàng)制

      傳統(tǒng)的電影創(chuàng)制流程通常包括劇本撰寫、分鏡頭繪制、場景搭建、演員表演、特效制作、剪輯與后期處理等多個環(huán)節(jié)。而傳統(tǒng)電影制作方法尤其在特效制作、角色扮演、動畫生成和后期編輯等方面存在諸多局限性[2],視覺效果和特效的制作尤其耗時耗力,往往需要依賴專業(yè)的藝術(shù)家、動畫師和特效團隊通過手工繪制、3D建模、動畫渲染等方式逐幀完成。盡管這種流程能確保影片的高質(zhì)量,但其制作周期漫長、成本高昂,且對創(chuàng)作者的專業(yè)技能要求較高。此外,在視覺效果和創(chuàng)意表達(dá)上,傳統(tǒng)流程常受到技術(shù)手段和資源的限制,難以快速響應(yīng)創(chuàng)意需求的變化和市場的多樣化需求。

      近年來,AIGC技術(shù)飛速發(fā)展,在各領(lǐng)域大放光彩。電影作為極具代表性的文化創(chuàng)意產(chǎn)業(yè),正逐步成為AIGC技術(shù)實踐與創(chuàng)新的重要舞臺。該技術(shù)不僅在圖片生成、視頻生成與編輯等方面帶來了創(chuàng)新,還在場景構(gòu)建、虛擬角色的創(chuàng)作與3D動作生成等領(lǐng)域推動了電影創(chuàng)制的不斷革新。通過自動化和個性化的內(nèi)容創(chuàng)作,AIGC 技術(shù)正在為電影產(chǎn)業(yè)帶來全新的可能性,使創(chuàng)制過程更加高效、靈活且富有創(chuàng)造力,進(jìn)一步推動了電影創(chuàng)制與科技發(fā)展的深度融合。

      ECCV 2024 會議上發(fā)表的 AIGC 相關(guān)研究更好地為電影創(chuàng)制帶來新的技術(shù)突破,為簡化制作流程、提升作品的藝術(shù)價值和市場競爭力提供技術(shù)支撐。本文將深入探討這些技術(shù)在電影創(chuàng)制中的具體應(yīng)用以及將帶來的變革,闡述其如何進(jìn)一步推動電影創(chuàng)制的智能化進(jìn)程,為創(chuàng)作者提供更加多樣化的工具和方法,從而提升電影的創(chuàng)意表達(dá)能力和生產(chǎn)效率。

      3ECCV 2024中AIGC技術(shù)發(fā)展綜述

      本章深入分析ECCV 2024會議中關(guān)于圖像生成與編輯、視頻生成與編輯、3D生成與編輯等AIGC技術(shù)的最新研究進(jìn)展,并就這些關(guān)鍵技術(shù)在電影創(chuàng)制領(lǐng)域的應(yīng)用潛力與價值展開討論(圖1)。


      圖1  ECCV 2024中AIGC技術(shù)的最新研究成果及其在電影創(chuàng)制領(lǐng)域的創(chuàng)新應(yīng)用

      3.1 圖像生成與編輯

      多樣化的圖像生成與編輯技術(shù)正在為電影制作行業(yè)開辟新的可能性。創(chuàng)作者可利用這些先進(jìn)工具,創(chuàng)造出更為豐富和引人入勝的視覺效果。這些技術(shù)的結(jié)合使電影制作不再局限于傳統(tǒng)手段,從而在視覺表現(xiàn)上實現(xiàn)更大的靈活性與創(chuàng)新性。無論是生成新圖像、編輯現(xiàn)有素材,還是對畫面進(jìn)行增強,這些手段都極大地豐富了故事敘述方式。

      (1)圖像生成技術(shù)

      圖像生成技術(shù)可基于文本描述、草圖或現(xiàn)有圖像生成高質(zhì)量的新圖像,廣泛應(yīng)用于電影制作領(lǐng)域。通過不斷優(yōu)化算法,這些技術(shù)能夠?qū)崿F(xiàn)更具創(chuàng)意、更細(xì)膩的視覺效果。

      Xue等[3]提出一種優(yōu)化框架,用于改進(jìn)去噪擴散概率模型(Denoising Diffusion Probabilistic Model, DDPM)的采樣效率。該框架通過設(shè)計一個優(yōu)化目標(biāo),最小化常微分方程的真實解與數(shù)值求解的近似解之間的距離。利用約束信任區(qū)域方法,該目標(biāo)能在15秒內(nèi)高效達(dá)成。該優(yōu)化框架顯著提升了在CIFAR?10和ImageNet數(shù)據(jù)集上的圖像生成性能,表現(xiàn)出相較于其他方法平均所需時間的明顯優(yōu)勢。

      Sun等[4]提出的AnyControl是一種創(chuàng)新的多控制文本到圖像(T2I)生成方法。其通過多控制編碼器,有效將用戶指定空間條件(如深度圖和邊緣圖)整合至預(yù)訓(xùn)練模型中。AnyControl支持多種控制信號的自由組合,通過統(tǒng)一的多模態(tài)嵌入,AnyControl可引導(dǎo)生成過程,產(chǎn)生高質(zhì)量且準(zhǔn)確可靠的結(jié)果。

      Hong等[5]提出的ComFusion方法,是一種個性化的文本到圖像生成方法,其能從單一圖像生成多個特定場景中的個性化主體。ComFusion引入了類別場景先驗以保持正則化,利用預(yù)訓(xùn)練模型中的主體類別和場景特定知識,提高了生成圖像的保真度。

      Kim等[6]提出的BeyondScene框架,利用分階段和層次化的方法,首先生成基礎(chǔ)圖像,專注于多人實例創(chuàng)建中的關(guān)鍵元素和超出擴散模型Token限制的詳細(xì)描述。之后通過創(chuàng)新的實例感知層次放大過程,將基礎(chǔ)圖像無縫轉(zhuǎn)換為超過訓(xùn)練圖像尺寸的高分辨率輸出。此框架顯著提高了與詳細(xì)文本描述的一致性和自然度,能夠用于創(chuàng)建高質(zhì)量的帶角色影視圖片素材,對于電影海報、概念設(shè)計等需求有所助益。

      (2)圖像編輯技術(shù)

      圖像編輯在影視行業(yè)中的應(yīng)用需求同樣廣泛,主要體現(xiàn)在實時特效添加、個性化內(nèi)容創(chuàng)作、跨媒體整合和成本效益等方面。創(chuàng)作者可根據(jù)不同應(yīng)用需求快速調(diào)整視頻內(nèi)容,實現(xiàn)高質(zhì)量、個性化定制,靈活的編輯工具還可降低后期制作的時間和成本。

      Koo等[7]提出的FlexiEdit技術(shù)旨在解決當(dāng)前圖像編輯方法在處理非剛性編輯時遇到的挑戰(zhàn)。FlexiEdit引入了兩項關(guān)鍵技術(shù):一是隱空間精煉,通過減少目標(biāo)編輯區(qū)域內(nèi)的高頻成分來調(diào)整隱式去噪模型(Denoising Diffusion Implicit Models, DDIM)的隱空間,使其更適合布局修改;二是編輯保真度增強,通過重新逆向過程確保編輯結(jié)果更精確地反映輸入文本提示。這項技術(shù)在圖像編輯領(lǐng)域,尤其是在執(zhí)行復(fù)雜的非剛性編輯方面,取得了顯著進(jìn)步。

      Cui等[8]提出的StableDrag技術(shù)旨在解決基于點的圖像編輯(Point?based Image Editing)現(xiàn)存的兩大主要問題,即不準(zhǔn)確的點跟蹤和不完整的運動監(jiān)督。StableDrag通過設(shè)計一種判別式點跟蹤方法和基于置信度的潛在空間增強策略來構(gòu)建一個穩(wěn)定且精確的拖拽編輯框架。得益于這些獨特的設(shè)計,StableDrag實現(xiàn)了包括StableDrag?GAN和StableDrag?Diff在內(nèi)的兩類圖像編輯模型。拖動形式施加的圖像編輯更符合人的操作直覺,借助此類技術(shù),能夠構(gòu)建出快捷易用的工作流,使影視從業(yè)者不必增加學(xué)習(xí)成本即可輕松完成編輯。

      除通用的圖像編輯方法,Jin等[9]提出一種全新的學(xué)習(xí)范式,即數(shù)據(jù)放大學(xué)習(xí)(Data Amplify Learning, DAL)及其緊湊型化妝模型 TinyBeauty,以應(yīng)對當(dāng)前面部化妝方法中存在的不準(zhǔn)確監(jiān)督(如臉部對齊錯誤)和復(fù)雜面部提示(包括臉部解析)等問題。DAL的核心在于使用基于擴散的數(shù)據(jù)放大器(Diffusion?based Data Amplifier),避免了傳統(tǒng)擴散模型中的細(xì)節(jié)消失問題,并在保留面部身份的同時實現(xiàn)精確的化妝控制與組合。這種專門針對化妝編輯的模型能大大增加影視后期對演員妝造的修補增強,驅(qū)動更細(xì)膩完善的視覺效果。

      (3)圖像增強技術(shù)

      圖像增強技術(shù)在影視行業(yè)的應(yīng)用主要體現(xiàn)在后期制作、超分辨率重建、色彩增強、場景合成、去噪聲處理和虛擬角色合成等方面。這些技術(shù)能修復(fù)拍攝瑕疵,提高素材質(zhì)量,并使圖像更加鮮艷真實,提升觀影體驗。此外,通過去噪聲和合成技術(shù),創(chuàng)作者能夠更高效地處理低光環(huán)境素材和生成自然的虛擬角色,從而實現(xiàn)更高的創(chuàng)作自由和可能性。

      Li等[10]提出一種新的超分辨率技術(shù),通過動態(tài)深度神經(jīng)網(wǎng)絡(luò)(Dy?DCA)和內(nèi)容感知數(shù)據(jù)處理流水線(Content?Aware Data Processing Pipeline)減少模型數(shù)量,從而優(yōu)化性能并節(jié)省計算資源。該技術(shù)在普通手機上實現(xiàn)了更好的峰值信噪比(PSNR)和實時性能。

      Li等[11]提出的BeNeRF是針對從單張模糊圖像及其對應(yīng)的事件流中恢復(fù)神經(jīng)輻射場(Neural Radiance Field, NeRF)的一種創(chuàng)新方法。該方法通過引入事件流來規(guī)范NeRF的學(xué)習(xí)過程,有效消除了運動模糊。該方法不僅能從學(xué)習(xí)到的NeRF渲染視角一致的潛在清晰圖像,還能以高質(zhì)量重現(xiàn)模糊圖像的生動效果,進(jìn)而輔助影視制作中的素材修復(fù)與增強,傳統(tǒng)方法中需丟棄的廢片,可通過去模糊恢復(fù)其使用價值。

      Sun等[12]提出一種基于直方圖變換器(Histoformer)的方法,用于惡劣天氣條件下的圖像恢復(fù)。該方法主要針對由天氣引起的退化因素,如相似的遮擋和亮度變化等,提出直方圖自注意力機制,將空間特征按照強度分箱處理,并在不同的或同一個箱內(nèi)應(yīng)用自注意力,以便有選擇地關(guān)注動態(tài)范圍內(nèi)的空間特征并對像素進(jìn)行處理。Histoformer可用于改善惡劣天氣下影視拍攝的質(zhì)量,特別是外景情況下對天氣環(huán)境的依賴性。

      Fu等[13]提出名為Temporal As a Plugin(TAP)的新型無監(jiān)督視頻去噪框架及逐步微調(diào)策略,旨在解決獲取動態(tài)場景配對視頻數(shù)據(jù)的難題。TAP能利用跨噪聲幀的時間信息,補充其空間去噪能力。噪聲引起的圖像退化是影視資料保存過程中的主要問題之一,通過不斷優(yōu)化的去噪方法,可實現(xiàn)對受到噪聲影響的老電影進(jìn)行修復(fù),也可增強拍攝的圖像素材。

      Zhuang等[14]提出的PowerPaint是首個能同時高質(zhì)量完成上下文感知圖像修復(fù)和文本引導(dǎo)對象修復(fù)任務(wù)的模型。其通過引入可學(xué)習(xí)的任務(wù)提示及定制化微調(diào)策略,明確指導(dǎo)模型專注于不同的修復(fù)目標(biāo),從而克服了現(xiàn)有方法難以同時處理這兩種類型修復(fù)任務(wù)的挑戰(zhàn)。

      圖像生成與編輯技術(shù)在影視創(chuàng)制各階段展現(xiàn)出廣泛的應(yīng)用潛力。圖像生成技術(shù)不僅加速了圖像生成過程,支持快速批量生產(chǎn)圖片素材,還通過個性化的圖片控制手段賦予創(chuàng)作者更大的創(chuàng)作自由度,便于他們根據(jù)影片需求微調(diào)或快速迭代圖片要素。這在概念設(shè)計和原型展示階段尤為重要,能有效縮短制作周期并降低成本。圖像編輯技術(shù)不僅優(yōu)化了傳統(tǒng)工作流程中的編輯環(huán)節(jié),提高了素材處理的效率和靈活性,還增強了創(chuàng)作者對AI生成圖像的控制能力,確保最終作品能夠更好地滿足創(chuàng)作意圖。在影視制作中后期,圖像增強技術(shù)可用于圖像修復(fù)、去噪、去模糊及惡劣天氣條件下圖像質(zhì)量的恢復(fù),從而減少廢片率。與直接生成圖像相比,基于現(xiàn)有素材的圖像增強技術(shù)更加可控和實用,成為推動AIGC在影視行業(yè)應(yīng)用的關(guān)鍵因素之一。與此同時,上映影片的技術(shù)指標(biāo)也在不斷提升,如由李安執(zhí)導(dǎo)的《雙子殺手》于2019年上映,其影片技術(shù)規(guī)格達(dá)到了3D 4K 120 FPS。如此高規(guī)格的影片,目前只有少數(shù)頭部制作機構(gòu)能涉足,而AI賦能的圖像超分辨率、補幀等技術(shù)將把高新技術(shù)格式制片帶向更多從業(yè)者。

      3.2 視頻生成與編輯

      隨著深度學(xué)習(xí)和計算機視覺技術(shù)的飛速發(fā)展,AI驅(qū)動的視頻處理系統(tǒng)已能夠執(zhí)行從無到有的視頻生成、復(fù)雜的視頻編輯與后期制作等任務(wù)。這些技術(shù)不僅大大提高了電影創(chuàng)制效率,還為創(chuàng)作者提供了前所未有的創(chuàng)意可能性。視頻生成任務(wù)包括從文本、圖像或簡單草圖生成完整視頻序列,而編輯任務(wù)則涵蓋了視頻內(nèi)容的修改、增強和轉(zhuǎn)換。這些AI系統(tǒng)能夠理解并操作視頻的多個方面,包括視覺內(nèi)容、運動動態(tài)、音頻同步,甚至是敘事結(jié)構(gòu)和情感表達(dá)。

      (1)視頻生成技術(shù)

      視頻生成技術(shù)利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)(Neural Network)模型,能夠從文本描述、靜態(tài)圖像或簡單的草圖輸入中自動創(chuàng)造出符合描述的高保真視頻序列。如生成影視和游戲中的場景、角色、特效等,或根據(jù)原始影片生成電影預(yù)告片,根據(jù)產(chǎn)品文字介紹生成視頻廣告等,具備廣闊的應(yīng)用前景。

      Guo等[15]提出SparseCtrl,一種為預(yù)訓(xùn)練的文本生成視頻模型添加時間稀疏控制的方法。通過附加編碼器網(wǎng)絡(luò),SparseCtrl可適應(yīng)包括深度、草圖和RGB圖像在內(nèi)的多種模態(tài),極大增強了視頻生成的實用性。該方法在草圖到視頻、圖像動畫、關(guān)鍵幀插值等應(yīng)用中,都顯示出有效性和較好的泛化能力。

      Ren等[16]提出Customize?A?Video方法,能實現(xiàn)對文本到視頻擴散模型的一次性運動定制。該方法通過優(yōu)化模型參數(shù),使模型可根據(jù)文本提示和參考視頻,生成具有特定動作和運動特征的視頻。其優(yōu)勢在于保持文本對齊和時間一致性的同時,還能提供豐富的運動細(xì)節(jié)多樣性。

      Liu等[17]提出PhysGen,一種基于剛體物理的圖像到視頻生成方法。它通過結(jié)合物理引擎和深度學(xué)習(xí)技術(shù),能從靜態(tài)圖像生成逼真、物理上合理的視頻。該方法無需訓(xùn)練,生成的視頻具有高度的現(xiàn)實感和可控性,展示出優(yōu)于現(xiàn)有數(shù)據(jù)驅(qū)動的圖像到視頻生成作品的結(jié)果。

      Liang等[18]提出MoVideo方法,利用擴散模型來生成具有運動感知能力的視頻,通過結(jié)合文本提示和運動信息來生成連貫且逼真的視頻序列。MoVideo在文本到視頻和圖像到視頻的生成方面都取得了良好的效果,顯示了良好的即時一致性、幀一致性和視覺質(zhì)量。

      Wu等[19]提出FreeInit方法,旨在解決視頻擴散模型在初始噪聲設(shè)置上的問題,通過迭代細(xì)化初始噪聲提高視頻生成的時間一致性。研究者們展示了該方法在多個擴散模型上的有效性,包括VideoCrafter、ModelScopeT2V和AnimateDiff,并探討了在頻率域中調(diào)節(jié)初始噪聲的不同頻率成分以改善時間一致性。

      Li等[20]提出ZeroI2V方法,能將預(yù)訓(xùn)練的圖像Transformer模型零成本地適應(yīng)到視頻任務(wù)上。研究者們通過引入空間-時間動態(tài)頭注意力(Spatial?Temporal Dynamic Head Attention, STDHA)和線性適配器(Linear Adapter)來增強模型對視頻數(shù)據(jù)的時間建模能力,同時保持了參數(shù)數(shù)量的最小化。該方法在視頻識別任務(wù)上取得了優(yōu)異性能,并且比全參數(shù)微調(diào)的參數(shù)更新更少,但性能呈現(xiàn)顯著提升。

      Niu等[21]提出圖像動畫控制方法MOFA?Video,能利用額外的控制信號(如人體標(biāo)記參考、手動軌跡和提供的其他視頻)或它們的組合,從給定的圖像生成視頻。為實現(xiàn)這一目標(biāo),該論文設(shè)計了幾種領(lǐng)域感知的運動場適配器(MOFA?Adapters),以控制視頻生成過程中的生成運動。通過這種方法實現(xiàn)了對圖像動畫的精細(xì)控制,在動畫應(yīng)用中展示了其有效性和靈活性。

      (2)視頻編輯技術(shù)

      視頻編輯技術(shù)是一種用于處理和修改視頻內(nèi)容的方法,通常涵蓋多種操作,包括剪輯、拼接、特效添加、畫面調(diào)整等。近年來,隨著人工智能和機器學(xué)習(xí)的發(fā)展,視頻編輯技術(shù)逐漸向自動化和智能化升級,不斷改善與用戶之間的交互體驗。

      Yoon等[22]提出基于擴散模型的視頻編輯框架DNI。該框架通過在指定編輯區(qū)域添加高斯噪聲來減少輸入視頻結(jié)構(gòu)對編輯區(qū)域的限制性影響,從而實現(xiàn)對視頻中主體或?qū)ο蟮膹?fù)雜非剛性修改。該框架的優(yōu)點是能夠以與模型無關(guān)的方式輕松應(yīng)用于任何基于擴散的編輯系統(tǒng),并增強他們執(zhí)行非剛性編輯的能力。

      Fan等[23]提出新型視頻編輯方法Videoshop,利用噪聲外推擴散反演技術(shù)來實現(xiàn)對視頻的局部語義編輯。該方法通過編碼、噪聲外推反演、擴散和重縮放解碼等步驟,實現(xiàn)了對輸入視頻的編輯,并能根據(jù)編輯后的第一幀引導(dǎo)視頻的編輯過程。該方法表現(xiàn)出能夠制作更高質(zhì)量視頻的編輯能力。

      Singer等[24]提出一種新的視頻編輯技術(shù),通過結(jié)合文本到圖像的模型和圖像編輯適配器,實現(xiàn)了無需監(jiān)督數(shù)據(jù)的視頻編輯。研究者們設(shè)計了一種因子化擴散蒸餾(Factorized Diffusion Distillation, FDD)方法,通過凍結(jié)適配器并使用低秩適配(LoRA)權(quán)重對文本到圖像的主干網(wǎng)絡(luò)進(jìn)行微調(diào),以改善視頻編輯質(zhì)量。

      Rao等[25]提出一種視頻去模糊方法,利用小波感知動態(tài)變換器(Wavelet?Aware Dynamic Transformer)和擴散模型來提高去模糊效果。研究者們首先使用小波感知動態(tài)變換器提取高質(zhì)量的特征,然后通過擴散模型生成先驗特征。通過三個階段的訓(xùn)練策略,該方法能夠生成無偽影且高度真實的去模糊視頻。

      Deng等[26]提出交互式拖拽風(fēng)格視頻編輯方法DragVideo。該方法利用視頻擴散模型和LoRA技術(shù),允許用戶通過拖拽操作來編輯視頻中的對象。用戶可定義關(guān)鍵點和目標(biāo)點,并通過優(yōu)化過程來實現(xiàn)預(yù)期的編輯效果。與現(xiàn)有方法相比,DragVideo展示出在視頻編輯中的有效性和操作簡單易上手的優(yōu)勢。

      Wu等[27]提出DragAnything方法,通過使用實體表示來實現(xiàn)對視頻中任意對象的運動控制。研究者們提出了一種基于軌跡的視頻生成任務(wù),該任務(wù)要求模型根據(jù)給定運動軌跡合成視頻。DragAnything通過引入實體表示和2D高斯表示,提高了運動控制的準(zhǔn)確性和視頻質(zhì)量。該方法還支持對前景和背景的靈活控制,甚至可實現(xiàn)對云層和星空等復(fù)雜背景元素的控制。

      Wang等[28]提出視頻外延方法MOTIA(Mastering Video Outpainting Through Input?Specific Adaptation),通過特定輸入適應(yīng)來優(yōu)化視頻外延任務(wù)的性能。MOTIA利用了預(yù)訓(xùn)練的文本到圖像(T2I)模型Stable Diffusion,結(jié)合視頻編輯技術(shù),將2D卷積轉(zhuǎn)換為偽3D卷積,又將2D組歸一化轉(zhuǎn)換為3D組歸一化,以處理視頻潛在特征。此外,MOTIA還整合了最初用于圖像修復(fù)的ControlNet網(wǎng)絡(luò),以處理額外的遮罩輸入,并利用其提取有效信息,實現(xiàn)更可控的去噪。該方法不僅增加了視頻的空間維度,也確保了新擴展區(qū)域與已知區(qū)域之間的連續(xù)性及和諧性。

      (3)聲畫同步技術(shù)

      隨著AIGC技術(shù)的發(fā)展,音頻和視頻的無縫整合成為電影制作中的一項重要突破。這一領(lǐng)域的創(chuàng)新聚焦于如何使用AI技術(shù)來協(xié)調(diào)和同步音頻與視頻內(nèi)容,創(chuàng)造出更加沉浸式和引人入勝的觀影體驗。

      Zhang等[29]提出ASVA(Audio?Synchronized Visual Animation),旨在通過音頻信號來控制視頻內(nèi)容的動態(tài)效果,實現(xiàn)音畫同步。該技術(shù)的核心在于生成與音頻同步的視頻序列,具體而言,即給定一段音頻和一張圖片,生成一系列視頻幀,這些幀不僅要在視覺上保持高質(zhì)量,還要在語義上與原始圖片和音頻保持一致,同時展現(xiàn)出時間上的連貫性和自然的對象運動。該技術(shù)還可使模型捕捉音頻的細(xì)微變化,從而實現(xiàn)對視頻動態(tài)的精確控制。此外,該技術(shù)通過首幀空間注意力和時序卷積機制,在生成動畫的同時保持了與輸入圖像的高度一致性,這一特性對電影制作中保持場景連續(xù)性至關(guān)重要。

      Pascual等[30]提出一個V2A生成模型MaskVAT,其將全頻帶高質(zhì)量的通用音頻編解碼器與序列到序列掩蔽生成模型互連。這種組合允許對高音頻質(zhì)量、語義匹配和時間同步性進(jìn)行同時建模。通過將高質(zhì)量的編解碼器與適當(dāng)?shù)念A(yù)訓(xùn)練視聽功能和序列到序列并行結(jié)構(gòu)相結(jié)合,該模型在視聽同步上有較好的表現(xiàn)效果,有望達(dá)到一些最新非編解碼器生成音頻模型的技術(shù)水平。

      Goncalves等[31]提出PEAVS(Perceptual Evaluation of Audio?Visual Synchrony),用于評估視聽同步性。該方法基于觀眾意見評分,通過分析視聽內(nèi)容不同的失真類型和級別,并與人類評估結(jié)果進(jìn)行比較,以驗證其有效性。PEAVS在大多數(shù)情況下與人類判斷一致,但若在片段混亂的初期階段,其性能不如人類評估。此外,PEAVS在檢測視聽偏移方面表現(xiàn)出更好的效果。

      AI驅(qū)動的視頻生成與編輯技術(shù)正深刻改變電影制作行業(yè)。從視頻生成到編輯再到聲畫同步,這些技術(shù)大大提高了制作效率,同時為創(chuàng)作者提供了前所未有的創(chuàng)意可能性。在前期創(chuàng)作階段,人工智能輔助編劇系統(tǒng)可根據(jù)創(chuàng)意提示生成初步劇本,為編劇提供靈感。預(yù)演工具能快速生成粗略的場景動畫,幫助導(dǎo)演構(gòu)思鏡頭。在后期制作環(huán)節(jié),AI驅(qū)動的視頻編輯軟件可自動完成粗剪,為剪輯師節(jié)省大量時間。智能調(diào)色系統(tǒng)能一鍵實現(xiàn)色彩風(fēng)格化,提升視覺美感。基于深度學(xué)習(xí)的視頻修復(fù)技術(shù)可去除畫面噪點、修復(fù)老舊影像。而視頻生成AI甚至可創(chuàng)造出全新的鏡頭和特效,進(jìn)一步拓展創(chuàng)作可能性。

      3.3 3D生成與編輯

      3D生成與編輯技術(shù)是現(xiàn)代電影制作的重要組成部分,它不僅增強了影片的視覺表現(xiàn)力,也大幅提升了制作效率和質(zhì)量。當(dāng)前,先進(jìn)的3D生成和編輯技術(shù)能夠?qū)崟r處理復(fù)雜的幾何形態(tài)和場景,為電影創(chuàng)制工作者提供了更大的制作空間和技術(shù)支持。

      (1)虛擬人生成技術(shù)

      虛擬人生成是3D生成技術(shù)的重要應(yīng)用方向之一,其目的是通過先進(jìn)算法實現(xiàn)高度逼真的角色建模和動作生成。該技術(shù)有望替代傳統(tǒng)手工建模,自動生成復(fù)雜的角色外形和動作,大幅減少動畫師的工作量,提升制作效率。此外,虛擬人生成技術(shù)還為游戲、電影和虛擬人類的交互提供了新的可能性,使虛擬角色不僅是視覺上的呈現(xiàn),更能在情感表達(dá)和交互方面具有更高的真實感。

      Zhuo等[32]提出VividDreamer,運用了不變評分蒸餾(ISD)方法。該方法旨在解決傳統(tǒng)分?jǐn)?shù)蒸餾采樣(Score Distillation Sampling, SDS)方法中過飽和與過平滑問題。通過將SDS的重建項替換為不變評分項,VividDreamer能夠平衡分類器自由引導(dǎo)和重建的矛盾,實現(xiàn)更高保真的3D對象生成。

      Moon等[33]提出ExAvatar,結(jié)合了SMPL?X網(wǎng)格模型和3D高斯分布,能夠從單目視頻生成帶有面部表情和手部動作的全身3D角色。通過在面部表情空間中進(jìn)行驅(qū)動,該方法顯著減少了在生成新面部表情時的偽影問題。

      Liu等[34]提出TexDreamer方法,旨在解決基于語義UV圖生成高保真3D人類紋理的挑戰(zhàn)。盡管現(xiàn)有的多視圖渲染監(jiān)督文本到圖像(T2I)模型在生成方面取得了一定進(jìn)展,但仍面臨生成速度、文本一致性和紋理質(zhì)量等問題。TexDreamer通過高效的紋理適應(yīng)微調(diào)策略,將大型T2I模型適配到語義UV結(jié)構(gòu),同時保持其原有泛化能力。

      Zhang等[35]提出Motion Mamba方法,旨在生成長序列且高效的人類動作。該方法利用狀態(tài)空間模型(SSMs),通過設(shè)計層次化的時序Mamba模塊處理時序數(shù)據(jù),并通過雙向空間Mamba模塊增強運動幀之間的連貫性。該方法在生成質(zhì)量和速度上實現(xiàn)顯著提升。

      Ren等[36]提出CrossDiff方法,結(jié)合了文本描述與運動生成,通過共享的Transformer網(wǎng)絡(luò)集成3D和2D信息,將運動噪聲統(tǒng)一至單一特征空間,從而實現(xiàn)了跨維度的特征解碼。該方法的主要優(yōu)點在于其交叉擴散機制,能在訓(xùn)練過程中將2D或3D噪聲逆轉(zhuǎn)為利落的運動,這一能力有效地捕捉到了復(fù)雜的人體運動細(xì)節(jié)。因此,CrossDiff在文本到運動基準(zhǔn)測試中表現(xiàn)出色,展示了生成更真實運動序列的能力。

      He等[37]提出EmoTalk3D方法,通過“Speech?to?Geometry?to? Appearance”框架生成情感可控的3D角色。該方法先從音頻特征預(yù)測出精確的3D幾何序列,隨后通過4D高斯分布生成3D角色外觀,實現(xiàn)了更高質(zhì)量的口型同步和渲染效果,特別是在動態(tài)面部細(xì)節(jié)(如皺紋和微表情)的捕捉方面表現(xiàn)出色。

      (2)場景生成技術(shù)

      3D場景生成技術(shù)在電影制作中扮演了重要角色,電影創(chuàng)制工作者不再受限于物理場景的構(gòu)建,而可自由設(shè)計和調(diào)整影片的虛擬環(huán)境。這不僅提高了創(chuàng)作的靈活性,還增強了視覺效果的豐富性。高質(zhì)量的場景建模要求對拓?fù)浣Y(jié)構(gòu)和幾何細(xì)節(jié)有良好的捕捉能力,近期的研究提供了新的解決方案,推動了這一領(lǐng)域技術(shù)的進(jìn)步。

      Zhai等[38]提出EchoScene方法,利用場景圖擴散模型生成3D室內(nèi)場景。通過雙分支擴散模型,EchoScene可動態(tài)適應(yīng)場景圖,解決現(xiàn)有方法處理場景圖時面臨的節(jié)點數(shù)目和邊組合多樣性問題。該方法通過信息回聲機制實現(xiàn)了形狀和布局分支間的協(xié)作,提高了場景生成的可控性和一致性,并在實驗中表現(xiàn)出高質(zhì)量的生成結(jié)果,超過了現(xiàn)有的生成方法。

      Liu等[39]提出VCD?Texture方法,通過基于方差對齊的3D?2D協(xié)同去噪框架,統(tǒng)一了2D和3D的潛特征學(xué)習(xí)。通過整合多視角的2D潛特征并進(jìn)行光柵化處理,該方法有效提升了紋理合成的精度。此外,該方法還提出了修復(fù)沖突區(qū)域的修補精化過程,從而實現(xiàn)高質(zhì)量的3D場景紋理生成。

      Han等[40]提出VFusion3D方法,用于從視頻擴散模型中學(xué)習(xí)大規(guī)模3D生成模型。該方法通過解鎖視頻擴散模型的多視角生成能力,生成了大規(guī)模的合成多視角數(shù)據(jù)集,從而訓(xùn)練出一個前饋式的3D生成模型。VFusion3D能夠從單個圖像快速生成3D資產(chǎn),并在性能上優(yōu)于現(xiàn)有的最先進(jìn)方法,實現(xiàn)了更加精細(xì)的場景建模。

      ?cal等[41]提出SceneTeller,一種基于文本的3D房間設(shè)計方法。該方法利用自然語言描述對象在房間中的擺放,生成相應(yīng)的高質(zhì)量3D場景。該方法通過使用上下文學(xué)習(xí)、CAD模型檢索和基于3D高斯點的風(fēng)格化,構(gòu)建了一個便于新手用戶使用的完整流程,展示了生成3D場景的最新成果。

      (3)3D編輯技術(shù)

      3D編輯技術(shù)是近年來計算機圖形學(xué)和電影制作領(lǐng)域的重要方向。這些技術(shù)不僅能夠?qū)?D模型進(jìn)行細(xì)節(jié)優(yōu)化,還能通過幾何與紋理的調(diào)整實現(xiàn)高精度的模型定制。在電影制作中,3D編輯技術(shù)的快速發(fā)展為復(fù)雜場景的生成、角色的精細(xì)化雕刻以及特效制作帶來了革命性變化。相比傳統(tǒng)手動編輯流程,現(xiàn)階段常用的3D編輯工具借助先進(jìn)的算法和機器學(xué)習(xí)技術(shù),可自動化地完成模型和場景的生成與調(diào)整,為電影制作團隊節(jié)省了大量時間與成本,并提升了視覺效果的精確度和一致性。

      Ye等[42]提出Gaussian Grouping方法,通過擴展高斯分組技術(shù)實現(xiàn)3D場景中物體的分割與編輯。該方法引入了一種緊湊的身份編碼,使高斯可以根據(jù)物體實例或場景中的內(nèi)容進(jìn)行分組,并結(jié)合SAM模型的2D掩碼預(yù)測進(jìn)行監(jiān)督,能夠高效實現(xiàn)多種3D場景編輯操作,如物體移除、填充、著色和風(fēng)格遷移。

      Xu等[43]進(jìn)一步優(yōu)化了紋理編輯技術(shù),提出Texture?GS方法。該方法通過解耦3D高斯散射中的幾何和紋理信息,解決了之前方法中紋理編輯受限的問題。通過引入紋理映射模塊,Texture?GS實現(xiàn)了高效的外觀編輯,能夠在消費級設(shè)備上實時渲染高保真圖像,并在DTU數(shù)據(jù)集上的實驗中表現(xiàn)出色。

      Khalid等[44]提出基于單目視頻的3D場景生成和編輯方法3DEgo,旨在通過文本提示直接從單目視頻中生成逼真的3D場景。3DEgo通過消除COLMAP(COLLISION?MAPping)的依賴,并在視頻幀編輯前融入噪聲混合模塊,從而簡化多階段的編輯流程。最終,通過3D高斯點云進(jìn)行場景重建,展現(xiàn)了極高的編輯精度和效率。

      Chen等[45]提出多視角一致性3D編輯方法DGE(Direct Gaussian Editor),通過修改高質(zhì)量的2D編輯器,如InstructPix2Pix,確保編輯的一致性。在給定一組多視角一致的圖像編輯序列后,直接優(yōu)化基于3D高斯點云的場景表示,生成高質(zhì)量3D編輯效果,相較于逐步更新的3D表示方法,DGE更高效、更精確。

      Karim等[46]提出零樣本文本驅(qū)動的3D編輯方法Free?Editor,無需重新訓(xùn)練模型,通過單視圖編輯實現(xiàn)3D場景的修改。Free?Editor通過編輯Transformer確保視圖內(nèi)一致性,同時通過自視圖和跨視圖注意力機制傳遞風(fēng)格,大幅降低了編輯時間和資源消耗。

      在現(xiàn)代電影創(chuàng)制中,3D生成與編輯技術(shù)的融合創(chuàng)新應(yīng)用為創(chuàng)作者提供了前所未有的可能性,不僅提升了影片視覺效果,還推動了敘事方式和表現(xiàn)手法的變革。通過利用自然語言描述和智能生成算法,創(chuàng)作者不僅能更高效地實現(xiàn)設(shè)計創(chuàng)意,還能在動態(tài)調(diào)整和多維度展示中持續(xù)獲得靈感,從而拓寬敘事邊界。此外,3D編輯技術(shù)的進(jìn)步使后期制作變得更加精準(zhǔn)。創(chuàng)作者能在更短時間內(nèi)完成復(fù)雜場景的修改和特效應(yīng)用,從而聚焦藝術(shù)創(chuàng)作本身。這種快速迭代的能力,不僅提升了制作效率,還為觀眾呈現(xiàn)更具沉浸感的視覺體驗。

      4總結(jié)與展望

      ECCV 2024大會展示的前沿技術(shù),進(jìn)一步驗證了AIGC在實際電影制作中的巨大潛力。AIGC技術(shù)在電影創(chuàng)制中展現(xiàn)出的多重應(yīng)用價值,將為電影行業(yè)帶來前所未有的創(chuàng)新與變革。通過GAN、VAE、擴散模型等技術(shù),AIGC實現(xiàn)了高質(zhì)量圖像生成、復(fù)雜視頻合成、3D建模與渲染等功能,使電影制作更加高效、靈活,制作周期與成本得以顯著降低。與此同時,AIGC還為電影創(chuàng)作者提供了豐富的創(chuàng)意表達(dá)工具,進(jìn)而輕松實現(xiàn)虛擬角色塑造、特效場景制作、劇情與對白生成等任務(wù),為電影內(nèi)容的多樣化與創(chuàng)新性提供了強有力的技術(shù)支持。

      AIGC技術(shù)作為新質(zhì)生產(chǎn)力的核心關(guān)鍵引擎,將進(jìn)一步重塑電影創(chuàng)制流程,但同時也面臨諸多挑戰(zhàn)。隨著AIGC生成內(nèi)容在電影中應(yīng)用的日益普及,技術(shù)可控性、版權(quán)保護(hù)、創(chuàng)作者權(quán)益等問題也將變得更加突出。如何確保AIGC生成的角色、場景與內(nèi)容在版權(quán)上得到合理保護(hù),如何明確創(chuàng)作者與技術(shù)提供方之間的權(quán)益歸屬,以及如何使電影創(chuàng)制過程更規(guī)范、透明、可控等,都將是亟待解決的關(guān)鍵問題。只有在技術(shù)創(chuàng)新與倫理規(guī)范的共同推動下,AIGC才能更好地賦能電影創(chuàng)制,助力中國電影高質(zhì)量發(fā)展。

      參考文獻(xiàn)

      (向下滑動閱讀)

      [1] European Conference on Computer Vision (ECCV)[EB/OL]. [2024?09?30]. https://papercopilot.com/statistics/eccv-statistics/.

      [2] Zhang J. Application Analysis of Special Effects Technology in Film and Television Post?Production[C]//Frontier Computing: Proceedings of FC 2020. Springer Singapore, 2021: 1007?1013.

      [3] Xue S, Liu Z, Chen F, et al. Accelerating Diffusion Sampling with Optimized Time Steps[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 8292?8301.

      [4] Sun Y, Liu Y, Tang Y, et al. AnyControl: Create Your Artwork with Versatile Control on Text?to?Image Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2406.18958.

      [5] Hong Y, Duan Y, Zhang B, et al. ComFusion: Personalized Subject Generation in Multiple Specific Scenes From Single Image[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2402.11849.

      [6] Kim G, Kim H, Seo H, et al. BeyondScene: Higher?Resolution Human?Centric Scene Generation With Pretrained Diffusion[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2404.04544.

      [7] Koo G, Yoon S, Hong J W, et al. FlexiEdit: Frequency?Aware Latent Refinement for Enhanced Non?Rigid Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.17850.

      [8] Cui Y, Zhao X, Zhang G, et al. StableDrag: Stable Dragging for Point?based Image Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.04437.

      [9] Jin Q, Chen X, Jin M, et al. Toward Tiny and High?quality Facial Makeup with Data Amplify Learning[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.15033.

      [10] Li G, Shu Z, Ji J, et al. Data Overfitting for On?Device Super?Resolution with Dynamic Algorithm and Compiler Co?Design[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.02813.

      [11] Li W, Wan P, Wang P, et al. BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.02174.

      [12] Sun S, Ren W, Gao X, et al. Restoring Images in Adverse Weather Conditions via Histogram Transformer[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.10172.

      [13] Fu Z, Guo L, Wang C, et al. Temporal As a Plugin: Unsupervised Video Denoising with Pre?Trained Image Denoisers[EB/OL]. [2024?10?22].https://arxiv.org/abs/2409.11256.

      [14] Zhuang J, Zeng Y, Liu W, et al. A Task is Worth One Word: Learning with Task Prompts for High?quality Versatile Image Inpainting[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.03594.

      [15] Guo Y, Yang C, Rao A, et al. Sparsectrl: Adding Sparse Controls to Text?to?video Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2311.16933.

      [16] Ren Y, Zhou Y, Yang J, et al. Customize?a?video: One?shot Motion Customization of Text?to?video Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2402.14780.

      [17] Liu S, Ren Z, Gupta S, et al. PhysGen: Rigid?Body Physics?Grounded Image?to?Video Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2409.18964.

      [18] Liang J, Fan Y, Zhang K, et al. Movideo: Motion?aware Video Generation with Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2311.11325.

      [19] Wu T, Si C, Jiang Y, et al. Freeinit: Bridging Initialization Gap in Video Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.07537.

      [20] Li X, Wang L. Zeroi2v: Zero?cost Adaptation of Pre?trained Transformers from Image to Video[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2310.01324.

      [21] Niu M, Cun X, Wang X, et al. MOFA?Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image?to?Video Diffusion Model[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2405.20222.

      [22] Yoon S, Koo G, Hong J W, et al. DNI: Dilutional Noise Initialization for Diffusion Video Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2409.13037.

      [23] Fan X, Bhattad A, Krishna R. Videoshop: Localized Semantic Video Editing with Noise?Extrapolated Diffusion Inversion[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.14617.

      [24] Singer U, Zohar A, Kirstain Y, et al. Video Editing via Factorized Diffusion Distillation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.09334.

      [25] Rao C, Li G, Lan Z, et al. Rethinking Video Deblurring with Wavelet?Aware Dynamic Transformer and Diffusion Model[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2408.13459.

      [26] Deng Y, Wang R, Zhang Y, et al. Dragvideo: Interactive Drag?style Video Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.02216.

      [27] Wu W, Li Z, Gu Y, et al. DragAnything: Motion Control for Anything using Entity Representation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.07420.

      [28] Wang F Y, Wu X, Huang Z, et al. Be?Your?Outpainter: Mastering Video Outpainting through Input?Specific Adaptation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.13745.

      [29] Zhang L, Mo S, Zhang Y, et al. Audio?Synchronized Visual Animation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.05659.

      [30] Pascual S, Yeh C, Tsiamas I, et al. Masked Generative Video?to?Audio Transformers with Enhanced Synchronicity[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.10387.

      [31] Goncalves L, Mathur P, Lavania C, et al. Perceptual Evaluation of Audio?visual Synchrony Grounded in Viewers' Opinion Scores[EB/OL]. [2024?10?22].https://eccv.ecva.net/virtual/2024/poster/1398.

      [32] Zhuo W, Ma F, Fan H, et al. VividDreamer: Invariant Score Distillation for Hyper?Realistic Text?to?3D Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.09822.

      [33] Moon G, Shiratori T, Saito S. Expressive Whole?Body 3D Gaussian Avatar[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.21686.

      [34] Liu Y, Zhu J, Tang J, et al. TexDreamer: Towards Zero?Shot High?Fidelity 3D Human Texture Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.12906.

      [35] Zhang Z, Liu A, Reid I, et al. Motion Mamba: Efficient and Long Sequence Motion Generation[EB/OL]. [2024?10?11].https://eccv.ecva.net/virtual/2024/poster/655.

      [36] Ren Z, Huang S, Li X. Realistic Human Motion Generation with Cross?Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.10993.

      [37] He Q, Ji X, Gong Y, et al. EmoTalk3D: High?Fidelity Free?View Synthesis of Emotional 3D Talking Head[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2408.00297.

      [38] Zhai G, ?rnek E P, Chen D Z, et al. EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2405.00915.

      [39] Liu S, Yu C, Cao C, et al. VCD?Texture: Variance Alignment based 3D?2D Co?Denoising for Text?Guided Texturing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.04461.

      [40] Han J, Kokkinos F, Torr P. VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2403.12034.

      [41] ?cal B M, Tatarchenko M, Karaoglu S, et al. SceneTeller: Language?to?3D Scene Generation[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.20727.

      [42] Ye M, Danelljan M, Yu F, et al. Gaussian Grouping: Segment and Edit Anything in 3D Scenes[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.00732.

      [43] Xu T X, Hu W, Lai Y K, et al. Texture?GS: Disentangle the Geometry and Texture for 3D Gaussian Splatting Editing[EB/OL]. [2024?10?11]. https://eccv.ecva.net/virtual/2024/poster/581.

      [44] Khalid U, Iqbal H, Farooq A, et al. 3DEgo: 3D Editing on the Go![EB/OL]. [2024?10?22]. https://arxiv.org/abs/2407.10102.

      [45] Chen M, Laina I, Vedaldi A. Dge: Direct Gaussian 3d Editing by Consistent Multi?view Editing[EB/OL]. [2024?10?11]. https://eccv.ecva.net/virtual/2024/poster/2412.

      [46] Karim N, Khalid U, Iqbal H, et al. Free?Editor: Zero?shot Text?driven 3D Scene Editing[EB/OL]. [2024?10?22]. https://arxiv.org/abs/2312.13663.

      【本文項目信息】上海市人才發(fā)展資金資助項目 (2021016)。



      主管單位:國家電影局

      主辦單位:電影技術(shù)質(zhì)量檢測所

      標(biāo)準(zhǔn)國際刊號:ISSN 1673-3215

      國內(nèi)統(tǒng)一刊號:CN 11-5336/TB

      投稿系統(tǒng):ampt.crifst.ac.cn

      官方網(wǎng)站:www.crifst.ac.cn

      期刊發(fā)行:010-63245081

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      電影技術(shù)微刊 incentive-icons
      電影技術(shù)微刊
      電影技術(shù)微刊
      627文章數(shù) 209關(guān)注度
      往期回顧 全部

      專題推薦

      洞天福地 花海畢節(jié) 山水饋贈里的“詩與遠(yuǎn)方

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成人国产综合| 麻豆av在线| 鹰潭市| 亚洲456| 精品国产91久久久久久亚瑟 | 欧美精品人妻| 免费视频国产在线观看| 欧美精品中文字幕亚洲专区| 亚洲精品国偷拍自产在线观看蜜臀| 中文字幕在线亚洲| 淫综合网| 人妻激情综合| 一 级做人爱全视频在线看| 国产性爱网站| 囯产精品一区二区三区AV做线 | 中文字幕乱论| 日本免费一区二区三区四区五区| 日本精品网| 久久99视频| 国产精品久久久久三级| 偷拍激情视频一区二区三区| 伊人在线| 亚洲色A| 一本大道人妻中字幕在线视频| 麻豆精品一区二正一三区| 超碰人人草| 亚洲激情av| 中文字幕人妻小说| 777米奇色狠狠888俺也去乱| 亚洲欧洲AV| 亚洲天堂2013| 亚洲AV综合色区| 国产成人三级三级三级97| 山东| 超碰人妻97| 国产精品一区二区三区蜜臀| 一级做a爰片久久毛片下载| 在线观看成人无码中文av天堂| 国产性夜夜春夜夜爽1a片| 色午夜一av男人的天堂| 国产精品免费无遮挡无码永久视频|