網易首頁 > 網易號 > 正文申請入駐

《現代電影技術》｜面向電影制作的三維數字人生成和編輯系統設計與應用研究

2025-09-05 17:37:36　來源: 電影技術微刊

北京舉報

分享至

本文刊發于《現代電影技術》2025年第8期

專家點評

數字人是通過數字技術創建的虛擬人物形象，其應用涵蓋醫學仿真、教育培訓、文化傳播等多個領域，當前數字人技術已實現高度逼真的交互與多場景落地。數字人生成融合計算機視覺、計算機圖形學、人工智能等技術，可用于現代電影中人物的特效表現，其內容涉及人體、人臉、發型及服裝等。在電影特效領域，數字人生成的研究尤為重要。《面向電影制作的三維數字人生成和編輯系統設計與應用研究》一文針對傳統數字人制作流程成本高、周期長的產業瓶頸，設計并實現了一套單目視頻驅動的數字人快速生成與編輯系統。所提技術方案創新整合了三維高斯潑濺（3DGS）技術高效渲染與易于編輯的優勢，允許用戶在生成高保真數字人后，支持直觀、靈活、高效的二次創作。在人工智能（AI）與數字技術深度融合的今天，數字人技術加快推進智能化升級，技術性能、逼真度和智能化水平持續提升，其已從科幻概念走向現實場景，并成為連接虛擬與現實的核心載體。從打破物理限制的智能服務到重構文化傳播的沉浸體驗，數字人憑借其超寫實形象、強交互能力及7×24小時不間斷服務的特性，在多個領域掀起效率革命。相信本文介紹的技術將為相關領域的研究人員提供很好的借鑒與參考。

—— 潘志庚

二級教授

南京信息工程大學元宇宙研究院院長

作者簡介

李夢甜

上海大學上海電影學院、上海電影特效工程技術研究中心講師，主要研究方向：面向影視、游戲與藝術領域的數字內容理解與生成。

上海大學上海電影學院碩士研究生在讀，主要研究方向：三維重建、數字人重建。

姚聲祥

楊洋

上海大學上海電影學院講師，主要研究方向：電影創作。

摘要

針對傳統數字人制作流程成本高、周期長的產業瓶頸，本文以提升生產效率為核心目標，設計并實現了一套單目視頻驅動的數字人快速生成和編輯系統。該方案創新整合了三維高斯潑濺高效渲染與易于編輯的優勢，允許用戶在短時間內生成高保真數字人后，對素材進行智能分割和存儲，并立即進行直觀、靈活的二次創作。測試結果顯示，本系統能夠顯著縮短數字人的制作時間，并降低對專業采集設備與技能的依賴。研究表明，一體化生成和編輯系統是實現電影工業數字人生產降本增效的可行路徑，可為海量三維素材庫的構建和中小成本影片的視覺效果制作提供有力支持。

關鍵詞

數字人；人工智能；電影制作；神經輻射場；三維高斯潑濺；DeepSeek

1引言

數字人生成作為計算機視覺（CV）與計算機圖形學（CG）的核心研究領域，同時也是現代電影特效技術的重要組成部分，其研究目標可描述為對人體、人臉及服裝等對象的數字化表示[1]。通過技術手段，將這些對象轉化為數字形式，以實現對人類特征的精確建模與表達。在電影特效領域，數字人生成的研究尤為重要，無論是從零構建一個完全虛構的虛擬角色，還是通過創建演員的數字替身來復現其外貌與表演，其為動作捕捉、表情生成以及虛擬場景的融合提供了關鍵技術支持。通過優化算法效率和提升視覺效果的逼真度，數字人技術能夠顯著增強電影中角色的表現力和沉浸感，為觀眾帶來更加震撼的視覺體驗。從《超人》中沖破天際的鋼鐵之軀，到《本杰明·巴頓奇事》里逆齡生長的奇幻形象，再到《波西米亞狂想曲》重現的萬人演唱會盛況，數字人技術始終伴隨著電影藝術對特殊表現手法的需求而持續演進。數字人技術不僅推動了電影特效技術的發展，還為未來電影創作提供了更多可能性。

隨著人工智能（AI）技術的持續演進，其在電影工業中的應用正極大提高電影制作的效率[2]，使創建高逼真度數字人的成本逐步降低。數字人生成和編輯作為當前學術界的前沿研究領域，每年涌現大量創新技術推動該研究方向向縱深發展。本文系統梳理了學術界近年來在數字人生成和編輯領域的技術進展與研究趨勢，探討其在電影特效中的潛在應用，并提出一個行之有效的數字人生成和編輯系統，最后剖析了當前技術將會如何影響電影制作流程及其發展方向。

2基于AI技術的數字人生成和編輯技術發展概況

當前工業界廣泛應用的光場（Light Stage）系列三維重建技術，是由Paul Debevec團隊于2000年提出的創新性采集系統[3]。該技術體系通過構建精密的光場采集裝置，在球面坐標系下布置超過150個可控LED光源與多視角同步相機陣列，結合光度立體（Photometric Stereo）視覺方法，實現毫米級精度的動態幾何重建并獲取高分辨率表面貼圖。相較于其他多目立體視覺方法，Light Stage通過精確控制光照方向和攝影序列，有效解決了復雜材質表面（如皮膚、毛發等）的反射分離難題，其數據采集流程已廣泛應用于電影特效[4]。

光場采集環境搭建通常需要大量的人力和物力投入，這使基于光場技術生成虛擬角色的成本居高不下。當前研究的核心問題在于如何降低數字人的生成成本，同時提升其生成效率和表現效果。研究人員通過引入AI技術并探索新穎的表達方式，致力于在更短時間內實現高質量的數字人生成，或在更低要求的攝影環境中實現高效的重建?；谶@一目標，學術研究主要分為以下幾個方向：在不同的圖像輸入條件下的角色生成、基于文本的虛擬角色生成以及高效率的模型編輯。如圖1所示，輸入源的多樣性決定了算法所能獲取的信息量。在此基礎上，各類處理方法相輔相成，形成了技術合力，共同促進了數字人技術的發展演進。

圖1　數字人重建和生成的分類

2.1 基于密集多視角輸入的方法

基于密集多視角輸入進行動態人體三維重建，是近年來備受關注的研究方向。傳統圖形學方法通常采用光場系統采集數據，并通過表面、圖像或光度配準等方式來整合多視角信息[5]，或利用骨架驅動擬合表面[6, 7]。這些方法在處理幾何與紋理信息時流程復雜，相較之下，基于AI的新范式通過引入先進的神經表征技術，不僅大幅提升了重建的計算效率，更在人體形態及衣物細節的精準捕捉上展現出卓越性能。

Zheng等[8]通過使用在參數化人體模型表面定義一系列信息點，將其作為局部的結構信息點輸入給多層感知機（MLP），使用神經輻射場（NeRF）來表達，支持使寬松的衣服在不同的動作下產生自然的陰影變化。Li等[9]通過將局部的信息點和關節骨架進行結合，通過多層次的三平面編碼，大幅提高了重建精度。然而，基于神經輻射場的方法往往受限于渲染速度，限制了其重建效率。

Li等[10]提出可動畫高斯（Animatable Gaussians），使用符號距離場（SDF）作為基準幾何模型，結合二維卷積網絡來學習高斯貼圖，這樣既可獲得基于符號距離場的準確的幾何結果，又達成三維高斯潑濺（3D Gaussian Splatting, 3DGS）的高效渲染速度，并且保證了寬松衣服的重建質量。Chen等[11]使用顯式的網格表達從隱式距離場中提取出的信息，重建出適應當前工業渲染管線的人體模型。Chen等[12]在Animatable Gaussians基礎上，通過使用非剛體變化的網格模型替代了符號距離場，并將局部高斯的屬性使用基于姿勢的混合形狀（Blend Shape）進行表達，既保證了具備寬松衣物的細節，也提供了一個離線神經網絡用于生成服裝的非剛體變化，結合三維高斯表達使其能夠進入渲染引擎中進行高效、高速的渲染和動畫。這些方法生成的高保真虛擬角色具有優良的幾何和貼圖細節，不再需要藝術家花費大量時間優化模型細節，能夠直接投入影視制作流程。

除了使用神經網絡來表達衣服的褶皺，Zheng等[13]通過擬合每一幀靜態網格，使用物理模擬的方式不斷擬合出數字人姿勢和衣服變化之間的關系，并使用基于物理的可微渲染來獲得整體的外觀建模結果。該方法可直接生成一個支持姿態與衣物協同形變的可驅動數字人，從而顯著提升下游動畫的制作效率。

2.2 基于稀疏多視角輸入的方法

2.2.1 基于稀疏多視角視頻的方法

相較于搭設復雜的光場系統，在空間中不同方向布置4到6個固定攝影機可快速重建數字人。Peng等[14]使用參數化人體模型的頂點作為潛在編碼輸入多層感知機，這些頂點會隨著人體姿態不斷移動，以存儲不同動作、不同視點下人體模型的紋理信息，將潛在編碼和神經混合權重場相結合，將不同角度所得信息權重進行混合，即可生成可驅動的人體模型。在較少的視角條件下，即可制作出《黑客帝國》中的“子彈時間”特效。

2.2.2 基于單人旋轉視頻的方法

相較于需要配準的多視角攝像頭，通過錄制角色在鏡頭中間保持特定姿態旋轉的視頻也能生成目標角色數字人。Weng等[15]通過將人體姿勢作為網絡的輸入，用骨骼變化控制空間中視點的變化，該神經網絡通過學習并編碼一個動態人體的多視角信息，進而支持對原始的單目舞蹈視頻進行新視角合成與觀賞。Chen等[16]用參數化人體模型的頂點作為神經渲染中視點變化的控制點，其將一個動態的人體重建問題轉化為靜態人體模型的采樣問題，隨著輸入的姿態變化驅動人體模型重演出不同的姿勢。為進一步提高重建效率，Instant?NGP[17]通過哈希網格查詢輻射場的光線點，大幅提高了神經輻射場的渲染速度。將參數化人體模型的頂點輸入哈希網格中，Jiang等[18]實現了1分鐘內重建人體模型，并將數字人的渲染效率提高至15 FPS。

為追求更高的渲染效率，新技術將原有的神經輻射場（NeRF）模塊，替換為三維高斯潑濺（3DGS）表示方法。Qian等[19]利用可學習的蒙皮權重控制局部高斯點的變化，使其能在45分鐘左右重建出高精度的人體模型。Hu等[20]采用參數化人體模型的UV紋理作為姿態特征以生成高斯點云，可實現通過姿勢識別實時控制人物模型的變換。但上述方法都無法直接遷移至當前的渲染管線中。Splatting Avatar[21]將高斯點與三角形網格面綁定，并在表面上附加平移，可實現直接導入渲染引擎中使用并控制。Moon等[22]將參數化人體模型的頂點編碼到三平面空間，并使用高斯作為紋理表示，該方法具備對人體姿態和面部表情進行動畫控制的能力。以上方法為之后在電影工業中快速迭代虛擬預演（PreViz）場景和素材提供了有效的技術支撐。

2.2.3 基于單人照片集輸入的方法

當目標人物的動態視頻序列難以獲取時，一種有效的替代方案是利用一組包含不同姿態與視角的人物靜態圖像完成三維模型的重建。Xiu等[23]將非結構化的圖像與文本信息，轉化為適用于數字人生成的結構化表征。使用多模態模型整合不同來源的圖像數據，通過語義分割定位目標，并從中提煉出關鍵的外觀特征。這些特征通過統一組織，作為生成高質量數字人的基礎，其使用基于可微分行進四面體（Differentiable Marching Tetrahedra, DMTet）的方法從靜態圖像集合中重建三維人體模型。其生成的網格具有良好的拓撲結構且與主流圖形渲染管線兼容，這一特性為創建特定時期（如演員年輕時）的數字替身或進行數字資產歸檔提供了一條高效的技術路徑。

2.3 基于單張圖像輸入的方法

單張圖像作為生成的唯一輸入源，其固有的信息局限性為三維人體建模帶來了巨大挑戰。具體而言，模型必須在嚴重缺乏多視角線索的情況下，推斷出被遮擋部分的精確幾何形態與表面紋理。德國馬克斯·普朗克智能系統研究所（MPI?IS）由 Michael J. Black 領導的團隊做出了開創性貢獻，他們先后提出了經典的參數化人體模型SMPL[24]及其重要的擴展版本SMPL?X[25]。參數化人體模型將體型表達和姿勢表達使用參數進行擬合。在實現過程中，往往將圖像特征輸入給全連接神經網絡來獲得人體參數，從人體參數中還原一個粗糙的人體模型。Ma等[26]在參數化人體模型的頂點上進行偏移，以生成目標角色身上的服裝細節。Corona等[27]通過使用模板化的衣服擬合圖像中的衣物信息，為參數化人體模型穿上衣服。盡管這些方法能夠有效驅動參數化人體模型生成動畫，但此類模型本身固有的局限性也十分明顯：一方面，其在表達個體身份的獨特性上能力有限；另一方面，其重建的幾何細節與表面保真度也相對不足。Xiu等[28]結合了隱式距離場和參數化人體模型，通過采用類似于正反兩個角度配準的方式來生成不同角度下的網格模型并使用參數化人體模型進行補全，能夠生成極端姿勢圖片的人體模型，并使用參數對齊進行驅動。為提高顏色準確度和模型精度，Zhang等[29]通過將單張圖片及其對應的參數化人體模型法向一起輸入給識別能力更強的Transformer模型生成基礎的模型，之后使用生成模型為得到的粗糙模型和貼圖進行更為精細的修補和上色，將傳統重建方法和新的生成式方式相結合，增強模型的編輯能力。Huang等[30]使用大語言模型來理解圖片的內容，在單圖重建的基礎上，使用擴散模型對衣服上的細節進行更細致的監督和優化。

通過使用大模型進行大量的數據學習和生成分析，單圖重建已能夠實現1 s左右的重建速度。Qiu等[31]使用30萬個人體視頻進行學習，將圖片和參數化人體模型的不同部分使用Transformer模型進行關聯，最后使用三維高斯潑濺的方法進行解碼渲染。Zhuang等[32]通過在UV空間中對人體模型進行參數化。以上方法基于貼圖和三維網格表達，可實現對模型紋理的直觀編輯，也為構建大規模三維角色資產庫提供了清晰的技術藍圖。在此基礎上，生成精度的持續提升將有望打通從二維圖像到三維資產的轉化鏈路，最終賦能電影工業實現資產制作效率的巨大飛躍。

2.4 基于文本輸入的方法

隨著基于擴散模型的生成方法持續發展，基于文字描述直接生成人物模型的研究逐漸增多。大多數方法通過在參數化人體模型周圍進行采樣，生成初步的人體模型，并利用多樣化的監督方法生成不同類型的模型。Liao等[33]通過對參數化人體模型進行網格細分，并以目標法線圖和顏色圖為監督，學習一個從粗糙到精細的頂點偏移。由此生成的高精度人體模型不僅捕捉了豐富的表面細節，還能直接兼容主流的圖形渲染管線，無需額外處理。

2.5 可編輯的數字人技術

神經輻射場（NeRF）與三維高斯潑濺（3DGS）等新興技術雖然在三維重建速度上展現出巨大優勢，但其成功也伴隨著顯著代價。由于采用了與傳統多邊形網格截然不同的三維表示方法，這些模型往往難以直接編輯，從而為后續的精細化修改與藝術創作帶來了巨大挑戰。編輯方法通常結合大語言模型和生成式模型在輸入圖像上進行修改，再從二維的結果提升至三維。Mendiratta等[34]通過先重建一個神經輻射場模型，再輸入期望編輯的文本對多角度圖像進行編輯，同時對輻射場模型進行修改和重建。Sunagad等[35]使用類似方式，通過生成式模型對重建的圖像進行編輯，并且采用ControlNet生成角色編輯后的法向結果作為生成的監督來提高編輯后的生成模型質量。

除使用擴散生成模型編輯原型圖片的方法外，近年來有諸多方法專注于如何在神經輻射場等特殊表達形式上直接編輯的方法。Xiao等[36]在參數化人體模型的表面構造潛在編碼，以分離幾何和紋理，從而實現重光照和局部陰影編輯。為使編輯方式對用戶友好，Feng等[37]結合基于神經輻射場表達的衣服和基于顯式網格的身體建模，以更好地表示每個單獨的部分，用戶可快速將衣服轉移到另一個角色身上。Lin等[38]使用兩層高斯貼圖來增強衣服的細節，并實現衣服的交換和編輯。雖然這些研究能生成頗為逼真的虛擬試衣效果，但他們普遍缺乏對試穿后衣物進行精細化編輯的能力，例如調整衣物的款式、版型或褶皺形態。Ho等[39]將特征存儲在網格頂點上，為這些特征創建一個碼本，通過對碼本進行編輯和替換，能夠做到較大范圍內的局部編輯。Zhang等[40]使用擴散模型在參數化人體的UV平面上生成高斯貼圖，并附加在參數化人體模型表面，可實現局部幾何和貼圖的編輯。這些方法為藝術家后續編輯提供了豐富的個性化工具。

3單目視頻條件下的三維數字人生成和編輯系統設計

本文旨在構建一個數字人快速生成且可編輯的系統，以期為電影制作提供便利，提高制作效率。如圖2所示，該系統的工作流程主要包括以下步驟：用戶通過上傳單人旋轉視頻到服務器上，系統會在后臺處理視頻數據，并通過三維重建方法生成一個可驅動的人體模型。在生成角色模型后，系統會將該模型按照語義智能分割并存儲到不同的素材庫，以供藝術家在后續流程中進行個性化編輯，并為未來的影視相關產品開發提供素材。同時用戶可在系統中通過自然語言編輯角色模型，調整后的素材可直接導入三維軟件中使用。在所有的輸入中，單目旋轉視頻在數據采集的簡易度與最終重建的高保真度之間達到了一個較好的平衡點，因此大量的研究都基于此條件進行算法設計?；诖?，本系統采用單目視頻作為輸入條件，并采用三維高斯潑濺算法，以實現數字人的高效生成與快速編輯。

圖2　單目視頻條件下的三維數字人生成和編輯系統流程圖

3.1 單目視頻條件下基于三維高斯潑濺的人體模型生成算法

圖3所示算法通過輸入角色單目視頻，使用基于三維高斯潑濺的人體模型重建算法生成三維模型。在生成過程中，算法會根據角色圖片進行智能分割，將三維模型基于語義信息分割為角色模型和服飾素材，并分別保存至不同的素材庫中。

圖3　單目視頻條件下的三維數字人生成流程圖

（1）算法設計

（2）實驗結果

為驗證生成效果，本文采用以下三種指標進行評估：①峰值信噪比（Peak Signal?to?Noise Ratio, PSNR），測量重演圖像與真實圖像之間的誤差，評估重建的整體質量，PSNR值越高，表明生成的模型越真實；②結構相似性指數（Structural Similarity Index, SSIM），從亮度、對比度、結構三方面評估兩幅圖像的相似性，值越高表明生成的圖像更真實；③學習感知圖像塊相似度（Learned Perceptual Image Patch Similarity, LPIPS），基于深度學習模型提取圖像特征，計算特征空間的距離，衡量圖像的感知相似度，值越低證明人眼感知上更像真實圖像。這三種評價指標通過量化渲染圖像與真實參考圖像之間的誤差，從不同維度對重建質量進行綜合考量，共同構成了對本文模型精度的全面評估體系。測試用的數據集為PeopleSnapshot，是目前主流方法常用的測試數據集，其包含多個單人原地旋轉的視頻，通過使用手機在非實驗室環境中拍攝，符合主流應用環境。本文與目前效果最好的方法InstantAvatar[18]和3DGS?Avatar[19]進行比較，實驗結果（表1）表明，本文方法在所有指標上都具較為明顯的優勢，并且重建時間相較于3DGS?Avatar的45分鐘，縮減至30分鐘。綜合多項指標，本文方法在效率上提升了33.33%，在重建精度上平均提升了10%。

表1　本文方法與文獻[18,19]的定量對比結果

3.2 基于三維高斯潑濺的人體模型編輯系統

特殊表達的人體模型雖無法直接在工業引擎中快速編輯，但本文系統也提供了多種編輯方法輔助用戶高效快速編輯人體模型（圖4）。一種方法是將角色模型的多視角圖片交給視覺模型進行部位分割，并針對圖片整體及各個部位生成文字描述。之后，將文字描述及用戶想要編輯部位一同輸入給DeepSeek模型，針對用戶需求生成并調整提示詞（Prompt）。最后，將提示詞和圖片輸入擴散模型進行圖片編輯，并在修改的同時對角色模型進行優化和調整。由于擴散模型可能會使圖像產生不可控制的變化，我們也提供了局部編輯的方法，用戶能夠使用局部框選工具來選擇參數化人體模型的頂點，通過變換頂點映射的三維高斯點，實現對模型的幾何和紋理進行編輯。

圖4　單目視頻條件下的三維數字人編輯流程圖

3.3 系統應用

在電影制作領域，本文提出的系統具有顯著優勢，該系統不僅能生成目標角色，并且在高效生成的基礎上創新性地提供了多種編輯方式，搭配使用DeepSeek模型可進一步降低用戶操作難度，提供更加友好的交互方式。

如圖5所示，用戶僅需在拍攝好角色視頻后上傳到系統，系統會為用戶生成該角色的數字人模型，之后用戶即可使用自然語言為該模型進行不同類型的編輯。DeepSeek模型會分析自然語言，并生成圖片編輯的提示詞，以編輯圖片并重新生成模型。為解決中小制作團隊在獨立創建數字人時所面臨的高昂成本與技術壁壘問題，本系統提供了一套極其簡化的解決方案。其直觀的文本輸入界面與便捷的操作流程，使非專業背景的用戶也能夠快速、高效地對數字人模型進行編輯與迭代。例如，編劇可通過簡單的文本描述來編輯模型以確認角色的服飾和道具。這不僅能加快電影制作速度，還能提升電影整體質量。同時，相較于傳統的數字人制作，采用該系統則不再需要耗費數天，創建一個數字人僅需30分鐘，通過素材庫進行編輯，可實現和建模軟件一樣實時編輯與“所見即所得”。

圖5　單目視頻條件下的三維數字人生成和編輯系統演示

4三維數字人技術對影視制作的影響

當前短視頻平臺上有較多用戶使用單圖或稀疏視圖的生成方式快速創建數字化身（Digital Avatar?），為自己的視頻創作特定元素，獲得了較好的用戶反響。如使用Viggle AI快速創建動畫化身，可實現在幾分鐘內創建出個性化數字人的舞蹈視頻；而今年春晚舞臺上的《筆走龍蛇》更是采用了類似數字人重建技術，通過多視角拍攝，快速生成包含4D時序信息的三維場景，這也表明了采用AI技術能大幅提高影視制作效率[41]。本節將從以下三個主要方向探討三維數字人技術對未來影視制作的影響。

4.1 優化前期制作流程

隨著技術的不斷進步，數字人的創建成本已顯著降低，并在數據輸入復雜性、重建時間方面取得了質的飛躍。如前文所述，生成一個高精度、可直接應用于工業渲染管線的數字人已變得高效便捷。未來，通過演員的數字化身，可快速驗證其外形是否符合劇本要求，并可直接將其嵌入目標場景，借助虛擬預演技術，創作者能夠預先調整和評估場景光照，從而大幅減少實地踩點、光影調試等環節的資源浪費，顯著提升影視制作效率。

這類技術的應用不僅優化了傳統制作流程，還為創作團隊提供了更加靈活的創意表達方式。通過虛擬化手段，創作者可在前期階段快速迭代方案，避免后期調整帶來的高昂成本。同時，數字化身的實時反饋能力也讓團隊能夠更直觀地調整角色與場景的契合度，確保最終作品的高質量呈現。這種效率與靈活性的結合，正在為影視制作行業帶來前所未有的變革。

4.2 提高素材生產效率

在影視制作領域，虛擬角色的生成和編輯一直是電影數字資產的重要組成部分。從文字描述到畫稿，再到三維建模，每一步都需耗費大量時間和人力。然而，隨著大語言模型與三維數字人生成模型的飛速發展，這一流程正被徹底重塑。如今，通過DeepSeek和3DTopia等先進工具對創作需求的深度解析，創作人員的需求可被精準轉化為數字模型的輸入參數。這種技術不僅能夠快速生成虛擬角色的草稿，還能在短時間內迭代優化，直至產出高質量的成品模型。整個過程大幅減少了傳統美術流程中的冗余環節，將創作效率提升至前所未有的高度，通過深度結合多種AI工具，創作者們也能夠以較低門檻快速參與到技術迭代中。美術人員也可從繁瑣的重復性勞動中解放，將更多精力投入到創意本身。

4.3 激發小成本影視制作活力

隨著數字人和虛擬角色生成技術的普及，制作成本的顯著降低使越來越多的創作者能夠通過虛擬化手段構建更加豐富的世界。中小成本劇組也能夠借此突破傳統制作的局限，通過使用豐富的虛擬角色素材，結合文本生成動作模型，能夠在有限的成本下，讓創作者能夠輕松構建復雜的場景，如繁忙的街景或人山人海的演唱會現場。而這些群體動畫在傳統制作中往往需要極高的成本和資源投入。如今，數字人技術的引入不僅降低了制作門檻，還為創意表達提供了更廣闊的空間。

5結語

盡管近年來AI技術的應用使三維數字人生成和編輯取得了顯著進展，但其在電影制作領域的應用仍面臨諸多挑戰，在一定程度上限制了其在電影制作全流程中的普及與推廣。例如，當前能夠完全兼容工業渲染管線的技術較少，且生成的人體模型缺乏直接編輯性，使技術的實際應用受到制約。為應對這些挑戰，本文提出的單目視頻條件下的三維數字人生成和編輯系統，通過優化算法和模型架構，不僅能夠高效生成適用于現有渲染管線的數字人模型，還為用戶提供了豐富的編輯功能，進一步增強了系統的實用性和靈活性。這一創新系統為電影制作中的數字人應用提供了更高效、更便捷的解決方案。展望未來，隨著AI技術的持續突破與創新，數字人生成和編輯技術將在電影制作領域釋放更大潛能，不僅能顯著提升創作效率、降低制作成本，更能為電影藝術創作開辟全新的表達維度和創意空間，推動電影藝術形式的革新與突破。

參考文獻

（向下滑動閱讀）

[1] 洪陽.高保真虛擬數字人的表示與重建[D].中國科學技術大學,2022.DOI:10.27517/d.cnki.gzkju.2022.000779.

[2] 王春水.人工智能技術的發展及其對影視制作的影響[J].影視制作,2023,29(10):13?21.

[3] DEBEVEC P, HAWKINS T, TCHOU C, et al. Acquiring the reflectance field of a human face[C]//Proceedings of the 27th annual conference on Computer graphics and interactive techniques, 2000: 145?156.

[4] USC Institute for Creative Technologies. Light Stage X [EB/OL] .(2022?03?01) [2025?07?13]. https://vgl.ict.usc.edu/LightStages/.

[5] GHOSH A, HAWKINS T, PEERS P, et al. Practical modeling and acquisition of layered facial reflectance[J]. ACM Transactions on Graphics, 2011, 30(6): 1?10.

[6] GRAHAM P, TUNWATTANAPONG B, BUSCH J, et al. Production facial capture and solving at scale[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2019 Courses, 2019:1?60.

[7] VLASIC D, PEERS P, BARAN I, et al. Dynamic shape capture using multi?view photometric stereo[M]//ACM Special Interest Group on Computer Graphics and Interactive Techniques Asia 2009 papers, 2009: 1?11.

[8] ZHENG Z, HUANG H, YU T, et al. Structured local radiance fields for human avatar modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 15893?15903.

[9] LI Z, ZHENG Z, LIU Y, et al. Posevocab: Learning joint?structured pose embeddings for human avatar modeling[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2023 conference proceedings, 2023: 1?11.

[10] LI Z, ZHENG Z, WANG L, et al. Animatable Gaussians: Learning pose?dependent gaussian maps for high?fidelity human avatar modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 19711?19722.

[11] CHEN Y, ZHENG Z, LI Z, et al. Mesh Avatar: Learning high?quality triangular human avatars from multi?view videos[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 250?269.

[12] CHEN J, HU J, WANG G, et al. TaoAvatar: Real?Time Lifelike Full?Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting[C]//Proceedings of the Computer Vision and Pattern Recognition Conference, 2025: 10723?10734.

[13] ZHENG Y, ZHAO Q, YANG G, et al. Physavatar: Learning the physics of dressed 3d avatars from visual observations[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 262?284.

[14] PENG S, ZHANG Y, XU Y, et al. Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 9054?9063.

[15] WENG C Y, CURLESS B, SRINIVASAN P P, et al. Humannerf: Free?viewpoint rendering of moving people from monocular video[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 16210?16220.

[16] CHEN J, ZHANG Y, KANG D, et al. Animatable neural radiance fields from monocular rgb videos[EB/OL]. (2021?06?25)[2025?07?21]. https://arxiv.org/abs/2106.13629.

[17] MüLLER T, EVANS A, SCHIED C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Transactions on Graphics , 2022, 41(4): 1?15.

[18] JIANG T, CHEN X, SONG J, et al. InstantAvatar: Learning avatars from monocular video in 60 seconds[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 16922?16932.

[19] QIAN Z, WANG S, MIHAJLOVIC M, et al. 3DGS?Avatar: Animatable avatars via deformable 3d gaussian splatting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 5020?5030.

[20] HU L, ZHANG H, ZHANG Y, et al. Gaussianavatar: Towards realistic human avatar modeling from a single video via animatable 3d gaussians[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 634?644.

[21] SHAO Z, WANG Z, LI Z, et al. Splatting Avatar: Realistic real?time human avatars with mesh?embedded gaussian splatting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1606?1616.

[22] MOON G, SHIRATORI T, SAITO S. Expressive whole?body 3D gaussian avatar[C]//European Conference on Computer Vision, Cham: Springer Nature Switzerland, 2024: 19?35.

[23] XIU Y, YE Y, LIU Z, et al. PuzzleAvatar: Assembling 3d avatars from personal albums[J]. ACM Transactions on Graphics , 2024, 43(6): 1?15.

[24] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: A skinned multi?person linear model[M]//Seminal Graphics Papers: Pushing the Boundaries, Volume 2, 2023: 851?866.

[25] PAVLAKOS G, CHOUTAS V, GHORBANI N, et al. Expressive body capture: 3d hands, face, and body from a single image[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 10975?10985.

[26] MA Q, SAITO S, YANG J, et al. SCALE: Modeling clothed humans with a surface codec of articulated local elements[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 16082?16093.

[27] CORONA E, PUMAROLA A, ALENYA G, et al. Smplicit: Topology?aware generative model for clothed people[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021: 11875?11885.

[28] XIU Y, YANG J, CAO X, et al. ECON: Explicit clothed humans optimized via normal integration[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 512?523.

[29] ZHANG Z, YANG Z, YANG Y. Sifu: Side?view conditioned implicit function for real?world usable clothed human reconstruction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 9936?9947.

[30] HUANG Y, YI H, XIU Y, et al. Tech: Text?guided reconstruction of lifelike clothed humans[C]//2024 International Conference on 3D Vision, 2024: 1531?1542.

[31] QIU L, GU X, LI P, et al. LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds[EB/OL]. (2025?03?18)[2025?07?21]. https://arxiv.org/abs/2503.10625.

[32] ZHUANG Y, LV J, WEN H, et al. IDOL: Instant Photorealistic 3D Human Creation from a Single Image[EB/OL]. (2024?12?19)[2025?07?21]. https://arxiv.org/abs/2412.14963.

[33] LIAO T, YI H, XIU Y, et al. Tada! text to animatable digital avatars[C]//2024 International Conference on 3D Vision, 2024: 1508?1519.

[34] MENDIRATTA M, PAN X, ELGHARIB M, et al. Avatarstudio: Text?driven editing of 3d dynamic human head avatars[J]. ACM Transactions On Graphics, 2023, 42(6): 1?18.

[35] SUNAGAD B, ZHU H, MENDIRATTA M, et al. TEDRA: Text?based Editing of Dynamic and Photoreal Actors[EB/OL]. (2024?08?28)[2025?07?21]. https://arxiv.org/abs/2408.15995.

[36] XIAO J, ZHANG Q, XU Z, et al. Neca: Neural customizable human avatar[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 20091?20101.

[37] FENG Y, LIU W, BOLKART T, et al. Learning disentangled avatars with hybrid 3d representations[EB/OL]. (2023?09?12)[2025?07?21]. https://arxiv.org/abs/2309.06441.

[38] LIN S, LI Z, SU Z, et al. Layga: Layered gaussian avatars for animatable clothing transfer[C]//ACM Special Interest Group on Computer Graphics and Interactive Techniques 2024 Conference Papers, 2024: 1?11.

[39] HO H I, XUE L, SONG J, et al. Learning locally editable virtual humans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 21024?21035.

[40] ZHANG W, YAN Y, LIU Y, et al. E 3Gen: Efficient, Expressive and Editable Avatars Generation[C]//Proceedings of the 32nd ACM International Conference on Multimedia, 2024: 6860?6869.

[41] 諸杏娟. 這屆春晚開始拼技術了！AI大模型絕美定格、機器人扭秧歌，云使用量達歷年之最[EB/OL].(2025?01?29) [2025?07?13]. http://www.digipub.cc/dy/article/JN2TK8L405566ZHB.html.

【基金項目】國家自然科學基金青年科學基金項目“有限標注下的室內三維場景感知與編輯關鍵方法研究”（62402306）；上海市“科技創新行動計劃”自然科學基金項目“復雜室內三維場景細粒度感知關鍵方法研究”（24ZR1422400）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.