網易首頁 > 網易號 > 正文申請入駐

《現代電影技術》｜劉夢雅等：影視虛擬場景智能優化方法研究

2025-11-07 15:24:02　來源: 電影技術微刊

北京舉報

分享至

本文刊發于《現代電影技術》2025年第10期

專家點評

虛擬場景即通過數字技術搭建的可用于拍攝的虛擬空間。虛擬場景參與影視制作的工作流程主要包括設計、建模、渲染、合成、后期等環節。從早期的藍幕/綠幕數字合成到以StageCraft為代表的LED虛擬攝影棚，再到影片《阿凡達：水之道》式的全沉浸虛擬攝制，虛擬場景在影視拍攝中所占比重日益增大。借助虛擬場景，創作者可為作品提供完全獨立于現實之外的發生場域，同時，虛擬場景的建構性質也使創作者能夠隨心所欲地調整出最理想的場景。隨著UE、U3D等實時渲染引擎和硬件設備的不斷迭代升級，以及云渲染、渲染農場等配套技術與基礎設施的進一步發展完善，虛擬場景的重要性將持續提升。此外，近年來以GPT、DeepSeek等為代表的大語言模型在自然語言理解、邏輯推理等方面展現出的驚人潛力，也為人機協同工作的新模式提供了可能。《影視虛擬場景智能優化方法研究》一文從虛擬場景優化著手，依托于大模型的語義理解、多模態感知等能力，構建了由表達單元構建、意象生成、一致性評估、反饋調節四個環節組成的虛擬場景優化流程，并通過原型系統展示了這一優化流程的可行性與生成效果。本文的研究實現了基于自然語言對虛擬場景意象的自動優化，有助于推動影視內容制作的智能化發展，尤其在體量龐大、協作程度較高的項目中更具應用價值與發展潛力。

—— 賈云鵬

教授

北京郵電大學數字媒體與設計藝術學院院長

【項目信息】2024年北京市超高清視聽產業發展支持項目“國產化超高清中國元素影像生成大模型技術的創新應用”（JLZJ2024040100062）。

作者簡介

劉夢雅

文強

北京電影學院數字媒體學院院長、教授，主要研究方向：數字媒體藝術。

北京電影學院數字媒體學院講師，主要研究方向：虛擬仿真。

閆大鵬

摘要

虛擬場景已成為當代影視制作中表達視覺意圖的重要手段。然而，面對高復雜度的語義表達與風格一致性需求，依賴人工經驗的傳統參數調節方法效率低、反饋路徑弱，難以支撐高質量影視內容生成。本文提出一種融合大模型感知能力的虛擬場景智能優化流程，通過構建表達單元、生成圖像、評估一致性并反饋調節，形成語義目標與虛擬場景影像效果之間的自適應閉環。該方法利用語言-視覺多模態大模型進行語義評估和參數修正，實現從自然語言描述到視覺效果輸出的高一致性表達，為面向語義目標的智能創作生產提供了可推廣的流程機制，為影視內容生成注入更強的自動化與智能化能力。研究表明，基于虛幻引擎（UE）的原型系統在受控場景下實現穩定的閉環運行，呈現出良好的語義一致性與風格統一性。

關鍵詞

虛擬場景；大模型；智能優化；感知反饋

1引言

虛擬場景作為數字視聽內容生產的重要基礎設施，已逐步嵌入影視工業的各個環節，成為支撐高質量影像創作、特效生成與鏡頭構建的關鍵手段。例如，在電影《阿凡達：水之道》〔圖 1（左）〕中，制作團隊構建了高度復雜的海底虛擬生態系統，包括珊瑚地貌、海洋生物、懸浮粒子等多種三維元素，通過精細的體積光照、水體折射與動態材質控制，實現了沉浸感極強的視聽體驗。這些虛擬場景完全在數字空間中搭建，不僅需滿足極高的真實感需求，還要求與動作捕捉數據高度同步，構成一套高度參數化、控制精度極高的鏡頭生成系統[1]。類似地，在動畫長片《蜘蛛俠：縱橫宇宙》〔圖 1（右）〕中，創作者圍繞多個風格迥異的虛擬世界分別搭建了抽象城市、手繪紙面、立體涂鴉等風格場景，每一類場景均需定義獨立的色彩模型、幾何構成規則與動態響應方式，實現鏡頭語言與敘事語義的高度一致[2]。

圖 1　《阿凡達：水之道》（左）和《蜘蛛俠：縱橫宇宙》（右）中的虛擬場景

這些實踐表明，影視虛擬場景的構建早已超越背景渲染或簡單合成的范疇，逐步演變為集視覺風格控制、圖像表現優化與高精度參數調節于一體的綜合生成系統[3]。但隨著影視創作規模與表達復雜度不斷提升，當前的虛擬場景構建流程仍面臨多重瓶頸[4,5]：一方面，影視虛擬環境通常包含大量可調節參數，如環境光照、材質響應、粒子系統與氛圍配置等，構成高度耦合的參數空間，調試效率低、反饋路徑弱；另一方面，面對多樣的藝術風格與語義表達需求，現有工作流程過度依賴創作者經驗與主觀判斷，缺乏明確的語義閉環機制，導致結果難以穩定復現，表達一致性受限。這使創作者在進行風格營造、氣氛控制與語義一致性表達等高階任務時，常陷入“調參—渲染—評估”的重復試錯循環，制約創作生產效率與整體視覺質量的提升。

近年來，快速發展的多模態感知與生成技術為解決上述問題提供了新的技術路線。相關研究表明，具備語義理解能力的智能系統能夠對圖像結果與目標語言描述之間的匹配度進行分析[6]，并反向推導圖像生成策略，從而打通“結果—語義—控制”的閉環路徑。已有方法在圖像生成、風格遷移與語義優化等任務中取得初步成果，例如，3D 高斯潑濺（3DGS）以可優化的各向異性三維高斯表示場景并通過快速光柵化實現實時輻射場渲染，顯著降低多視角一致性與交互預覽的計算開銷，為迭代式參數調控提供在線預覽基礎[7]；語義感知的場景表征對齊對象級語義與視覺特征，支持基于語義的區域約束與表示一致性維護，為面向目標語義的可控生成與優化提供結構化支撐[8]。然而面向高質量影視虛擬攝制的實際場景中，尚缺乏統一的系統機制，能夠將目標語義、場景反饋與參數控制進行有效聯動，進而滿足創作流程對表達準確性與調控效率的雙重需求。

為此，本文提出一種面向影視虛擬場景的智能優化方法，通過構建感知閉環機制，實現虛擬環境從視覺結果到語義目標的自適應優化。該方法以語義感知為核心驅動，通過引入反饋路徑提升調控精度與風格一致性，在保持創作者主動性與藝術表達空間的同時，提升調參效率與場景質量控制水平。本研究旨在為影視虛擬場景的智能生成與高質量表達控制提供理論基礎與方法路徑，推動面向語義的內容生成范式在影視制作領域的落地與發展。

2虛擬場景優化的相關理論與技術基礎

2.1影視虛擬場景構建流程控制

影視虛擬場景作為支撐高質量數字影像創作的關鍵基礎設施，其構建體系需滿足極高的視覺還原度、風格表達能力與控制精度。不同于一般的虛擬現實（VR）或游戲場景，其系統結構體現出多層次的專業化協同：在場景建構層面，包括高精度幾何建模、復雜材質系統、精細光照模型與物理粒子模擬；在渲染控制層面，依托多通道渲染、層級遮罩與后期合成控制構建鏡頭級別的表現能力；在內容生成層面，則需支持語義驅動的風格映射與參數模板化調用。這種集成化、多模態協同的架構，是實現影視級表達能力的技術基礎。不同于以交互性與實時性為主的游戲或VR場景，影視級制作強調每個參數節點的語義清晰、狀態可調用與版本可恢復性，以支撐復雜鏡頭結構與批量化輸出的需要[9]。

2.2 參數空間的結構性與表達一致性建模

影視虛擬場景優化的核心挑戰在于參數控制的復雜性與表達一致性的雙重要求。參數空間維度高，涵蓋光源屬性、鏡頭參數、材質細節、粒子行為與環境特征等多種變量，這些因素間通常存在顯著的非線性耦合關系，使調控過程繁復且敏感[10]。在缺乏有效建模的情況下，通常采用“逐項微調+渲染回看”的經驗式流程，例如反復改動光照強度與色溫、相機曝光與后期曲線、材質粗糙度與金屬性等，常以人工網格搜索或二分試探推進，既耗時又難以形成面向全局目標的統一優化策略。另外，影視級圖像輸出對表達一致性的要求遠超其他應用場景，其不僅包括場景風格與構圖的協調，還涉及語義層面的一致性、美學趨向的穩定性以及與鏡頭語言的契合性[11]。例如，在風格化影像中，鏡頭視角的變化不應破壞場景整體的美術風格與語義連續性，這就要求參數變化對視覺輸出的影響可控且可預測。

2.3 感知驅動的場景評估機制與多模態協同方法

在場景優化過程中，關鍵環節是快速而準確地獲取圖像反饋，以指導參數調節與表達調整。傳統評價方法側重于物理準確性或渲染效率，無法覆蓋創作者對風格表現及語義一致性的主觀判斷[12]。而近期的技術發展表明，多模態感知模型[13,14]具備成為反饋中樞的潛力。以對比語言-圖像預訓練（Contrastive Language?Image Pre?training，CLIP）大模型為例[15,16]，該“視覺—語言”聯合訓練模型能夠衡量圖像與文本描述之間的語義匹配度，被廣泛用于無監督圖像—文本相似度評估和圖像風格偏差檢測。在虛擬場景構建中，CLIP 為“圖像—語義—參數”閉環提供了量化指標，可用于自動觸發調參節點。此外，一些面向視頻的多模態模型[17]使用時空一致性評估增強了對鏡頭連貫性的反饋，為多鏡頭場景質量監控提供結構性輸出。在美學層面，Aesthetic Predictor 等基于視覺特征的模型[18]能夠對圖像進行美學評分，分析色彩、構圖、視覺吸引力等因素，為表達質量提供定量評估依據。這種美學判斷機制可作為流程中額外維度的反饋，為風格統一性和表達符合性提供輔助。多模態技術的發展也使語言描述、圖像風格、語義結構三者之間的互通成為現實，為語義驅動的參數調優奠定了技術基礎。

2.4 相關研究的局限性

盡管當前圖像生成與風格控制相關技術在靜態圖像處理與審美遷移等方向取得了一定進展，但其多聚焦于非流程化的內容生成場景，缺乏針對影視級虛擬場景構建所需的結構性流程支持。在多數已有方法中，參數調節往往以試錯方式進行，缺乏對場景生成邏輯、鏡頭一致性及語義合理性的系統建模，導致表達結果難以追溯與穩定復現。此外，現有研究普遍忽視參數空間與語義目標間的聯動機制。在實際影視制作中，創作者通常面對的是一個高維度、強耦合的參數系統，其調控不僅關系到視覺風格，還直接影響畫面語義表達與鏡頭表現力。然而，傳統的“逐項微調+渲染回看”的經驗式流程多依賴主觀判斷與靜態評分，難以構建可泛化的反饋通路，也無法滿足復雜創作任務對精度控制與表達一致性的雙重需求。

3虛擬場景語義感知優化流程

圍繞影視虛擬場景的智能優化任務，本文提出一種基于大模型語義感知能力的優化流程（圖 2），該流程構建了由表達單元構建、場景意向生成、一致性評估與表達單元優化四個階段組成的感知閉環，通過多階段反饋實現視覺結果與語義目標之間的自適應映射與動態調控。在保證創作者藝術表達主動性的前提下，該機制以語義驅動為核心，系統聯動參數構建、場景生成與語義反饋過程，為實現高一致性、高精度的虛擬場景生成提供了具備流程化與可迭代特征的技術路徑。

圖 2　虛擬場景語義感知優化流程示意圖

3.1 表達單元構建

優化流程的起點在于構建表達單元，目的是在高維參數空間中明確生成任務的語義目標與控制邊界，為后續的優化建立可量化、可執行的結構化輸入基礎。表達單元包括目標描述語義、初始控制因子、生成邊界等關鍵信息，其形式上可表示為多元組，如式（1）所示。

式（1）中，

T

表示語義目標，通常以自然語言的形式表達，用于描述場景所需傳達的視覺語義或情緒氛圍；

C

表示控制因子集合，用于約束生成參數的初始空間，包含光照方向、鏡頭視角、材質類型、動態要素等初始可調維度；

B

表示邊界約束，包括空間布局、風格限定、時間節奏或資源規模等生成范圍限制。為確保表達單元具備足夠的生成效能與質量保證，還需引入一組高可信度的虛擬場景要素作為基礎支持，這些要素通常包括經專業美術設計驗證的三維模型、可控材質庫、風格化光照模板以及結構化環境元素等。

在具體實現過程中，語義目標可由用戶以自然語言進行描述，通過大模型的多模態解析能力，將其轉化為可操作的嵌入向量或邏輯條件；控制因子則通過虛擬環境創作工具由用戶交互式設定，部分參數可從歷史模板中繼承或自動建議生成。該階段的關鍵任務是構建具備語義清晰性、調控可操作性與結構完備性的表達單元，為后續的場景生成與一致性評估建立穩定的輸入基礎。

3.2 場景意向生成

表達單元設定完成后，虛擬場景生成系統需據此構建圖像內容。該階段依托虛擬制作工具將結構化目標解析為場景元素的配置方案，涵蓋幾何形體、材質風格、光照模型與構圖方式等視覺要素，并完成圖像渲染?？尚问交乇硎驹撋蛇^程為函數映射，如式（2）所示。

式（2）中，

G（·）

為場景生成函數，輸出圖像

是對表達單元

U

的響應性映射。此階段不僅涉及參數到視覺內容的轉換，還體現出表達意圖在空間構成與風格體現層面的物化過程。在實際操作中，為確保生成圖像具備初步可用性，需結合一定的模板庫與默認構圖策略，從而保障生成效率與內容完整性。

3.3 一致性評估機制

針對虛擬場景圖像質量的評估，是構建語義感知優化閉環的關鍵環節。在本研究提出的方法中，該任務由具備語義理解能力與多模態感知能力的大模型自動完成。其核心目標在于判斷當前生成圖像是否滿足表達單元中設定的語義意圖，并提供穩定、量化的反饋信號，以驅動下一輪優化。評估涵蓋幾個主要維度：語義一致性檢測、目標偏差分析與美學質量評估等。評估機制的目標在于衡量當前生成圖像是否滿足表達單元中設定的語義目標，并為后續表達單元的優化提供可量化反饋。形式上，設生成圖像為

目標為

T

，則評估函數定義如式（3）所示。

評估機制依托大模型的跨模態對齊能力與上下文理解能力，在無需人工干預的情況下即可完成全自動計算，具備高一致性、穩定性與可重復性。其輸出結果直接傳遞至表達單元優化階段，驅動表達控制要素的更新迭代，實現從感知反饋到表達調整的閉環鏈路。

3.4 表達單元優化

在獲得一致性評估結果后，系統需基于偏差分析自動修正表達單元中的控制變量與目標設定，實現優化閉環。優化可視為對控制因子的更新迭代，如式（4）所示。

式（4）中，Δ

C

為大模型依據評估結果反饋的調節因子，反映當前場景圖像與語義目標間的偏離方向與幅度。同時，在某些情況下需對表達目標

T

進行更新以適應更高層次的語義抽象或表達調整，從而形成新的表達單元，如式（5）所示。

在整個迭代過程中，大模型不僅參與語義分析與質量評估，更承擔調節建議的生成任務，形成自動化表達優化通路。最終，系統在數輪迭代后將收斂至語義一致性較高、美學評分優越且構圖合理的高質量場景，完成從目標設定到場景優化的全流程智能調優。

4虛擬場景優化分析

圍繞所提出的語義感知驅動優化機制，驗證其在影視虛擬場景優化任務中的實際應用效果。通過構建大模型接口，在表達單元與場景結果間建立閉環反饋關系，實現語義目標、控制因子與邊界約束間的協同調控。為驗證該機制的可行性與表達能力，我們選取天空效果的構建作為分析示例，展示優化流程在圖像風格一致性、語義還原準確性及表達細膩度等方面的性能表現。

4.1 優化流程構建與表達設定

實驗平臺基于虛幻引擎5（UE5）構建，集成Sky Atmosphere、Volumetric Cloud、Directional Light等模塊，以構成參數驅動的生成體系。通過在UE內部構建通訊接口，并結合Python API實現與大模型的雙向通信，系統支持表達單元的輸入傳遞、圖像結果返回、評估反饋解析與控制因子的自動化調節，形成閉環優化流程。在技術結構上，表達單元

U

被轉化為嵌入結構，通過JSON協議與大模型完成往返交互，形成完整閉環。采用三元組結構

U

T

C

B

}表達創作意圖與控制邏輯，

T

描述期望視覺情境的語言指令，例如“稀疏云彩的清晨”或“雷雨來臨前的低沉”；

C

為控制因子集合，涵蓋光照角度與強度、云層密度與分布函數、霧效濃度、天空漸變色結構等可調變量，同時包含高質量數字資產配置，確保生成內容的表現力與細節質量；

B

則為邊界約束，用于限定分辨率、渲染時長、構圖風格、所用物理模板等條件，以保障生成效率與整體合理性。

在生成環節，系統依據表達單元中設定的

C

值，自動將控制參數注入至UE的天空組件中，完成高質量虛擬場景的渲染，輸出圖像

為標準靜幀格式。隨后，圖像被傳輸至大模型進行一致性評估，并依據語義目標與圖像輸出間的偏差結果，反向優化表達單元中的關鍵控制參數，驅動下一輪的迭代生成，實現以語義感知為核心的閉環優化機制。

4.2 場景優化結果與表達一致性分析

針對設定的語義目標，系統通過表達單元構建后批量生成數百張場景結果截圖，并由大模型自動評估其語義一致性與美學得分，最終選取語義還原度高、視覺表現力強的圖像樣本用于分析與展示，體現大模型在虛擬場景生成中的感知判斷與優選能力。

如圖3所示，針對“稀疏云彩的清晨”這一語義目標，系統在表達單元初始設定下，自動生成并迭代多輪場景圖像樣本，最終選出數張在云量、晨光色溫與構圖層次上更符合表達意圖的場景。圖中展示的樣本即為大模型評估后篩選出的典型結果，其色調柔和、云層疏密適中，體現出清晨輕盈氛圍的感知還原能力。

圖 3　基于“稀疏云彩的清晨”語義及場景要素優化過程中場景截圖

同樣，在圖4中，系統面對“雷雨來臨前的低沉” 這一融合天氣狀態與情緒表達的場景語義時，調控體積云密度、天光亮度與霧效分布等關鍵因子，并通過大量場景圖像批次生成與反饋評估，篩選出能夠準確展現沉郁壓抑氛圍的代表性畫面。相比初始隨機生成的樣本，這些優選場景效果可更有效地實現從自然語言描述到視覺風格表達的閉環映射。

圖 4　基于“雷雨來臨前的低沉”語義及場景要素優化過程中場景截圖

通過上述流程，系統不僅能自動擴展表達單元對應的場景圖像空間，還具備對多輪結果進行感知驅動，為高質量虛擬場景優化提供穩定高效的支撐機制。

5結論與展望

隨著虛擬攝制技術在影視工業中的深入發展，如何實現高質量、語義一致、風格統一的虛擬場景生成，已成為視覺表達與技術控制融合的重要方向。語義感知驅動的優化機制，在提升表達精度與生成效率方面展現出廣闊潛力。一方面，借助大模型對語言與圖像的理解能力，可將語義目標映射為可操作的控制因子，并基于圖像反饋動態調整生成參數；另一方面，各類虛擬場景生產平臺提供的可編程接口和高質量渲染能力，為閉環流程的執行與迭代優化提供了技術基礎。

這一機制有助于改善傳統虛擬場景優化流程中效率低、風格難控、表達一致性弱等問題，適用于復雜視覺語境下的快速構圖、風格調和與語義還原。通過構建表達單元與大模型的聯動，能夠實現以語義為導向的自動優化，減少創作者在高維參數空間中的試錯負擔，增強場景優化與創作意圖間的耦合度。

盡管本文提出的優化流程取得一定效果，但其適用范圍仍受到一定限制。一方面，高質量的數字資產與結構化場景要素是實現精細表達的基礎，缺乏穩定素材支撐時，場景優化空間受限；另一方面，表達單元中控制因子的數量較多或耦合關系復雜時，模型在反饋路徑中對關鍵因素的識別能力將下降，易導致優化方向不明確或調整幅度不足。此外，當前流程對于動態鏡頭的連貫性、時間一致性與風格保持能力仍缺乏系統性機制，難以直接應用于長時序內容生成任務。

未來的研究可從三個方面展開：其一，構建更具模塊化、可組合性的數字資產體系，以提升在復雜表達場景下的生成精度與靈活度；其二，融合具備時序建模能力的大模型，擴展至連續鏡頭、場景遷移等動態內容的表達控制；其三，引入半自動或人機協同的表達單元構建機制，在保障創作主動性的同時提升初始設定質量，增強優化流程的整體穩定性。

影視虛擬場景的構建過程，正逐步從經驗驅動轉向語義驅動、從靜態設定邁向動態反饋。面向語義一致性的優化機制不僅為影視復雜鏡頭的構建提供了技術支持，也為未來影視智能創作流程的演進奠定了方法基礎。

參考文獻

（向下滑動閱讀）

[1] WANG S, XU Q, LIU Y. Research on the creation of film and TV works based on virtual reality technology[C]//Journal of Physics: Conference Series. IOP Publishing, 2021, 1744(3): 032015.

[2] MACCARI F, GROCHOLA P, NICOL K, et al. Repainting the Spider?Verse: A new painting FX pipeline with Rebelle and Houdini[C]//ACM SIGGRAPH 2023 Talks (SIGGRAPH '23). Association for Computing Machinery, New York, NY, USA, Article 5, 2023.

[3] GUO H, LUO K, ZHENG L, et al. The Application of Virtual Reality Technology and Real?Time Rendering Algorithms in Film Production[J]. Computer?Aided Design & Applications, 2024, 21: S28.

[4] CHEN Y, SHAO G, SHUM K C, et al. Advances in 3d neural stylization: A survey[J]. International Journal of Computer Vision, 2025,133: 1?36.

[5] XIAO H, KANG W, LIU H, et al. Semantic scene completion via semantic?aware guidance and interactive refinement transformer[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2025,35（5）：4212?4225.

[6] LE MOING G, VU T H, JAIN H, et al. Semantic palette: Guiding scene generation with class proportions[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition，2021: 9342?9350.

[7] KERBL B, KOPANAS G, LEIMKüHLER T, et al. 3D Gaussian splatting for real?time radiance field rendering[J]. ACM Trans. Graph., 2023, 42(4): 1?14.

[8] PARSEH M J, RAHMANIMANESH M, KESHAVARZI P, et al. Semantic?aware visual scene representation[J]. International Journal of Multimedia Information Retrieval, 2022, 11(4): 619?638.

[9] SILVA J D, MARTí?TESTóN A, MU?OZ A, et al. Virtual production: Real?time rendering pipelines for indie studios and the potential in different scenarios[J]. Applied Sciences, 2024, 14(6): 2530.

[10] 季桉寧.虛擬仿真平臺中的智能算法優化與場景渲染技術分析[J].電子技術,2025,54(01):398?400.

[11] GU Z, CUI Y, LI Z, et al. ArtiScene: Language?Driven Artistic 3D Scene Generation Through Image Intermediary[C]//Proceedings of the Computer Vision and Pattern Recognition Conference，2025: 2891?2901.

[12] EISENACHER C, MEYER Q, LOOP C.Real?time view?dependent rendering of parametric surfaces[C]//Proceedings of the 2009 symposium on Interactive 3D graphics and games (I3D '09). Association for Computing Machinery, New York, NY, USA, 2009.

[13] MARTON Z C, PANGERCIC D, BLODOW N, et al. Combined 2D–3D categorization and classification for multimodal perception systems[J]. The International Journal of Robotics Research, 2011, 30(11): 1378?1402.

[14] WANG T, MAO X, ZHU C, et al. Embodiedscan: A holistic multi?modal 3d perception suite towards embodied ai[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，2024: 19757?19767.

[15] LEE J, KIM J, SHON H, et al. Uniclip: Unified framework for contrastive language?image pre?training[J]. Advances in Neural Information Processing Systems, 2022, 35: 1008?1019.

[16] LIN W, ZHAO Z, ZHANG X, et al. Pmc?clip: Contrastive language?image pre?training using biomedical documents[C]//International Conference on Medical Image Computing and Computer?Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 525?536.

[17] FRIDMAN R, ABECASIS A, KASTEN Y, et al. Scenescape: Text?driven consistent scene generation[J]. Advances in Neural Information Processing Systems, 2023, 36: 39897?39914.

[18] Platform[EB/OL].[2025?07?20].https://github.com/christophschuhmann/improved-aesthetic-predictor.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.