
本文刊發(fā)于《現(xiàn)代電影技術》2025年第10期
專家點評
虛擬場景即通過數(shù)字技術搭建的可用于拍攝的虛擬空間。虛擬場景參與影視制作的工作流程主要包括設計、建模、渲染、合成、后期等環(huán)節(jié)。從早期的藍幕/綠幕數(shù)字合成到以StageCraft為代表的LED虛擬攝影棚,再到影片《阿凡達:水之道》式的全沉浸虛擬攝制,虛擬場景在影視拍攝中所占比重日益增大。借助虛擬場景,創(chuàng)作者可為作品提供完全獨立于現(xiàn)實之外的發(fā)生場域,同時,虛擬場景的建構性質也使創(chuàng)作者能夠隨心所欲地調整出最理想的場景。隨著UE、U3D等實時渲染引擎和硬件設備的不斷迭代升級,以及云渲染、渲染農場等配套技術與基礎設施的進一步發(fā)展完善,虛擬場景的重要性將持續(xù)提升。此外,近年來以GPT、DeepSeek等為代表的大語言模型在自然語言理解、邏輯推理等方面展現(xiàn)出的驚人潛力,也為人機協(xié)同工作的新模式提供了可能。《影視虛擬場景智能優(yōu)化方法研究》一文從虛擬場景優(yōu)化著手,依托于大模型的語義理解、多模態(tài)感知等能力,構建了由表達單元構建、意象生成、一致性評估、反饋調節(jié)四個環(huán)節(jié)組成的虛擬場景優(yōu)化流程,并通過原型系統(tǒng)展示了這一優(yōu)化流程的可行性與生成效果。本文的研究實現(xiàn)了基于自然語言對虛擬場景意象的自動優(yōu)化,有助于推動影視內容制作的智能化發(fā)展,尤其在體量龐大、協(xié)作程度較高的項目中更具應用價值與發(fā)展?jié)摿Α?/p>
—— 賈云鵬
教授
北京郵電大學數(shù)字媒體與設計藝術學院院長
【項目信息】2024年北京市超高清視聽產業(yè)發(fā)展支持項目“國產化超高清中國元素影像生成大模型技術的創(chuàng)新應用”(JLZJ2024040100062)。
作 者 簡 介
劉夢雅
文強
北京電影學院數(shù)字媒體學院院長、教授,主要研究方向:數(shù)字媒體藝術。
北京電影學院數(shù)字媒體學院講師,主要研究方向:虛擬仿真。
閆大鵬
摘要
虛擬場景已成為當代影視制作中表達視覺意圖的重要手段。然而,面對高復雜度的語義表達與風格一致性需求,依賴人工經驗的傳統(tǒng)參數(shù)調節(jié)方法效率低、反饋路徑弱,難以支撐高質量影視內容生成。本文提出一種融合大模型感知能力的虛擬場景智能優(yōu)化流程,通過構建表達單元、生成圖像、評估一致性并反饋調節(jié),形成語義目標與虛擬場景影像效果之間的自適應閉環(huán)。該方法利用語言-視覺多模態(tài)大模型進行語義評估和參數(shù)修正,實現(xiàn)從自然語言描述到視覺效果輸出的高一致性表達,為面向語義目標的智能創(chuàng)作生產提供了可推廣的流程機制,為影視內容生成注入更強的自動化與智能化能力。研究表明,基于虛幻引擎(UE)的原型系統(tǒng)在受控場景下實現(xiàn)穩(wěn)定的閉環(huán)運行,呈現(xiàn)出良好的語義一致性與風格統(tǒng)一性。
關鍵詞
虛擬場景;大模型;智能優(yōu)化;感知反饋
1引言
虛擬場景作為數(shù)字視聽內容生產的重要基礎設施,已逐步嵌入影視工業(yè)的各個環(huán)節(jié),成為支撐高質量影像創(chuàng)作、特效生成與鏡頭構建的關鍵手段。例如,在電影《阿凡達:水之道》〔圖 1(左)〕中,制作團隊構建了高度復雜的海底虛擬生態(tài)系統(tǒng),包括珊瑚地貌、海洋生物、懸浮粒子等多種三維元素,通過精細的體積光照、水體折射與動態(tài)材質控制,實現(xiàn)了沉浸感極強的視聽體驗。這些虛擬場景完全在數(shù)字空間中搭建,不僅需滿足極高的真實感需求,還要求與動作捕捉數(shù)據(jù)高度同步,構成一套高度參數(shù)化、控制精度極高的鏡頭生成系統(tǒng)[1]。類似地,在動畫長片《蜘蛛俠:縱橫宇宙》〔圖 1(右)〕中,創(chuàng)作者圍繞多個風格迥異的虛擬世界分別搭建了抽象城市、手繪紙面、立體涂鴉等風格場景,每一類場景均需定義獨立的色彩模型、幾何構成規(guī)則與動態(tài)響應方式,實現(xiàn)鏡頭語言與敘事語義的高度一致[2]。
![]()
圖 1 《阿凡達:水之道》(左)和《蜘蛛俠:縱橫宇宙》(右)中的虛擬場景
這些實踐表明,影視虛擬場景的構建早已超越背景渲染或簡單合成的范疇,逐步演變?yōu)榧曈X風格控制、圖像表現(xiàn)優(yōu)化與高精度參數(shù)調節(jié)于一體的綜合生成系統(tǒng)[3]。但隨著影視創(chuàng)作規(guī)模與表達復雜度不斷提升,當前的虛擬場景構建流程仍面臨多重瓶頸[4,5]:一方面,影視虛擬環(huán)境通常包含大量可調節(jié)參數(shù),如環(huán)境光照、材質響應、粒子系統(tǒng)與氛圍配置等,構成高度耦合的參數(shù)空間,調試效率低、反饋路徑弱;另一方面,面對多樣的藝術風格與語義表達需求,現(xiàn)有工作流程過度依賴創(chuàng)作者經驗與主觀判斷,缺乏明確的語義閉環(huán)機制,導致結果難以穩(wěn)定復現(xiàn),表達一致性受限。這使創(chuàng)作者在進行風格營造、氣氛控制與語義一致性表達等高階任務時,常陷入“調參—渲染—評估”的重復試錯循環(huán),制約創(chuàng)作生產效率與整體視覺質量的提升。
近年來,快速發(fā)展的多模態(tài)感知與生成技術為解決上述問題提供了新的技術路線。相關研究表明,具備語義理解能力的智能系統(tǒng)能夠對圖像結果與目標語言描述之間的匹配度進行分析[6],并反向推導圖像生成策略,從而打通“結果—語義—控制”的閉環(huán)路徑。已有方法在圖像生成、風格遷移與語義優(yōu)化等任務中取得初步成果,例如,3D 高斯?jié)姙R(3DGS)以可優(yōu)化的各向異性三維高斯表示場景并通過快速光柵化實現(xiàn)實時輻射場渲染,顯著降低多視角一致性與交互預覽的計算開銷,為迭代式參數(shù)調控提供在線預覽基礎[7];語義感知的場景表征對齊對象級語義與視覺特征,支持基于語義的區(qū)域約束與表示一致性維護,為面向目標語義的可控生成與優(yōu)化提供結構化支撐[8]。然而面向高質量影視虛擬攝制的實際場景中,尚缺乏統(tǒng)一的系統(tǒng)機制,能夠將目標語義、場景反饋與參數(shù)控制進行有效聯(lián)動,進而滿足創(chuàng)作流程對表達準確性與調控效率的雙重需求。
為此,本文提出一種面向影視虛擬場景的智能優(yōu)化方法,通過構建感知閉環(huán)機制,實現(xiàn)虛擬環(huán)境從視覺結果到語義目標的自適應優(yōu)化。該方法以語義感知為核心驅動,通過引入反饋路徑提升調控精度與風格一致性,在保持創(chuàng)作者主動性與藝術表達空間的同時,提升調參效率與場景質量控制水平。本研究旨在為影視虛擬場景的智能生成與高質量表達控制提供理論基礎與方法路徑,推動面向語義的內容生成范式在影視制作領域的落地與發(fā)展。
2虛擬場景優(yōu)化的相關理論與技術基礎
2.1影視虛擬場景構建流程控制
影視虛擬場景作為支撐高質量數(shù)字影像創(chuàng)作的關鍵基礎設施,其構建體系需滿足極高的視覺還原度、風格表達能力與控制精度。不同于一般的虛擬現(xiàn)實(VR)或游戲場景,其系統(tǒng)結構體現(xiàn)出多層次的專業(yè)化協(xié)同:在場景建構層面,包括高精度幾何建模、復雜材質系統(tǒng)、精細光照模型與物理粒子模擬;在渲染控制層面,依托多通道渲染、層級遮罩與后期合成控制構建鏡頭級別的表現(xiàn)能力;在內容生成層面,則需支持語義驅動的風格映射與參數(shù)模板化調用。這種集成化、多模態(tài)協(xié)同的架構,是實現(xiàn)影視級表達能力的技術基礎。不同于以交互性與實時性為主的游戲或VR場景,影視級制作強調每個參數(shù)節(jié)點的語義清晰、狀態(tài)可調用與版本可恢復性,以支撐復雜鏡頭結構與批量化輸出的需要[9]。
2.2 參數(shù)空間的結構性與表達一致性建模
影視虛擬場景優(yōu)化的核心挑戰(zhàn)在于參數(shù)控制的復雜性與表達一致性的雙重要求。參數(shù)空間維度高,涵蓋光源屬性、鏡頭參數(shù)、材質細節(jié)、粒子行為與環(huán)境特征等多種變量,這些因素間通常存在顯著的非線性耦合關系,使調控過程繁復且敏感[10]。在缺乏有效建模的情況下,通常采用“逐項微調+渲染回看”的經驗式流程,例如反復改動光照強度與色溫、相機曝光與后期曲線、材質粗糙度與金屬性等,常以人工網格搜索或二分試探推進,既耗時又難以形成面向全局目標的統(tǒng)一優(yōu)化策略。另外,影視級圖像輸出對表達一致性的要求遠超其他應用場景,其不僅包括場景風格與構圖的協(xié)調,還涉及語義層面的一致性、美學趨向的穩(wěn)定性以及與鏡頭語言的契合性[11]。例如,在風格化影像中,鏡頭視角的變化不應破壞場景整體的美術風格與語義連續(xù)性,這就要求參數(shù)變化對視覺輸出的影響可控且可預測。
2.3 感知驅動的場景評估機制與多模態(tài)協(xié)同方法
在場景優(yōu)化過程中,關鍵環(huán)節(jié)是快速而準確地獲取圖像反饋,以指導參數(shù)調節(jié)與表達調整。傳統(tǒng)評價方法側重于物理準確性或渲染效率,無法覆蓋創(chuàng)作者對風格表現(xiàn)及語義一致性的主觀判斷[12]。而近期的技術發(fā)展表明,多模態(tài)感知模型[13,14]具備成為反饋中樞的潛力。以對比語言-圖像預訓練(Contrastive Language?Image Pre?training,CLIP)大模型為例[15,16],該“視覺—語言”聯(lián)合訓練模型能夠衡量圖像與文本描述之間的語義匹配度,被廣泛用于無監(jiān)督圖像—文本相似度評估和圖像風格偏差檢測。在虛擬場景構建中,CLIP 為“圖像—語義—參數(shù)”閉環(huán)提供了量化指標,可用于自動觸發(fā)調參節(jié)點。此外,一些面向視頻的多模態(tài)模型[17]使用時空一致性評估增強了對鏡頭連貫性的反饋,為多鏡頭場景質量監(jiān)控提供結構性輸出。在美學層面,Aesthetic Predictor 等基于視覺特征的模型[18]能夠對圖像進行美學評分,分析色彩、構圖、視覺吸引力等因素,為表達質量提供定量評估依據(jù)。這種美學判斷機制可作為流程中額外維度的反饋,為風格統(tǒng)一性和表達符合性提供輔助。多模態(tài)技術的發(fā)展也使語言描述、圖像風格、語義結構三者之間的互通成為現(xiàn)實,為語義驅動的參數(shù)調優(yōu)奠定了技術基礎。
2.4 相關研究的局限性
盡管當前圖像生成與風格控制相關技術在靜態(tài)圖像處理與審美遷移等方向取得了一定進展,但其多聚焦于非流程化的內容生成場景,缺乏針對影視級虛擬場景構建所需的結構性流程支持。在多數(shù)已有方法中,參數(shù)調節(jié)往往以試錯方式進行,缺乏對場景生成邏輯、鏡頭一致性及語義合理性的系統(tǒng)建模,導致表達結果難以追溯與穩(wěn)定復現(xiàn)。此外,現(xiàn)有研究普遍忽視參數(shù)空間與語義目標間的聯(lián)動機制。在實際影視制作中,創(chuàng)作者通常面對的是一個高維度、強耦合的參數(shù)系統(tǒng),其調控不僅關系到視覺風格,還直接影響畫面語義表達與鏡頭表現(xiàn)力。然而,傳統(tǒng)的“逐項微調+渲染回看”的經驗式流程多依賴主觀判斷與靜態(tài)評分,難以構建可泛化的反饋通路,也無法滿足復雜創(chuàng)作任務對精度控制與表達一致性的雙重需求。
3虛擬場景語義感知優(yōu)化流程
圍繞影視虛擬場景的智能優(yōu)化任務,本文提出一種基于大模型語義感知能力的優(yōu)化流程(圖 2),該流程構建了由表達單元構建、場景意向生成、一致性評估與表達單元優(yōu)化四個階段組成的感知閉環(huán),通過多階段反饋實現(xiàn)視覺結果與語義目標之間的自適應映射與動態(tài)調控。在保證創(chuàng)作者藝術表達主動性的前提下,該機制以語義驅動為核心,系統(tǒng)聯(lián)動參數(shù)構建、場景生成與語義反饋過程,為實現(xiàn)高一致性、高精度的虛擬場景生成提供了具備流程化與可迭代特征的技術路徑。
![]()
圖 2 虛擬場景語義感知優(yōu)化流程示意圖
3.1 表達單元構建
優(yōu)化流程的起點在于構建表達單元,目的是在高維參數(shù)空間中明確生成任務的語義目標與控制邊界,為后續(xù)的優(yōu)化建立可量化、可執(zhí)行的結構化輸入基礎。表達單元包括目標描述語義、初始控制因子、生成邊界等關鍵信息,其形式上可表示為多元組,如式(1)所示。
![]()
式(1)中,
T表示語義目標,通常以自然語言的形式表達,用于描述場景所需傳達的視覺語義或情緒氛圍;
C表示控制因子集合,用于約束生成參數(shù)的初始空間,包含光照方向、鏡頭視角、材質類型、動態(tài)要素等初始可調維度;
B表示邊界約束,包括空間布局、風格限定、時間節(jié)奏或資源規(guī)模等生成范圍限制。為確保表達單元具備足夠的生成效能與質量保證,還需引入一組高可信度的虛擬場景要素作為基礎支持,這些要素通常包括經專業(yè)美術設計驗證的三維模型、可控材質庫、風格化光照模板以及結構化環(huán)境元素等。
在具體實現(xiàn)過程中,語義目標可由用戶以自然語言進行描述,通過大模型的多模態(tài)解析能力,將其轉化為可操作的嵌入向量或邏輯條件;控制因子則通過虛擬環(huán)境創(chuàng)作工具由用戶交互式設定,部分參數(shù)可從歷史模板中繼承或自動建議生成。該階段的關鍵任務是構建具備語義清晰性、調控可操作性與結構完備性的表達單元,為后續(xù)的場景生成與一致性評估建立穩(wěn)定的輸入基礎。
3.2 場景意向生成
表達單元設定完成后,虛擬場景生成系統(tǒng)需據(jù)此構建圖像內容。該階段依托虛擬制作工具將結構化目標解析為場景元素的配置方案,涵蓋幾何形體、材質風格、光照模型與構圖方式等視覺要素,并完成圖像渲染。可形式化地表示該生成過程為函數(shù)映射,如式(2)所示。
![]()
式(2)中,
G(·)為場景生成函數(shù),輸出圖像是對表達單元
U的響應性映射。此階段不僅涉及參數(shù)到視覺內容的轉換,還體現(xiàn)出表達意圖在空間構成與風格體現(xiàn)層面的物化過程。在實際操作中,為確保生成圖像具備初步可用性,需結合一定的模板庫與默認構圖策略,從而保障生成效率與內容完整性。
3.3 一致性評估機制
針對虛擬場景圖像質量的評估,是構建語義感知優(yōu)化閉環(huán)的關鍵環(huán)節(jié)。在本研究提出的方法中,該任務由具備語義理解能力與多模態(tài)感知能力的大模型自動完成。其核心目標在于判斷當前生成圖像是否滿足表達單元中設定的語義意圖,并提供穩(wěn)定、量化的反饋信號,以驅動下一輪優(yōu)化。評估涵蓋幾個主要維度:語義一致性檢測、目標偏差分析與美學質量評估等。評估機制的目標在于衡量當前生成圖像是否滿足表達單元中設定的語義目標,并為后續(xù)表達單元的優(yōu)化提供可量化反饋。形式上,設生成圖像為
目標為T,則評估函數(shù)定義如式(3)所示。
![]()
![]()
評估機制依托大模型的跨模態(tài)對齊能力與上下文理解能力,在無需人工干預的情況下即可完成全自動計算,具備高一致性、穩(wěn)定性與可重復性。其輸出結果直接傳遞至表達單元優(yōu)化階段,驅動表達控制要素的更新迭代,實現(xiàn)從感知反饋到表達調整的閉環(huán)鏈路。
3.4 表達單元優(yōu)化
在獲得一致性評估結果后,系統(tǒng)需基于偏差分析自動修正表達單元中的控制變量與目標設定,實現(xiàn)優(yōu)化閉環(huán)。優(yōu)化可視為對控制因子的更新迭代,如式(4)所示。
![]()
式(4)中,Δ
C為大模型依據(jù)評估結果反饋的調節(jié)因子,反映當前場景圖像與語義目標間的偏離方向與幅度。同時,在某些情況下需對表達目標
T進行更新以適應更高層次的語義抽象或表達調整,從而形成新的表達單元,如式(5)所示。
![]()
在整個迭代過程中,大模型不僅參與語義分析與質量評估,更承擔調節(jié)建議的生成任務,形成自動化表達優(yōu)化通路。最終,系統(tǒng)在數(shù)輪迭代后將收斂至語義一致性較高、美學評分優(yōu)越且構圖合理的高質量場景,完成從目標設定到場景優(yōu)化的全流程智能調優(yōu)。
4虛擬場景優(yōu)化分析
圍繞所提出的語義感知驅動優(yōu)化機制,驗證其在影視虛擬場景優(yōu)化任務中的實際應用效果。通過構建大模型接口,在表達單元與場景結果間建立閉環(huán)反饋關系,實現(xiàn)語義目標、控制因子與邊界約束間的協(xié)同調控。為驗證該機制的可行性與表達能力,我們選取天空效果的構建作為分析示例,展示優(yōu)化流程在圖像風格一致性、語義還原準確性及表達細膩度等方面的性能表現(xiàn)。
4.1 優(yōu)化流程構建與表達設定
實驗平臺基于虛幻引擎5(UE5)構建,集成Sky Atmosphere、Volumetric Cloud、Directional Light等模塊,以構成參數(shù)驅動的生成體系。通過在UE內部構建通訊接口,并結合Python API實現(xiàn)與大模型的雙向通信,系統(tǒng)支持表達單元的輸入傳遞、圖像結果返回、評估反饋解析與控制因子的自動化調節(jié),形成閉環(huán)優(yōu)化流程。在技術結構上,表達單元
U被轉化為嵌入結構,通過JSON協(xié)議與大模型完成往返交互,形成完整閉環(huán)。采用三元組結構
U
T
C
B}表達創(chuàng)作意圖與控制邏輯,
T描述期望視覺情境的語言指令,例如“稀疏云彩的清晨”或“雷雨來臨前的低沉”;
C為控制因子集合,涵蓋光照角度與強度、云層密度與分布函數(shù)、霧效濃度、天空漸變色結構等可調變量,同時包含高質量數(shù)字資產配置,確保生成內容的表現(xiàn)力與細節(jié)質量;
B則為邊界約束,用于限定分辨率、渲染時長、構圖風格、所用物理模板等條件,以保障生成效率與整體合理性。
在生成環(huán)節(jié),系統(tǒng)依據(jù)表達單元中設定的
C值,自動將控制參數(shù)注入至UE的天空組件中,完成高質量虛擬場景的渲染,輸出圖像為標準靜幀格式。隨后,圖像被傳輸至大模型進行一致性評估,并依據(jù)語義目標與圖像輸出間的偏差結果,反向優(yōu)化表達單元中的關鍵控制參數(shù),驅動下一輪的迭代生成,實現(xiàn)以語義感知為核心的閉環(huán)優(yōu)化機制。
4.2 場景優(yōu)化結果與表達一致性分析
針對設定的語義目標,系統(tǒng)通過表達單元構建后批量生成數(shù)百張場景結果截圖,并由大模型自動評估其語義一致性與美學得分,最終選取語義還原度高、視覺表現(xiàn)力強的圖像樣本用于分析與展示,體現(xiàn)大模型在虛擬場景生成中的感知判斷與優(yōu)選能力。
如圖3所示,針對“稀疏云彩的清晨”這一語義目標,系統(tǒng)在表達單元初始設定下,自動生成并迭代多輪場景圖像樣本,最終選出數(shù)張在云量、晨光色溫與構圖層次上更符合表達意圖的場景。圖中展示的樣本即為大模型評估后篩選出的典型結果,其色調柔和、云層疏密適中,體現(xiàn)出清晨輕盈氛圍的感知還原能力。
![]()
圖 3 基于“稀疏云彩的清晨”語義及場景要素優(yōu)化過程中場景截圖
同樣,在圖4中,系統(tǒng)面對“雷雨來臨前的低沉” 這一融合天氣狀態(tài)與情緒表達的場景語義時,調控體積云密度、天光亮度與霧效分布等關鍵因子,并通過大量場景圖像批次生成與反饋評估,篩選出能夠準確展現(xiàn)沉郁壓抑氛圍的代表性畫面。相比初始隨機生成的樣本,這些優(yōu)選場景效果可更有效地實現(xiàn)從自然語言描述到視覺風格表達的閉環(huán)映射。
![]()
圖 4 基于“雷雨來臨前的低沉”語義及場景要素優(yōu)化過程中場景截圖
通過上述流程,系統(tǒng)不僅能自動擴展表達單元對應的場景圖像空間,還具備對多輪結果進行感知驅動,為高質量虛擬場景優(yōu)化提供穩(wěn)定高效的支撐機制。
5結論與展望
隨著虛擬攝制技術在影視工業(yè)中的深入發(fā)展,如何實現(xiàn)高質量、語義一致、風格統(tǒng)一的虛擬場景生成,已成為視覺表達與技術控制融合的重要方向。語義感知驅動的優(yōu)化機制,在提升表達精度與生成效率方面展現(xiàn)出廣闊潛力。一方面,借助大模型對語言與圖像的理解能力,可將語義目標映射為可操作的控制因子,并基于圖像反饋動態(tài)調整生成參數(shù);另一方面,各類虛擬場景生產平臺提供的可編程接口和高質量渲染能力,為閉環(huán)流程的執(zhí)行與迭代優(yōu)化提供了技術基礎。
這一機制有助于改善傳統(tǒng)虛擬場景優(yōu)化流程中效率低、風格難控、表達一致性弱等問題,適用于復雜視覺語境下的快速構圖、風格調和與語義還原。通過構建表達單元與大模型的聯(lián)動,能夠實現(xiàn)以語義為導向的自動優(yōu)化,減少創(chuàng)作者在高維參數(shù)空間中的試錯負擔,增強場景優(yōu)化與創(chuàng)作意圖間的耦合度。
盡管本文提出的優(yōu)化流程取得一定效果,但其適用范圍仍受到一定限制。一方面,高質量的數(shù)字資產與結構化場景要素是實現(xiàn)精細表達的基礎,缺乏穩(wěn)定素材支撐時,場景優(yōu)化空間受限;另一方面,表達單元中控制因子的數(shù)量較多或耦合關系復雜時,模型在反饋路徑中對關鍵因素的識別能力將下降,易導致優(yōu)化方向不明確或調整幅度不足。此外,當前流程對于動態(tài)鏡頭的連貫性、時間一致性與風格保持能力仍缺乏系統(tǒng)性機制,難以直接應用于長時序內容生成任務。
未來的研究可從三個方面展開:其一,構建更具模塊化、可組合性的數(shù)字資產體系,以提升在復雜表達場景下的生成精度與靈活度;其二,融合具備時序建模能力的大模型,擴展至連續(xù)鏡頭、場景遷移等動態(tài)內容的表達控制;其三,引入半自動或人機協(xié)同的表達單元構建機制,在保障創(chuàng)作主動性的同時提升初始設定質量,增強優(yōu)化流程的整體穩(wěn)定性。
影視虛擬場景的構建過程,正逐步從經驗驅動轉向語義驅動、從靜態(tài)設定邁向動態(tài)反饋。面向語義一致性的優(yōu)化機制不僅為影視復雜鏡頭的構建提供了技術支持,也為未來影視智能創(chuàng)作流程的演進奠定了方法基礎。
參考文獻
(向下滑動閱讀)
[1] WANG S, XU Q, LIU Y. Research on the creation of film and TV works based on virtual reality technology[C]//Journal of Physics: Conference Series. IOP Publishing, 2021, 1744(3): 032015.
[2] MACCARI F, GROCHOLA P, NICOL K, et al. Repainting the Spider?Verse: A new painting FX pipeline with Rebelle and Houdini[C]//ACM SIGGRAPH 2023 Talks (SIGGRAPH '23). Association for Computing Machinery, New York, NY, USA, Article 5, 2023.
[3] GUO H, LUO K, ZHENG L, et al. The Application of Virtual Reality Technology and Real?Time Rendering Algorithms in Film Production[J]. Computer?Aided Design & Applications, 2024, 21: S28.
[4] CHEN Y, SHAO G, SHUM K C, et al. Advances in 3d neural stylization: A survey[J]. International Journal of Computer Vision, 2025,133: 1?36.
[5] XIAO H, KANG W, LIU H, et al. Semantic scene completion via semantic?aware guidance and interactive refinement transformer[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2025,35(5):4212?4225.
[6] LE MOING G, VU T H, JAIN H, et al. Semantic palette: Guiding scene generation with class proportions[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,2021: 9342?9350.
[7] KERBL B, KOPANAS G, LEIMKüHLER T, et al. 3D Gaussian splatting for real?time radiance field rendering[J]. ACM Trans. Graph., 2023, 42(4): 1?14.
[8] PARSEH M J, RAHMANIMANESH M, KESHAVARZI P, et al. Semantic?aware visual scene representation[J]. International Journal of Multimedia Information Retrieval, 2022, 11(4): 619?638.
[9] SILVA J D, MARTí?TESTóN A, MU?OZ A, et al. Virtual production: Real?time rendering pipelines for indie studios and the potential in different scenarios[J]. Applied Sciences, 2024, 14(6): 2530.
[10] 季桉寧.虛擬仿真平臺中的智能算法優(yōu)化與場景渲染技術分析[J].電子技術,2025,54(01):398?400.
[11] GU Z, CUI Y, LI Z, et al. ArtiScene: Language?Driven Artistic 3D Scene Generation Through Image Intermediary[C]//Proceedings of the Computer Vision and Pattern Recognition Conference,2025: 2891?2901.
[12] EISENACHER C, MEYER Q, LOOP C.Real?time view?dependent rendering of parametric surfaces[C]//Proceedings of the 2009 symposium on Interactive 3D graphics and games (I3D '09). Association for Computing Machinery, New York, NY, USA, 2009.
[13] MARTON Z C, PANGERCIC D, BLODOW N, et al. Combined 2D–3D categorization and classification for multimodal perception systems[J]. The International Journal of Robotics Research, 2011, 30(11): 1378?1402.
[14] WANG T, MAO X, ZHU C, et al. Embodiedscan: A holistic multi?modal 3d perception suite towards embodied ai[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2024: 19757?19767.
[15] LEE J, KIM J, SHON H, et al. Uniclip: Unified framework for contrastive language?image pre?training[J]. Advances in Neural Information Processing Systems, 2022, 35: 1008?1019.
[16] LIN W, ZHAO Z, ZHANG X, et al. Pmc?clip: Contrastive language?image pre?training using biomedical documents[C]//International Conference on Medical Image Computing and Computer?Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 525?536.
[17] FRIDMAN R, ABECASIS A, KASTEN Y, et al. Scenescape: Text?driven consistent scene generation[J]. Advances in Neural Information Processing Systems, 2023, 36: 39897?39914.
[18] Platform[EB/OL].[2025?07?20].https://github.com/christophschuhmann/improved-aesthetic-predictor.
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.