UniLumos: 物理反饋統(tǒng)一圖像視頻重打光框架，20倍加速光影重塑

2025-11-24 18:36:17　來源: 機(jī)器之心Pro

天津舉報

分享至

圖像與視頻重光照（Relighting）技術(shù)在計算機(jī)視覺與圖形學(xué)中備受關(guān)注，尤其在電影、游戲及增強現(xiàn)實等領(lǐng)域應(yīng)用廣泛。當(dāng)前，基于擴(kuò)散模型的方法能夠生成多樣且可控的光照效果，但其優(yōu)化過程通常依賴于語義空間，而語義上的相似性無法保證視覺空間中的物理合理性，導(dǎo)致生成結(jié)果常出現(xiàn)高光過曝、陰影錯位、遮擋關(guān)系錯誤等不合理現(xiàn)象。

針對上述問題，我們提出了 UniLumos，一個統(tǒng)一的圖像與視頻重光照框架。本工作的主要創(chuàng)新點主要為：

引入幾何反饋以增強物理一致性：為緩解物理不合理現(xiàn)象，我們在生成過程中引入了來自 RGB 空間的幾何反饋（如深度圖與法線圖），使光照效果與場景結(jié)構(gòu)對齊，從而顯著提升物理一致性。然而，該反饋機(jī)制依賴高質(zhì)量輸出作為視覺空間監(jiān)督，而傳統(tǒng)的流匹配多步去噪過程計算開銷大。為此，我們采用路徑一致性學(xué)習(xí)，在少步訓(xùn)練條件下保持有效監(jiān)督，同時大幅提升推理速度。
構(gòu)建細(xì)粒度光影評估基準(zhǔn)：為實現(xiàn)對光影效果的細(xì)粒度控制與評估，我們設(shè)計了一個結(jié)構(gòu)化的六維光影描述標(biāo)簽，以捕捉核心光照屬性。在此基礎(chǔ)上，提出了 LumosBench，一個基于視覺語言模型（VLM）的光照可控性評估基準(zhǔn)，實現(xiàn)了對重光照精度的自動化、可解釋評估。

實驗表明，UniLumos 在顯著提升物理一致性的同時，其重光照質(zhì)量也達(dá)到了當(dāng)前 SOTA 水平，并且在計算效率上比現(xiàn)有方法提升約 20 倍，實現(xiàn)了高質(zhì)量與高效率的統(tǒng)一。

論文標(biāo)題：UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
論文地址：https://arxiv.org/abs/2511.01678
代碼倉庫：https://github.com/alibaba-damo-academy/Lumos-Custom
WanVideo ComfyUI支持: https://github.com/kijai/ComfyUI-WanVideoWrapper

Demo

本演示所呈現(xiàn)內(nèi)容均來源于真實用戶的生成內(nèi)容，僅用于展示模型的效果。

研究背景與現(xiàn)有方案的局限性

重光照（Relighting）是計算機(jī)視覺與圖形學(xué)中的一項核心任務(wù)，旨在保持場景幾何、材質(zhì)等內(nèi)容固有屬性不變的前提下，對圖像或視頻中的光照效果進(jìn)行自由編輯與調(diào)整。該技術(shù)在電影后期、游戲開發(fā)、虛擬現(xiàn)實（VR）與增強現(xiàn)實（AR）等領(lǐng)域具有重要應(yīng)用價值，例如實現(xiàn)演員在不同光照虛擬場景中的無縫合成，或?qū)τ螒颦h(huán)境氛圍進(jìn)行實時調(diào)節(jié)。

近年來，基于擴(kuò)散模型（Diffusion Models）的方法在重光照任務(wù)中展現(xiàn)出強大的生成潛力。然而，當(dāng)前主流方法在生成質(zhì)量與實用性之間仍面臨兩個根本性挑戰(zhàn)：

挑戰(zhàn)一：物理一致性的缺失

現(xiàn)有方法通常在語義潛空間中進(jìn)行優(yōu)化，其目標(biāo)是實現(xiàn)語義層面的相似性，而非物理層面的準(zhǔn)確性。這種設(shè)計導(dǎo)致模型易產(chǎn)生物理不一致現(xiàn)象，具體表現(xiàn)為：

陰影錯位（Misaligned Shadows）：陰影方向與物體三維結(jié)構(gòu)不符；
高光過曝（Overexposed Highlights）：高光區(qū)域細(xì)節(jié)丟失，不符合真實光學(xué)反射特性；
遮擋關(guān)系錯誤（Incorrect Occlusions）：光線與物體之間的相互遮擋邏輯混亂。

盡管已有研究（如 IC-Light、Light-A-Video 等）嘗試引入幾何先驗或強化時序一致性，但它們要么缺乏視覺域（Visual Domain）中的顯式物理監(jiān)督，要么為保持一致性而犧牲了推理效率。

挑戰(zhàn)二：評估體系的不完善

如何系統(tǒng)評估重光照結(jié)果的質(zhì)量，是當(dāng)前研究中的另一大瓶頸。現(xiàn)有通用圖像評價指標(biāo)（如 FID、LPIPS）主要關(guān)注整體感知相似度，卻無法針對性衡量光照屬性的準(zhǔn)確性。例如，它們難以判斷生成結(jié)果在「陰影方向是否正確」、「色溫是否匹配」、「光照強度是否合理」等細(xì)粒度維度上的表現(xiàn)。這種評估體系的局限，嚴(yán)重制約了模型在光照可控性（Controllability）方面的迭代與優(yōu)化。

圖 1：各基線方法的定性對比。所有方法均以一段主體視頻和一段文本光影描述作為輸入，生成在指定光照條件下具有相應(yīng)背景的視頻。UniLumos 生成效果更自然且符合物理一致性。其中，基線方法 IC-Light（逐幀閃爍嚴(yán)重）和 Light-A-Video（光照方向錯誤、細(xì)節(jié)丟失）相比，UniLumos 展現(xiàn)出更準(zhǔn)確的陰影對齊與更高的時序穩(wěn)定性。

統(tǒng)一的圖像與視頻重光照框架 (UniLumos)

為應(yīng)對上述挑戰(zhàn)，我們提出 UniLumos——一個統(tǒng)一的圖像與視頻重光照框架。如下圖所示，該框架基于視頻生成模型 Wan 2.1 構(gòu)建，能夠依據(jù)用戶指定的光照條件（如圖像參考、視頻片段或文本提示），在保持場景內(nèi)容結(jié)構(gòu)與時序一致性的前提下，實現(xiàn)對圖像與視頻的高質(zhì)量重光照。

圖 2：UniLumos 整體框架圖。左側(cè)為 LumosData（我們提出的數(shù)據(jù)構(gòu)建流程），該流程包含四個階段，用于從真實場景數(shù)據(jù)生成多樣化的重光照樣本對。右側(cè)展示了 UniLumos 的架構(gòu)，一個統(tǒng)一的圖像與視頻重光照框架，其設(shè)計目標(biāo)是實現(xiàn)物理合理的光照控制。

核心創(chuàng)新

我們的核心創(chuàng)新包括一個旨在增強物理一致性的幾何反饋機(jī)制，以及一個用于細(xì)粒度效果評估的基準(zhǔn)：

引入幾何反饋以增強物理一致性。為解決擴(kuò)散模型缺乏物理約束的問題，我們引入了一種來自 RGB 空間的幾何反饋機(jī)制。該機(jī)制采用深度圖與表面法線圖作為監(jiān)督信號，二者均為場景的固有幾何屬性，具備光照不變性。在訓(xùn)練過程中，我們將模型生成的 RGB 圖像輸入預(yù)訓(xùn)練的密集幾何估計模型（如 Lotus），實時提取其深度與法線信息，并通過計算其與原始圖像幾何信息之間的差異構(gòu)建反饋信號，反向傳播以約束生成過程。此機(jī)制強制模型學(xué)習(xí)光影與三維場景結(jié)構(gòu)的對齊關(guān)系，從而顯著改善陰影、著色與空間一致性。然而，該物理反饋機(jī)制依賴高質(zhì)量的 RGB 輸出以提取準(zhǔn)確的幾何信息，而傳統(tǒng)的多步去噪過程計算成本高昂。為此，UniLumos 引入了路徑一致性學(xué)習(xí)，使模型在少步訓(xùn)練模式下仍能保持有效的幾何監(jiān)督。最終，UniLumos 在推理速度上較現(xiàn)有 SOTA 方法提升達(dá) 20 倍，同時保持了更高的物理一致性。
構(gòu)建細(xì)粒度評估基準(zhǔn)。為解決評估體系不完善的問題，我們構(gòu)建了以下數(shù)據(jù)與評估基礎(chǔ)基準(zhǔn)：
LumosData：引入一套結(jié)構(gòu)化的六維光照標(biāo)注協(xié)議，用于精確捕捉核心光照屬性，包括光照方向、光源類型、強度、色溫、時間動態(tài)與光學(xué)現(xiàn)象。
LumosBench：提出一個基于大規(guī)模視覺語言模型的自動化評估基準(zhǔn)，通過判斷生成結(jié)果是否在六個維度上與控制指令精確匹配，實現(xiàn)對重光照效果的細(xì)粒度、可解釋評估。

方法詳述

高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建 (LumosData)

我們首先構(gòu)建了一個高質(zhì)量的光影訓(xùn)練數(shù)據(jù)集 LumosData，其流程如上圖（左）所示。這是一個可擴(kuò)展的數(shù)據(jù)集構(gòu)建流程，用于從真實世界視頻中提取高質(zhì)量的重光照訓(xùn)練樣本。

模型架構(gòu)與訓(xùn)練

潛空間擴(kuò)散與條件注入

聯(lián)合目標(biāo)函數(shù)

我們的訓(xùn)練目標(biāo)融合了三種互補的損失函數(shù)，以權(quán)衡外觀保真度、幾何一致性與推理速度。整體損失定義為：

訓(xùn)練策略

為平衡物理監(jiān)督與訓(xùn)練效率，我們借鑒路徑一致性調(diào)度思想，采用選擇性優(yōu)化策略。在每輪訓(xùn)練迭代中，我們按 80/20 比例劃分批次，以避免全監(jiān)督帶來的過高開銷，同時保留有效的學(xué)習(xí)信號。

實驗結(jié)果與分析

我們在圖像與視頻重光照任務(wù)上進(jìn)行了廣泛實驗，并與多種重光影 SOTA 方法進(jìn)行了系統(tǒng)比較。

A. 定量結(jié)果：多項指標(biāo)達(dá)到 SOTA

如下表所示，UniLumos 在所有關(guān)鍵指標(biāo)上均取得最優(yōu)性能：

視覺保真度：在圖像與視頻任務(wù)中，PSNR 與 SSIM 均優(yōu)于所有基線模型，表明其生成結(jié)果更清晰、結(jié)構(gòu)保持更好。
時間一致性：在視頻任務(wù)中，UniLumos 的 R-Motion 指標(biāo)顯著低于其他方法（如 Light-A-Video），說明其生成視頻的光影過渡更平滑，閃爍與抖動現(xiàn)象更少。
物理一致性：在我們提出的 Lumos 一致性指標(biāo)上，UniLumos 的生成光影準(zhǔn)確性得分顯著高于基線，其密集幾何誤差也大幅降低，驗證了其物理合理性的顯著提升。

B. LumosBench 細(xì)粒度可控性分析

我們進(jìn)一步使用 LumosBench 評估模型在六個光照維度上的可控性。具體而言，我們構(gòu)建了一個包含 2000 條測試提示詞的數(shù)據(jù)集，每條提示詞由一個視頻和一條結(jié)構(gòu)化文本描述組成，旨在每次僅變動一個光照屬性，同時保持其他變量恒定。這些提示詞覆蓋六大類別：方向、光源類型、強度、色溫、時間動態(tài)與光學(xué)現(xiàn)象，每個類別下包含多個子類型（例如方向分為前/側(cè)/后光）。

為衡量生成光照屬性與預(yù)期屬性之間的一致性，我們采用 Qwen2.5-VL 對重光照結(jié)果進(jìn)行分析，并判斷目標(biāo)屬性是否正確呈現(xiàn)。每個維度獨立評分，最終的可控性得分為所有六個維度的平均值。

UniLumos (1.3B) 的平均可控性得分達(dá) [此處缺失具體數(shù)值]，顯著高于其他專有重光照模型，如 IC-Light Per-Frame 與 Light-A-Video。其表現(xiàn)甚至優(yōu)于參數(shù)量更大的通用視頻生成模型（如 Wan2.1 14B），說明 UniLumos 在光照屬性的細(xì)粒度控制方面具備顯著優(yōu)勢。

C. 定性結(jié)果：視覺效果更真實、更穩(wěn)定

我在基線方法對比和下圖中提供了定性比較結(jié)果，充分展現(xiàn)了 UniLumos 在光照真實感、時序一致性與可控性方面的優(yōu)勢：

光照質(zhì)量與可控性：如基線方法對比圖所示，UniLumos 生成的光照效果能更準(zhǔn)確地匹配目標(biāo)描述，細(xì)膩地捕捉方向性陰影、色調(diào)與強度變化。對比方法則要么未能有效反映預(yù)期的光照變化，要么產(chǎn)生過度均勻、缺乏真實感的結(jié)果。
時序一致性：與逐幀處理的 IC-Light、Light-A-Video 等基線方法相比，UniLumos 實現(xiàn)了更平滑的幀間過渡，有效避免了閃爍或結(jié)構(gòu)畸變。這一優(yōu)勢得益于我們所采用的時空聯(lián)合建模機(jī)制，以及物理感知監(jiān)督與路徑一致性訓(xùn)練的進(jìn)一步增強。
前景細(xì)節(jié)保持：UniLumos 在面部結(jié)構(gòu)、衣物紋理等主體細(xì)節(jié)的保持上優(yōu)于基線模型。例如，Light-A-Video 偶爾會出現(xiàn)形變或身份特征漂移，而我們的模型在長序列中仍能保持高度保真。
基于參考視頻的重光照：下圖展示了 UniLumos 在不同參考視頻條件下的生成效果。模型成功實現(xiàn)了全局光照方向與細(xì)微空間變化的跨場景適配，展現(xiàn)出在真實場景下優(yōu)異的泛化能力。

D. 效率對比：實現(xiàn) 20 倍加速

在生成 49 幀 480p 視頻的任務(wù)中：UniLumos (1.3B) 僅需12 秒；IC-Light（逐幀處理）需277 秒；Light-A-Video (Wan-1.3B) 需756 秒；Light-A-Video (CogVideoX-2B) 需917 秒。UniLumos 在保持 SOTA 生成質(zhì)量的同時，實現(xiàn)了顯著的推理效率提升。

E. 消融實驗：關(guān)鍵模塊分析

如下表和圖所示，我們通過消融研究驗證各模塊的貢獻(xiàn)：

物理引導(dǎo)反饋：在同時移除深度與法向反饋（w/o All Feedback）的條件下，模型在圖像質(zhì)量與物理一致性方面均出現(xiàn)顯著下降，驗證了本文所提出物理引導(dǎo)損失函數(shù)的必要性。值得注意的是，僅移除法向監(jiān)督所造成的性能下降遠(yuǎn)大于僅移除深度監(jiān)督，這表明在光影交互建模中，表面朝向信息相較于場景距離信息具有更關(guān)鍵的作用。
路徑一致性學(xué)習(xí)：在去除路徑一致性模塊（w/o Path Consistency）的情況下，各項物理指標(biāo)僅出現(xiàn)輕微下滑，同時 SSIM 與 LPIPS 指標(biāo)仍保持競爭力。這表明路徑一致性模塊在幾乎不犧牲生成性能的前提下，為少步生成場景帶來了可觀的效率優(yōu)勢，證明了其實際應(yīng)用價值。
訓(xùn)練模式：為評估本文統(tǒng)一訓(xùn)練范式的有效性，我們對比了分領(lǐng)域訓(xùn)練的模型變體：僅使用視頻訓(xùn)練會導(dǎo)致視覺質(zhì)量下降，而僅使用圖像訓(xùn)練則會損失時序平滑性。相比之下，我們的統(tǒng)一方法在兩類輸入上均取得了高質(zhì)量的重光照結(jié)果，并實現(xiàn)了最優(yōu)的時序一致性平衡。

結(jié)論

針對現(xiàn)有基于擴(kuò)散模型的重光照方法在物理真實性差和評估維度單一等方面的挑戰(zhàn)，我們提出了 UniLumos，一個統(tǒng)一的圖像與視頻重光照框架。該框架引入 RGB 空間的幾何反饋，包括深度圖與法線圖作為監(jiān)督信號，并將其與流匹配基模相結(jié)合，顯著提升了光照效果的物理一致性。

為克服該反饋機(jī)制帶來的計算效率瓶頸，我們采用路徑一致性學(xué)習(xí)來增強物理監(jiān)督的有效性，在實現(xiàn)當(dāng)前最優(yōu)生成質(zhì)量的同時，帶來了 20 倍的推理加速。

此外，為解決評估體系不完善的問題，我們構(gòu)建了 LumosBench，一個基于視覺語言模型的光照可控性評估基準(zhǔn)，實現(xiàn)了對重光照精度的自動化、可解釋評估。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.