![]()
僅憑一段隨手拍攝的單目視頻,是否能夠讓鏡頭在空間中自由飛行,讓光線隨意變換,讓原本固定的真實場景在全新的視角與照明條件下被再次「拍攝」?這一過去被視作科幻設想的問題,如今迎來了明確答案。
近日,新加坡南洋理工大學 S-Lab、北京智源人工智能研究院(BAAI)、華中科技大學、清華大學智能產(chǎn)業(yè)研究院(AIR)等多家科研機構聯(lián)合推出Light-X —— 全球首個實現(xiàn)「鏡頭 × 光照」雙維度可控 的 4D 視頻生成框架。Light-X 讓「按用戶意圖重新導演一段視頻」成為現(xiàn)實:既能自由規(guī)劃鏡頭軌跡、生成任意新視角內(nèi)容,也能靈活調(diào)整光源方向、亮度與風格 —— 從電影級布光到賽博霓虹氛圍,都能在一段普通視頻中輕松實現(xiàn)。
![]()
- 論文名稱:Light-X : Generative 4D Video Rendering with Camera and Illumination Control
- 論文鏈接:https://arxiv.org/abs/2512.05115
- 項目主頁:https://lightx-ai.github.io/
- 開源代碼:https://github.com/TQTQliu/Light-X
![]()
https://mp.weixin.qq.com/s/YIMpcZd7OKW7cobQQ6UkFw
研究背景
現(xiàn)實世界的視覺體驗由幾何、運動和光照共同構成,而我們?nèi)粘E臄z的單目視頻,只是這一復雜四維時空的二維投影。若能在拍攝后重新控制鏡頭位置、自由調(diào)節(jié)光照條件,那么普通視頻就能具備「可重拍攝」、「可再導演」的能力。無論是電影制作、虛擬拍攝,還是 AR/VR 內(nèi)容生成,都將受益匪淺。
現(xiàn)有研究大多沿著兩條彼此獨立的路線發(fā)展:
- 視頻重打光:如 Light-A-Video 在單幀 IC-Light 的基礎上擴展到視頻級光照編輯,但仍難以兼顧光照質(zhì)量與時間一致性,更無法支持視角變化。
- 相機可控的視頻生成:最近的 TrajectoryCrafter、ReCamMaster 等方法能夠生成全新鏡頭,但完全不涉及光照變化。
然而,真實場景的觀感由幾何、運動和光照共同決定,僅操控其中單一因素難以實現(xiàn)真正自然、可信的重渲染。在單目視頻中同時實現(xiàn)「鏡頭 × 光照」聯(lián)合控制,是此前從未被解決的問題。
其核心挑戰(zhàn)主要包括:
- 缺乏成對數(shù)據(jù):真實世界幾乎不存在「同一動態(tài)場景 × 多光照 × 多視角」的視頻數(shù)據(jù),使模型難以同時學習光照調(diào)節(jié)與視角變化的聯(lián)合控制規(guī)律。
- 多維因素耦合:光照變化、相機運動與場景幾何相互影響,任一維度的變化都可能引入光照閃爍或幾何不穩(wěn)定。要在生成新視角的同時保持光照逼真與時序連貫性,其難度遠高于單獨完成其中任一任務。
在這一背景下,Light-X 的提出填補了關鍵空白:它第一次在單目視頻場景中統(tǒng)一解決了相機軌跡控制與光照控制,讓視頻具備真正意義上的 4D 多維可編輯能力。
方法架構
Light-X 的核心思路,是將相機控制與光照控制先解耦,再在擴散模型中統(tǒng)一融合,從而在單目視頻中實現(xiàn)真正的「鏡頭 × 光照」雙可控生成。
顯式解耦相機與光照
Light-X 首先從輸入視頻中分別構建兩條分支:1)動態(tài)點云(用于相機控制):從視頻估計深度,反投影成隨時間變化的動態(tài)點云。再根據(jù)用戶的相機軌跡,將其投影成新視角的幾何渲染圖和可見性掩碼。2)重打光點云(用于光照控制):對輸入視頻選取某一幀做重光照,再反投影成光照點云,并投影到目標視角,得到光照渲染與光照掩碼。通過分別構建「幾何分支」和「光照分支」,Light-X 在建模階段將兩種因素成功解耦。
聯(lián)合條件的視頻擴散模型
在生成階段,Light-X 會將兩條分支的線索統(tǒng)一輸入擴散模型:1)細粒度幾何與光照線索:幾何渲染提供場景結構與運動信息;光照渲染提供逐像素的光照變化線索。2)全局光照 token 保持風格一致:模型從重光照幀中提取全局光照 token,用于維持長時間段的光照風格、亮度和方向一致性。
![]()
圖 1 Light-X 框架總覽
數(shù)據(jù)構建
為訓練具備「鏡頭 × 光照」聯(lián)合控制能力的模型,Light-X 需要成對的幾何對齊、多光照、多視角訓練數(shù)據(jù)。然而真實世界幾乎不存在這樣的數(shù)據(jù)。為此,我們構建了Light-Syn,一種從單目視頻自動合成訓練數(shù)據(jù)的流程。
退化:把真實視頻變成「輸入視頻」
Light-Syn 以普通視頻作為目標視頻,然后通過現(xiàn)有算法合成一個品質(zhì)更低的「輸入視頻」。
逆向映射:恢復訓練所需的條件線索
基于退化過程的記錄,Light-Syn 自動生成:
- 對齊的幾何渲染與可見區(qū)域
- 稀疏的重光照視頻
- 重光照后的渲染與掩碼
這些信號構成 Light-X 學習「該看到什么」和「光該如何變化」的條件。
多來源數(shù)據(jù)覆蓋更多場景
Light-Syn 構建的數(shù)據(jù)來自三類視頻:
- 靜態(tài)場景視頻(多視角幾何更穩(wěn)定)
- 動態(tài)場景視頻(運動更真實)
- AI生成視頻(光照風格更豐富)
這種多來源設計讓模型既能學到真實的運動結構,又能適應多樣化的光照風格。
![]()
圖 2 數(shù)據(jù)管線 Light-Syn 總覽
方法框架和數(shù)據(jù)管線靈活性
得益于 Light-X 的統(tǒng)一建模方式,它可以同時支持多種形式的光照輸入,包括:HDR 環(huán)境光,參考圖光照,文本 / 背景圖光照,不同光照模式在訓練中通過軟掩碼區(qū)分,使同一個模型即可泛化到多種光照條件,無需為每種模式分別訓練。
![]()
圖 3 多模態(tài)光照數(shù)據(jù)構建與條件機制示意圖
實驗結果
Light-X 在兩個核心任務上進行了系統(tǒng)評測:(1)鏡頭 × 光照聯(lián)合控制 和 (2)視頻重打光。在所有基準上,Light-X 都顯著優(yōu)于現(xiàn)有方法。
鏡頭 × 光照聯(lián)合控制
由于此前沒有能同時做「新視角生成 + 重光照」的方法,論文構建了多種組合式 baseline,例如 TrajectoryCrafter + IC-Light、Light-A-Video + TrajectoryCrafter 等。如表 1 和圖 4 所示,Light-X 在圖像質(zhì)量、視頻平滑性以及用戶偏好等多項指標上均取得顯著領先,實現(xiàn)了當前最優(yōu)的聯(lián)合控制效果。
![]()
表 1 鏡頭 × 光照聯(lián)合控制任務的定量結果。用戶偏好表示選擇我們方法的參與者比例
![]()
https://mp.weixin.qq.com/s/YIMpcZd7OKW7cobQQ6UkFw
圖 4 鏡頭 × 光照聯(lián)合控制的視頻對比
視頻重打光
表 2 和圖 5 展示了視頻重打光任務的定量和定性結果。相比 IC-Light、Light-A-Video 等方法,Light-X 在圖像質(zhì)量、時間一致性和用戶偏好上均取得明顯優(yōu)勢,整體呈現(xiàn)出更高的光照真實性與視頻穩(wěn)定性。
![]()
表 2 視頻重打光任務的定量結果
![]()
https://mp.weixin.qq.com/s/YIMpcZd7OKW7cobQQ6UkFw
圖 5 視頻重打光的視頻結果對比
消融實驗
消融實驗(表 3)從數(shù)據(jù)構建、模型結構與光照機制條件設計三個方面進行分析。結果表明:多源數(shù)據(jù)(靜態(tài)、動態(tài)與 AI 生成)對于提升新視角質(zhì)量、運動穩(wěn)定性及光照多樣性至關重要;細粒度光照線索與全局光照控制顯著改善光照一致性和穩(wěn)定性;訓練策略中的軟掩碼與單幀重打光設計同樣關鍵,可避免光照域混淆并提升時序一致性。
![]()
表 3 消融實驗定量結果
![]()
https://mp.weixin.qq.com/s/YIMpcZd7OKW7cobQQ6UkFw
圖 6 Light-X 多維度控制能力展示
![]()
https://mp.weixin.qq.com/s/YIMpcZd7OKW7cobQQ6UkFw
圖 7 Light-X 支持交互式調(diào)節(jié)視頻中的光照區(qū)域與方向,實現(xiàn)細粒度、可控的重打光效果
總結
Light-X 提出了首個能夠從單目視頻同時控制鏡頭運動與光照的 4D 視頻生成框架。通過將相機與光照因素顯式解耦,利用動態(tài)點云提供幾何與運動先驗,并通過重打光幀構建光照線索,Light-X 在統(tǒng)一的擴散模型中實現(xiàn)了穩(wěn)定、高保真的聯(lián)合調(diào)控。同時提出了 Light-Syn 數(shù)據(jù)管線,使模型無需真實的多視角、多光照采集即可完成訓練。大量實驗表明,Light-X 在「鏡頭 × 光照」聯(lián)合控制和視頻重打光任務上均顯著優(yōu)于現(xiàn)有方法,并能靈活適配多種光照模式。
盡管如此,Light-X 仍依賴單幀重打光質(zhì)量和深度估計精度,在極端光照、錯誤深度或大范圍相機運動下仍可能受到影響。此外,擴散模型的多步去噪也帶來一定的計算成本。未來工作可探索更強的視頻生成 backbone、更穩(wěn)健的幾何建模策略以及長視頻生成技術,以進一步提升質(zhì)量與適用性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.