![]()
本文第一作者密振興,香港科技大學計算機科學與技術學院人工智能方向博士生,研究方向是多模態理解與生成,視頻生成和世界模型,目前正在尋找工業界全職職位。
一、背景介紹
近年來,視頻擴散模型在 “真實感、動態性、可控性” 上進展飛快,但它們大多仍停留在純 RGB 空間。模型能生成好看的視頻,卻缺少對三維幾何的顯式建模。這讓許多世界模型(world model)導向的應用(空間推理、具身智能、機器人、自動駕駛仿真等)難以落地,因為這些任務不僅需要像素,還需要完整地模擬 4D 世界。
來自香港科技大學(HKUST)的研究團隊提出 One4D,一個統一的 4D 生成與 4D 重建框架。One4D 構造了一個同步輸出多模態的視頻擴散模型,能夠用一個模型同步輸出 RGB 視頻與 Pointmap(XYZ)幾何視頻,并支持從單張圖像到 4D 生成、從稀疏幀到 4D 生成 + 重建、以及從完整視頻到 4D 重建等多種任務形態。
![]()
- 論文標題:One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
- 論文地址:https://arxiv.org/abs/2511.18922
- Github:https://github.com/MiZhenxing/One4D
- 項目主頁:https://mizhenxing.github.io/One4D
二、One4D 算法設計
One4D 的核心目標是用強大的視頻生成模型(比如Wan Video)統一 4D 生成與 4D 重建,輸出對齊的 RGB 和幾何多模態結果。論文亮點有:
1. 多模態輸出:RGB + Pointmap;
2. DLC:解耦 LoRA 控制,穩住 RGB 同時學幾何對齊;
3. UMC:統一掩碼條件,一套模型覆蓋生成和重建任務。
具體來說,One4D 將動態 4D 場景表示為兩種同步的輸出模態。(1) RGB frames(外觀);(2) Pointmaps(XYZ),即與 RGB 視頻對齊的 3 通道幾何視頻,每個像素存 XYZ 值,可進一步導出 Depth 并結合后處理估計相機軌跡,最終可視化為 4D 點云和相機。
并且,One4D 在一個框架內支持三種輸入:單張圖到 4D 生成,稀疏視頻幀到 4D 生成 + 重建,完整視頻到 4D 重建。
1. DLC:解耦 LoRA 控制
在基于視頻擴散模型的 “RGB + 幾何” 多模態聯合建模里,一個常見做法是把模態在通道維拼接。但在低資源微調時,這會導致嚴重的跨模態干擾,幾何學不好,基礎模型的 RGB 質量也容易被拖垮。而將兩個模態在長寬維度拼接,共享參數,也會導致跨模態干擾,幾何精度不高,而且與 RGB 無法保持對齊。
One4D 提出 Decoupled LoRA Control(DLC) 來專門解決這個問題,設計目標包括:
(1) 低資源微調也盡量保住底座視頻模型的強先驗;(2) 解耦 RGB 與幾何生成,減少互相干擾;(3) 仍要保留必要的跨模態通信,確保像素級對齊一致。
具體做法是:
1. 為 RGB 與 Pointmap 分別掛載模態專屬 LoRA,并且形成兩條解耦計算分支,共享凍結的 base 參數,但 forward 分開跑。確保兩個模態能夠相對獨立。
2. 再用少量 zero-init 的 control links 連接對應層,讓兩個模態從 0 開始逐步學會互相控制,從而實現精確的像素級對齊。
![]()
從直觀上理解 DLC 的設計, RGB 分支努力保持視頻美學與運動先驗,幾何分支專心擬合幾何視頻的分布,少量控制連接負責對齊同步。這也正是 One4D 強調的多模態輸出同步生成的關鍵。
2. UMC:統一掩碼條件
為了使用同一個視頻模型統一 4D 的生成和重建,One4D 基于Wan Video的多任務框架,提出了 Unified Masked Conditioning(UMC),把不同類型的條件如單幀、稀疏幀、全視頻,統一打包成一個條件視頻,缺失幀用 0 填充,并使用一個 mask 張量指定哪些幀需要生成。單張圖對應純生成,稀疏幀對應混合生成 + 重建,全視頻對應純重建。在UMC的具體實現上,RGB 分支的條件視頻通過 VAE 編碼之后,連接到 RGB 的 latent states 上。而 XYZ 分支不直接使用這個條件視頻,控制信號是通過 DLC 從 RGB 傳遞給 XYZ,這保證了 XYZ 分支能夠更好地去適應新模態。UMC 的設計讓 One4D 具備一個非常實用的能力,同一個擴散骨干,同時做 4D 生成和 4D 重建。One4D 模型不需要為不同任務改結構,只需改變輸入幀的稀疏度,就可以在不同生成與重建任務之間平滑切換。
![]()
3. 訓練數據
訓練 One4D,需要獲得大規模 “外觀 - 幾何” 配對數據。One4D 的數據構建遵循兩個原則:幾何要準、分布要真實。因此我們采用合成數據 + 真實數據混合策略。
合成數據通過游戲引擎渲染動態場景,天然提供每幀的幾何真值,用于為 Pointmap(XYZ)提供穩定監督,幫助模型學到可靠的時序幾何一致性。
真實數據,收集自公開視頻數據的真實場景視頻,以覆蓋復雜光照、材質、運動模式。由于真實視頻通常缺少幾何真值,我們使用現有的 4D 重建方法 Geo4D 生成幾何標注,從而把真實世界外觀分布引入訓練。
這套數據策略帶來的直接收益是,合成數據提供幾何精度與穩定性,真實數據提供視覺多樣性與真實分布,從而讓 One4D 在保持視頻質感的同時,也能輸出可用、對齊、時序一致的 4D 幾何結果。One4D 使用 34K 條視頻在 8 張 NVIDIA H800 GPU 上訓練 5500 步,就得到了很好的效果。
三、實驗結果
1. 單圖到 4D 生成
論文將 One4D 與 4DNeX 做了單圖到 4D 的對比,評價指標有:
用戶偏好(User study):在一致性、動態性、美學、深度質量、整體 4D 連貫性等維度上,One4D 全面領先。
![]()
VBench:動態性(Dynamic)顯著提升(55.7 vs 25.6),同時 I2V consistency 仍保持可比水平。
![]()
這些結果支持了 One4D 的優勢,輸出的多模態結果有更真實的 RGB 動態、更干凈的深度、更完整連貫的 4D 點云與相機軌跡。在不犧牲 RGB 視頻質量的前提下,仍然能學到準確、細粒度的 4D 幾何結構。更多對比視頻請移步項目主頁:https://mizhenxing.github.io/One4D
![]()
2. 完整視頻到 4D 重建
One4D 并不只在 4D 生成任務上優勢顯著,它還是一個重建模型,在完整視頻 4D 重建上也保持了不錯的性能。在深度重建評測數據集 Sintel 和 Bonn 上,One4D 的表現明顯超過一些只做重建的方法如 MonST3R 和 CUT3R。即使我們的方法使用 Geo4D 構造了訓練數據,它也取得了與只做重建的 Geo4D 相近的效果。更多對比視頻請移步項目主頁:https://mizhenxing.github.io/One4D
![]()
![]()
在相機軌跡評估數據集 Sintel 和 TUM 上,One4D 的相機估計能力也保持了可用精度,充分證明了 One4D 統一重建與生成的能力。
![]()
3. 稀疏視頻幀到 4D 生成
在稀疏視頻幀設置下,One4D 的輸入僅是首尾幀以及少量中間幀,此時模型需要生成缺失 RGB 幀并補全完整幾何序列。實驗證明,即使在極稀疏條件下,One4D 仍能得到合理的 4D 結構。這意味著 One4D 不止能做重建,而是真正具備生成動態 4D 場景的能力。
![]()
四、總結
One4D 讓視頻擴散模型不再只會生成 RGB,而是能夠同步生成外觀(RGB)與幾何(Pointmap / 深度 / 相機軌跡),在同一套框架中統一了 4D 生成和重建任務。它通過 UMC 與 DLC 解決了多任務切換與多模態聯合訓練中最關鍵的穩定性與對齊問題。One4D 推動視頻生成走向生成可用于理解與交互的 4D 世界,為下一代世界模型與多模態內容創作提供了更實用的基礎能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.