網易首頁 > 網易號 > 正文申請入駐

一個模型統一4D世界生成與重建，港科大One4D框架來了

2026-01-13 10:35:44　來源: 機器之心Pro

北京舉報

分享至

本文第一作者密振興，香港科技大學計算機科學與技術學院人工智能方向博士生，研究方向是多模態理解與生成，視頻生成和世界模型，目前正在尋找工業界全職職位。

一、背景介紹

近年來，視頻擴散模型在 “真實感、動態性、可控性” 上進展飛快，但它們大多仍停留在純 RGB 空間。模型能生成好看的視頻，卻缺少對三維幾何的顯式建模。這讓許多世界模型（world model）導向的應用（空間推理、具身智能、機器人、自動駕駛仿真等）難以落地，因為這些任務不僅需要像素，還需要完整地模擬 4D 世界。

來自香港科技大學（HKUST）的研究團隊提出 One4D，一個統一的 4D 生成與 4D 重建框架。One4D 構造了一個同步輸出多模態的視頻擴散模型，能夠用一個模型同步輸出 RGB 視頻與 Pointmap（XYZ）幾何視頻，并支持從單張圖像到 4D 生成、從稀疏幀到 4D 生成 + 重建、以及從完整視頻到 4D 重建等多種任務形態。

論文標題：One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
論文地址：https://arxiv.org/abs/2511.18922
Github：https://github.com/MiZhenxing/One4D
項目主頁：https://mizhenxing.github.io/One4D

二、One4D 算法設計

One4D 的核心目標是用強大的視頻生成模型（比如Wan Video）統一 4D 生成與 4D 重建，輸出對齊的 RGB 和幾何多模態結果。論文亮點有：

1. 多模態輸出：RGB + Pointmap；

2. DLC：解耦 LoRA 控制，穩住 RGB 同時學幾何對齊；

3. UMC：統一掩碼條件，一套模型覆蓋生成和重建任務。

具體來說，One4D 將動態 4D 場景表示為兩種同步的輸出模態。(1) RGB frames（外觀）；(2) Pointmaps（XYZ），即與 RGB 視頻對齊的 3 通道幾何視頻，每個像素存 XYZ 值，可進一步導出 Depth 并結合后處理估計相機軌跡，最終可視化為 4D 點云和相機。

并且，One4D 在一個框架內支持三種輸入：單張圖到 4D 生成，稀疏視頻幀到 4D 生成 + 重建，完整視頻到 4D 重建。

1. DLC：解耦 LoRA 控制

在基于視頻擴散模型的 “RGB + 幾何” 多模態聯合建模里，一個常見做法是把模態在通道維拼接。但在低資源微調時，這會導致嚴重的跨模態干擾，幾何學不好，基礎模型的 RGB 質量也容易被拖垮。而將兩個模態在長寬維度拼接，共享參數，也會導致跨模態干擾，幾何精度不高，而且與 RGB 無法保持對齊。

One4D 提出 Decoupled LoRA Control（DLC）來專門解決這個問題，設計目標包括：

(1) 低資源微調也盡量保住底座視頻模型的強先驗；(2) 解耦 RGB 與幾何生成，減少互相干擾；(3) 仍要保留必要的跨模態通信，確保像素級對齊一致。

具體做法是：

1. 為 RGB 與 Pointmap 分別掛載模態專屬 LoRA，并且形成兩條解耦計算分支，共享凍結的 base 參數，但 forward 分開跑。確保兩個模態能夠相對獨立。

2. 再用少量 zero-init 的 control links 連接對應層，讓兩個模態從 0 開始逐步學會互相控制，從而實現精確的像素級對齊。

從直觀上理解 DLC 的設計， RGB 分支努力保持視頻美學與運動先驗，幾何分支專心擬合幾何視頻的分布，少量控制連接負責對齊同步。這也正是 One4D 強調的多模態輸出同步生成的關鍵。

2. UMC：統一掩碼條件

為了使用同一個視頻模型統一 4D 的生成和重建，One4D 基于Wan Video的多任務框架，提出了 Unified Masked Conditioning（UMC），把不同類型的條件如單幀、稀疏幀、全視頻，統一打包成一個條件視頻，缺失幀用 0 填充，并使用一個 mask 張量指定哪些幀需要生成。單張圖對應純生成，稀疏幀對應混合生成 + 重建，全視頻對應純重建。在UMC的具體實現上，RGB 分支的條件視頻通過 VAE 編碼之后，連接到 RGB 的 latent states 上。而 XYZ 分支不直接使用這個條件視頻，控制信號是通過 DLC 從 RGB 傳遞給 XYZ，這保證了 XYZ 分支能夠更好地去適應新模態。UMC 的設計讓 One4D 具備一個非常實用的能力，同一個擴散骨干，同時做 4D 生成和 4D 重建。One4D 模型不需要為不同任務改結構，只需改變輸入幀的稀疏度，就可以在不同生成與重建任務之間平滑切換。

3. 訓練數據

訓練 One4D，需要獲得大規模 “外觀 - 幾何” 配對數據。One4D 的數據構建遵循兩個原則：幾何要準、分布要真實。因此我們采用合成數據 + 真實數據混合策略。

合成數據通過游戲引擎渲染動態場景，天然提供每幀的幾何真值，用于為 Pointmap（XYZ）提供穩定監督，幫助模型學到可靠的時序幾何一致性。

真實數據，收集自公開視頻數據的真實場景視頻，以覆蓋復雜光照、材質、運動模式。由于真實視頻通常缺少幾何真值，我們使用現有的 4D 重建方法 Geo4D 生成幾何標注，從而把真實世界外觀分布引入訓練。

這套數據策略帶來的直接收益是，合成數據提供幾何精度與穩定性，真實數據提供視覺多樣性與真實分布，從而讓 One4D 在保持視頻質感的同時，也能輸出可用、對齊、時序一致的 4D 幾何結果。One4D 使用 34K 條視頻在 8 張 NVIDIA H800 GPU 上訓練 5500 步，就得到了很好的效果。

三、實驗結果

1. 單圖到 4D 生成

論文將 One4D 與 4DNeX 做了單圖到 4D 的對比，評價指標有：

用戶偏好（User study）：在一致性、動態性、美學、深度質量、整體 4D 連貫性等維度上，One4D 全面領先。

VBench：動態性（Dynamic）顯著提升（55.7 vs 25.6），同時 I2V consistency 仍保持可比水平。

這些結果支持了 One4D 的優勢，輸出的多模態結果有更真實的 RGB 動態、更干凈的深度、更完整連貫的 4D 點云與相機軌跡。在不犧牲 RGB 視頻質量的前提下，仍然能學到準確、細粒度的 4D 幾何結構。更多對比視頻請移步項目主頁：https://mizhenxing.github.io/One4D

2. 完整視頻到 4D 重建

One4D 并不只在 4D 生成任務上優勢顯著，它還是一個重建模型，在完整視頻 4D 重建上也保持了不錯的性能。在深度重建評測數據集 Sintel 和 Bonn 上，One4D 的表現明顯超過一些只做重建的方法如 MonST3R 和 CUT3R。即使我們的方法使用 Geo4D 構造了訓練數據，它也取得了與只做重建的 Geo4D 相近的效果。更多對比視頻請移步項目主頁：https://mizhenxing.github.io/One4D

在相機軌跡評估數據集 Sintel 和 TUM 上，One4D 的相機估計能力也保持了可用精度，充分證明了 One4D 統一重建與生成的能力。

3. 稀疏視頻幀到 4D 生成

在稀疏視頻幀設置下，One4D 的輸入僅是首尾幀以及少量中間幀，此時模型需要生成缺失 RGB 幀并補全完整幾何序列。實驗證明，即使在極稀疏條件下，One4D 仍能得到合理的 4D 結構。這意味著 One4D 不止能做重建，而是真正具備生成動態 4D 場景的能力。

四、總結

One4D 讓視頻擴散模型不再只會生成 RGB，而是能夠同步生成外觀（RGB）與幾何（Pointmap / 深度 / 相機軌跡），在同一套框架中統一了 4D 生成和重建任務。它通過 UMC 與 DLC 解決了多任務切換與多模態聯合訓練中最關鍵的穩定性與對齊問題。One4D 推動視頻生成走向生成可用于理解與交互的 4D 世界，為下一代世界模型與多模態內容創作提供了更實用的基礎能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.