![]()
本文第一作者陳羽田,香港中文大學 MMLab 博士二年級在讀,研究方向為三維重建與生成,導師為薛天帆教授。個人主頁:https://yutian10.github.io
當古裝劇中的長袍在武林高手凌空翻騰的瞬間揚起 0.01 秒的驚艷弧度,當 VR 玩家想伸手抓住對手 “空中定格” 的劍鋒,當 TikTok 爆款視頻里一滴牛奶皇冠般的濺落要被 360° 無死角重放 —— 如何用普通的攝像機,把瞬間即逝的高速世界 “凍結” 成可供反復拆解、傳送與交互的數字化 4D 時空,成為 3D 視覺領域的一個難題。
![]()
https://mp.weixin.qq.com/s/C1LiDwwRsfXiOhxKoG3qBA?click_id=1
然而,受限于硬件成本與數據傳輸帶寬,目前絕大多數 4D 采集陣列的最高幀率僅約 30 FPS;相比之下,傳統高速攝影通常需要 120 FPS 乃至更高。簡單升級相機硬件不僅價格高昂,還會帶來指數級增長的數據通量,難以在大規模部署中落地。另一條改變的思路是在重建階段 “補幀”。近期,例如 4D 高斯濺射(4D Gaussian Splatting)等動態場景重建方法能在簡單運動中通過稀疏時序輸入合成連續幀,變相提升幀率,但面對布料擺動、高速旋轉等非線性復雜運動,中間幀仍會出現運動不連續、偽影明顯的問題。
于是,一個自然且關鍵的問題被提出:能否僅利用低幀率相機陣列,準確恢復出高質量的高速運動 4D 模型?正是在這一動機下,我們提出 “異步采集 + 視頻擴散模型修復” 的軟硬協同解決方案,為高速 4D 重建開辟了一條低成本、高質量的新路徑,實現了僅利用 30 FPS 的普通相機,恢復出相當于 100-200 FPS 的高質量動態細節
![]()
![]()
https://mp.weixin.qq.com/s/C1LiDwwRsfXiOhxKoG3qBA?click_id=1
- 論文標題:4DSloMo: 4D Reconstruction for High Speed Scene
- with Asynchronous Capture
- 項目主頁:https://openimaginglab.github.io/4DSloMo
- 論文:https://arxiv.org/pdf/2507.05163
- 代碼:https://github.com/OpenImagingLab/4DSloMo
硬件革新:異步捕捉,讓相機 “錯峰拍攝”
核心思路,是突破單個相機的速度瓶頸,通過讓多個相機協同工作,實現一種 “接力式” 的拍攝方案。傳統的捕捉方案是讓相機陣列的所有相機在同一時刻拍照。而本文的異步捕捉 (Asynchronous Capture) 方案,則是人為地給不同相機或相機組設置一個微小的啟動延遲。
![]()
傳統同步方案(左),所有相機在同一時間點(如 t=0, t=0.04s)捕捉。我們的異步方案(右),通過錯開相機 2 的啟動時間,在 0s 和 0.04s 之間插入了一個新的捕捉點(t=0.02s),有效幀率直接翻倍。
想象一下,8 臺 25 FPS 的相機,如果我們將它們分成 4 組,每組交替啟動,就能將時間切片切得更細,實現 100 FPS 的有效捕捉幀率;如果分成 8 組,甚至能達到 200 FPS!整個過程無需任何額外的硬件成本,卻在時間維度上獲得了前所未有的信息密度。
軟件革新:視頻擴散模型,為 4D 重建 “精裝修”
異步捕捉雖然解決了時間分辨率的問題,但也帶來了一個新的挑戰:在任何一個特定的時間點,參與拍攝的相機數量變少了,這會導致 “稀疏視角” 問題,從而在初步的 4D 重建結果中產生 “浮塊” 等視覺偽影。為了解決這個問題,我們訓練了一個專門用于修復 4D 重建偽影的視頻擴散模型 (Artifact-fix Video Diffusion Model)。
![]()
該模型的核心功能是接收一個包含重建偽影的視頻作為輸入 ,并生成一個精修后的高質量視頻作為輸出。這里的關鍵思想是,作為輸入的視頻雖然在視覺上不完美,但它為擴散模型提供了修復所需的關鍵時空上下文 (Spatio-temporal Context)—— 即場景的正確空間結構和物體的核心運動信息。模型利用這些上下文作為引導,專注于去除偽影并補全細節。
為了實現這一功能,我們構建了一個針對性的訓練數據集。我們通過在高質量的 4D 數據上模擬異步捕捉過程,生成包含典型偽影的降質視頻 。隨后,我們將這些降質視頻與原始的真值視頻 (Ground Truth) 配對,通過對一個大規模預訓練視頻模型進行微調 (Fine-tuning),使其學習從包含偽影的輸入到清晰輸出的映射關系。
與常見的圖像擴散模型相比,我們使用視頻模型的核心優勢在于保證 “時間一致性 (Temporal Consistency)”。逐幀修復容易在連續幀之間引入紋理閃爍等不一致問題,而我們的視頻模型能夠利用時序先驗,在去除偽影的同時,生成在時間維度上連貫、平滑的動態結果。
整體流程:一個 “重建 - 優化” 的迭代框架
我們的方法將硬件捕捉與 AI 算法相結合,構建了一個迭代式的優化框架:
1.初步重建 (Initial Reconstruction):首先,利用異步捕捉的視頻數據,重建一個初步的 4D 高斯模型。該模型能捕捉高速動態,但存在視覺偽影。
2.生成偽真值 (Pseudo Ground Truth Generation):接著,使用初步模型渲染出包含偽影的視頻。這些視頻將作為我們視頻擴散模型的條件輸入。
3.視頻增強 (Video Enhancement):將渲染視頻送入視頻擴散模型。模型負責去除偽影并提升視頻質量,輸出增強后的視頻。
4.模型優化 (Model Optimization):最后,將增強后的高質量視頻作為新的監督信號 (Supervision Signal),用于進一步優化 4D 高斯模型,從而顯著提升最終的重建質量。
![]()
整體框架:異步視頻 → 初步重建 → 視頻增強 → 優化 4D 模型。
方法效果
在 DNA-Rendering 和 Neural3DV 兩大公開數據集的測試中,我們的方法在峰值信噪比(PSNR)、結構相似性(SSIM)和感知質量(LPIPS)三項核心指標上,超越了包括 K-Planes, 4DGS, GS4D 在內的多種當前頂尖(SOTA)方法。
![]()
![]()
![]()
https://mp.weixin.qq.com/s/C1LiDwwRsfXiOhxKoG3qBA?click_id=1
為了在真實世界中驗證我們的想法,我們專門搭建了一套包含 12 個 25 FPS 相機的多視角捕捉系統。實驗證明,即使在真實、復雜的異步捕捉環境下,我們的方法依然能夠穩健地重建出高質量、時空一致的 4D 內容。
![]()
https://mp.weixin.qq.com/s/C1LiDwwRsfXiOhxKoG3qBA?click_id=1
![]()
https://mp.weixin.qq.com/s/C1LiDwwRsfXiOhxKoG3qBA?click_id=1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.