<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視頻深度估計新SOTA來了,163倍數據效率解鎖生成式先驗

      0
      分享至



      視頻擴散模型(拿來做深度估計)簡直是降維打擊(overqualified)!

      近日,一項剛在 arXiv 亮相的視頻深度估計新工作,在推特(X)上收獲了開源社區的不少關注。知名 AI 資訊博主AK (@_akhaliq)進行了跟進轉發;也有同行博主探討了視頻擴散模型在深度估計任務中的強大潛力,并留意到了該工作在 ScanNet 上 5.5 AbsRel 的準確度、極高的數據效率以及對超長視頻時序閃爍的改善。

      面對社區的熱情反饋,研究團隊保持了學者的嚴謹,并表示:這其實是對預訓練生成式先驗一次順理成章的探索。為了方便大家親自驗證,不僅推理管線,團隊已將整套訓練代碼毫無保留地完全開源,希望能為社區提供一個扎實、可復現的基線 。



      這項工作正是由香港科技大學(廣州)陳穎聰教授領銜的 EnVision Research 實驗室,聯合加州大學圣地亞哥分校、普林斯頓大學等頂尖機構,正式推出了全新的視頻深度估計框架——DVD (Deterministic Video Depth Estimation with Generative Priors)。論文共同第一作者為來自港科大(廣州)的張鴻飛、陳浩東、廖晨非與何晶。

      在3D場景理解與自動駕駛等應用中,視頻深度估計一直是不可或缺的核心基石。然而,如何在動態視頻中兼顧極致的幾何細節與長時序的穩定性,始終是困擾整個計算機視覺界的難題。熟悉深度估計的讀者可能知道,EnVision Research 此前在圖像深度估計領域推出的代表作Lotus備受社區矚目(目前在 GitHub 上已攬獲近 800 Stars),而此次發布的 DVD 模型,正是將這種確定性適配在視頻深度估計領域的強勢拓展與跨越式升維。

      DVD 是首個將預訓練視頻擴散模型(Video Diffusion Models)確定性地適配為“單次前向回歸器”(Single-pass depth regressors)的創新框架。它徹底擺脫了傳統生成式模型由于隨機采樣帶來的幾何幻覺,同時避免了判別式模型為了消除語義歧義而對海量標注數據的貪婪渴求。

      實驗證明,DVD 僅使用了 36.7 萬幀的特定任務訓練數據——對比 Video Depth Anything (VDA) 高達 6000 萬幀的數據量,數據效率提升了驚人的 163 倍!進一步地說,DVD 成功解鎖了視頻基礎模型中蘊含的深厚幾何先驗,在零樣本(Zero-shot)性能上全面超越了現有 SOTA。



      • 論文鏈接:https://arxiv.org/abs/2603.12250
      • 項目主頁:https://dvd-project.github.io/
      • 代碼鏈接:https://github.com/EnVision-Research/DVD

      1 背景介紹

      在 DVD 誕生之前,主流的視頻深度估計方法主要陷入了兩種范式的固有缺陷中,形成了一個基礎性的“權衡悖論”(Trade-off):

      • 生成式模型(Generative Models,如 DepthCrafter):這類方法利用預訓練的視頻基礎模型來捕獲豐富的時空先驗,零樣本泛化能力強 。但是,由于它們依賴隨機采樣機制,會引入時序上的不確定性。這種生成性質往往優先考慮“視覺合理性”而非“幾何準確性”,從而導致嚴重的幾何幻覺(Geometric Hallucinations),無法在時間上保持精確且全局一致的幾何結構。
      • 判別式模型(Discriminative Models,如 Video Depth Anything, VDA):這類基于 ViT 的模型具有極高的推理效率和確定性輸出。然而,由于它們完全依賴密集的注釋來學習幾何,常常會陷入語義歧義(Semantic Ambiguity),例如將運動模糊或無紋理區域誤判為結構邊界。為了克服這種歧義,它們只能依賴極其龐大且多樣化的下游標注數據進行暴力堆砌。

      研究團隊敏銳地提出一個核心問題:能否設計一種視頻深度估計框架,既能有效平衡判別式模型的結構穩定性與生成式模型的豐富時空先驗,又能保持高效和可擴展性?

      這就是 DVD 提出的初衷。



      2 DVD 方法

      為了打破上述僵局,DVD 摒棄了傳統的隨機生成范式,開創性地實現了預訓練視頻擴散模型的確定性適配,直接學習從 RGB 潛變量到深度潛變量的映射。



      然而,將確定性適配從靜態圖像擴展到動態視頻面臨著獨特的挑戰:樸素的回歸不僅容易導致模糊,還會遭受結構不穩定性等問題。為此,DVD 提出了三大核心設計:

      2.1 將時間步作為結構錨點 (Timestep as a Structural Anchor)

      在生成式預訓練中,時間步 $t$ 參數化了信噪比,指導模型關注全局結構或局部細節。DVD 創造性地將時間步從一個噪聲指示器重塑為一個結構錨點(Structural Anchor)。通過將其固定在一個最佳狀態(如 $\tau=0.5$),模型能夠完美平衡低頻的全局穩定性與高頻的空間細節,避免了幾何過度平滑。



      2.2 潛在流形校正 (Latent Manifold Rectification, LMR)

      當我們使用逐點回歸目標訓練模型時,極易引發“均值塌陷(Mean Collapse)”,導致模型在面對模糊或遮擋區域時洗去高頻結構細節。在時空設置下,這種退化會累積成嚴重的邊界侵蝕和運動閃爍。

      為此,DVD 引入了 LMR——一種無額外參數的監督策略。LMR 強制對齊預測潛變量與目標潛變量的空間梯度(Spatial Gradient)和時序光流(Temporal Flow)。這一機制成功恢復了被回歸抹平的銳利邊界和連貫的運動動態。



      2.3 全局仿射一致性 (Global Affine Coherence)

      處理長視頻時,顯存限制要求必須采用滑動窗口推理,這往往會導致生成式模型出現隨機尺度漂移。

      研究團隊在 DVD 中發現了一個固有的特性:VAE 解碼主要引起全局仿射變化,而非局部空間失真。因此,窗口間的差異可以很好地用線性尺度偏移變換來近似?;谶@種“全局仿射一致性”,DVD 設計了一個閉式最小二乘求解器。只需通過重疊區域計算全局縮放 $s$ 和平移 $t$,即可無縫對齊相鄰窗口,完全無需復雜的潛在拼接或時間對齊模塊。



      3 實驗結果

      DVD 在多個真實世界基準測試中進行了廣泛的零樣本評估,其實驗結果令人振奮:

      3.1 登頂的新 SOTA 幾何保真度與時序連貫性





      在 ScanNet 和 KITTI 等標準數據集上,DVD 一致優于最先進的生成式(如 DepthCrafter)和判別式(如 VDA)基線模型,取得了最低的絕對相對誤差(AbsRel)。并且,LMR 機制顯著提升了精細邊界的準確性,例如將 ScanNet 的 B-F1 分數提升至 0.259。



      3.2 令人信服的數據與推理效率



      DVD 的一大核心優勢在于用極少的數據解鎖高保真深度。僅使用 36.7 萬幀訓練的 DVD,其性能就超越了使用 6000 萬幀數據的 VDA(數據量不到其1/160)。同時,由于避開了迭代采樣的計算瓶頸,DVD 保持了與 VDA 相當的推理速度,并提供了更高的準確率。

      3.3 強大的長視頻擴展性



      面對包含數千幀的復雜長視頻,生成式方法受到嚴重的尺度漂移困擾,判別式基線持續表現出語義歧義。而 DVD 憑借無參數的仿射對齊機制,確保了嚴格的結構持久性和高保真度,在長視頻推理中展現出了卓越的穩定性。



      4 結論

      DVD (Deterministic Video Depth Estimation) 框架的提出,是首個確定性適配預訓練視頻擴散先驗以用于單次深度估計的框架。

      通過“時間步驅動的結構錨點”、“對抗時空均值塌陷的潛在流形校正 (LMR)”以及“用于長視頻仿射對齊的全局仿射一致性”三大核心設計,DVD 成功解決了“歧義與幻覺”的兩難困境。更重要的是,它證明了:我們無需再盲目堆砌上千萬級別的特定任務標注數據,僅需通過巧妙的策略,就能以163 倍的極高數據效率解鎖基礎模型中令人驚嘆的世界幾何先驗。

      這項工作為動態 3D 場景理解和未來的感知技術,確立了一條高度可擴展且數據高效的全新范式。

      論文、代碼及模型權重均已全部開源,歡迎廣大研究人員前往項目主頁體驗!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

      我今年55了,想用血淚教訓告訴你:不要跟任何人,包括你的父母、子女、枕邊人,分享這4件事

      東林夕亭
      2026-03-27 09:07:57
      “全體員工享受三天帶薪春假”,大人和孩子都需要“春天”

      “全體員工享受三天帶薪春假”,大人和孩子都需要“春天”

      學申論的談妹
      2026-03-30 09:12:42
      中年人的“窮鬼樂園”爆火半年即涼,50萬投資30天沒生意

      中年人的“窮鬼樂園”爆火半年即涼,50萬投資30天沒生意

      豆腐腦觀察局
      2026-03-30 06:30:03
      深圳又一公園火了,不輸西湖,地鐵直達能從早待到晚

      深圳又一公園火了,不輸西湖,地鐵直達能從早待到晚

      小怪吃美食
      2026-03-30 11:40:32
      中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

      中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

      嘆知
      2026-03-29 18:13:46
      看了“秦嵐”的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

      看了“秦嵐”的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

      蓓小西
      2026-03-23 08:31:26
      專訪尹燁:中年人的身體,正在被"自律"透支

      專訪尹燁:中年人的身體,正在被"自律"透支

      經濟觀察報
      2026-03-28 19:12:18
      “白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

      “白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

      江山揮筆
      2026-03-28 16:50:15
      空椅子成禁忌符號 伊朗連鎖咖啡因“影射哈梅內伊”被全線關停

      空椅子成禁忌符號 伊朗連鎖咖啡因“影射哈梅內伊”被全線關停

      桂系007
      2026-03-28 23:52:19
      太不可思議了!中東這出反轉大戲,真把全世界看懵了

      太不可思議了!中東這出反轉大戲,真把全世界看懵了

      安安說
      2026-03-30 10:42:31
      印媒:中國未雨綢繆帶給印度的啟示

      印媒:中國未雨綢繆帶給印度的啟示

      環球網資訊
      2026-03-30 07:11:51
      泰國征兵拿張凌赫做廣告 泰陸軍發言人:支持!

      泰國征兵拿張凌赫做廣告 泰陸軍發言人:支持!

      看看新聞Knews
      2026-03-26 21:37:02
      伊朗電力設施遭襲

      伊朗電力設施遭襲

      財聯社
      2026-03-30 02:35:30
      楊瀚森NBA首次吃T!被罰款14000,慢鏡還原真相,獲斯普利特盛贊

      楊瀚森NBA首次吃T!被罰款14000,慢鏡還原真相,獲斯普利特盛贊

      球場沒跑道
      2026-03-30 12:16:52
      李昌鈺離世讓人破防:真正的傳奇,是他活了106歲的博士母親

      李昌鈺離世讓人破防:真正的傳奇,是他活了106歲的博士母親

      閱微札記
      2026-03-29 10:14:27
      一點別同情她!被教練性侵27次,卻在奧運賽場上,把隊友撞出賽道

      一點別同情她!被教練性侵27次,卻在奧運賽場上,把隊友撞出賽道

      來科點譜
      2026-02-27 07:42:10
      總有蛀蟲,教導我要“知足”

      總有蛀蟲,教導我要“知足”

      柴差說
      2026-03-29 19:47:04
      歷史一刻!張雪機車WSBK奪冠:中國制造終結歐美日壟斷。

      歷史一刻!張雪機車WSBK奪冠:中國制造終結歐美日壟斷。

      趣味萌寵的日常
      2026-03-29 19:02:48
      名利雙收!張水華兩連冠后終獲得央媒認可 經濟學家:辭職了多好

      名利雙收!張水華兩連冠后終獲得央媒認可 經濟學家:辭職了多好

      念洲
      2026-03-30 07:27:09
      張雪峰41歲離世,留下最動情的一句話:人生真好玩、下輩子還來!

      張雪峰41歲離世,留下最動情的一句話:人生真好玩、下輩子還來!

      漁夫說事
      2026-03-30 12:14:21
      2026-03-30 13:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12635文章數 142599關注度
      往期回顧 全部

      科技要聞

      DeepSeek性能異常問題已解決,服務恢復

      頭條要聞

      牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

      頭條要聞

      牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

      體育要聞

      絕殺衛冕冠軍后,他單手指天把勝利獻給父親

      娛樂要聞

      單依純凌晨發長文道歉!李榮浩再回應

      財經要聞

      油價沖擊,有些亞洲貨幣先扛不住了!

      汽車要聞

      理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

      態度原創

      時尚
      教育
      游戲
      旅游
      數碼

      來到1980的周也,好毛利蘭

      教育要聞

      寵物式育兒,必然養出廢物!

      《王者榮耀》3A新作搶注昵稱!昵稱唯一 先到先得

      旅游要聞

      相約文旅盛會 發現寶藏山東|走進山東古建筑博物館

      數碼要聞

      AMD Zen6來了!下代EPYC Venice工程樣品曝光:三款測試平臺齊亮相

      無障礙瀏覽 進入關懷版