![]()
在空間智能(Spatial Intelligence)飛速發展的今天,全景視角因其 360° 的環繞覆蓋能力,成為了機器人導航、自動駕駛及虛擬現實的核心基石。然而,全景深度估計長期面臨 “數據荒” 與 “模型泛化差” 的瓶頸。
近日,來自 Insta360 研究團隊、加州大學圣地亞哥分校 (UCSD)、武漢大學以及加州大學默塞德分校的研究者共同推出了Depth Any Panoramas (DAP)。這是首個在大規模多樣化數據集上訓練的全景度量深度(Metric Depth)基礎模型,不僅統一了室內外場景,更通過 200 萬量級的數據引擎與創新的幾何一致性設計,刷新了多項 benchmark 紀錄,在多種 open-world 場景下保持優異的效果。
![]()
- 論文標題:Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
- 項目主頁:https://insta360-research-team.github.io/DAP_website/
- 論文鏈接:https://insta360-research-team.github.io/DAP_website/assets/paper.pdf
- Demo:https://huggingface.co/spaces/Insta360-Research/DAP
模型對由 Gemini 或 DiT-360 等合成的全景圖同樣展現出了極佳的預測效果,生成的深度圖邊緣銳利、邏輯自洽,是空間 AIGC 鏈路中理想的幾何基石。 除了靜態圖像,DAP 在處理全景視頻流時同樣展現出了極佳的預測效果,具備優秀的幀間一致性與穩定性 。
![]()
破局:從「貧礦」到 200 萬量級的「數據海洋」
在深度學習時代,數據的規模決定了模型的上限。然而,獲取帶高精度深度標注的全景數據成本極高,導致學術界長期依賴于幾萬張規模的小型數據集,如 Stanford2D3D 或 Matterport3D。
為了打破這一僵局,DAP 團隊構建了一個規模空前的全景數據引擎,將數據量直接推向了200 萬(2M)級別,除了現有的 Structured3D:
- 1.7M 互聯網真實全景圖:從海量網頁中收集并精細過濾,覆蓋了極為豐富的真實世界場景。
- UE5 模擬器精準補全:利用基于虛幻引擎 5 的 AirSim360 模擬器,生成了 90K 張高質量、帶像素級深度標簽的室外航拍數據,解決了戶外訓練數據稀缺的痛點。
- AIGC 技術協同:引入 DiT360 模型生成了 200K 張室內全景圖,進一步增強了模型對多樣化室內環境的理解力。
![]()
三階段偽標簽管線:讓「無監督」變「強監督」
面對 1.9M 沒有任何標簽的原始全景圖,如何挖掘它們的價值?
DAP 巧妙地設計了一個三階段偽標簽精煉管線,像漏斗一樣層層篩選,最終淬煉出高質量的監督信號:
1.Stage 1:場景不變標注器。先用小規模但精準的合成數據(Structured3D + DAP-2M-Labeled)練出一個基本功扎實的標注器,確立物理意義上的深度基準。
2.Stage 2:寫實性不變標注器。引入專門的深度質量判別器(Discriminator),從 1.9M 預測結果中篩選出最靠譜的 600K 樣本(300K 室內 + 300K 戶外),再次訓練標注器,消除合成數據與真實場景之間的紋理鴻溝。
3.Stage 3:全量 DAP 訓練。在匯集了精煉偽標簽和原始強監督標簽的 2M 數據集上,正式煉成 DAP 基礎模型。
![]()
模型架構細節:DINOv3 骨干+動態距離掩碼
除了海量數據,DAP 在模型架構上也進行了設計:
- 強大的 “大腦”:采用最新的DINOv3-Large作為特征提取骨干,賦予了模型極強的視覺先驗和零樣本泛化能力。
- 距離自適應(Range Mask Head):模型內置了即插即用的距離閾值分支,允許用戶根據應用場景(如室內掃地機器人 vs 戶外無人機)切換深度感知范圍,有效解決了全景圖中遠景區域深度分布不均、預測不穩的問題。
- 多維幾何優化:引入了包括SILog 損失、鋒利度損失(LDF/Lgrad)、表面法線損失以及點云一致性損失在內的聯合優化。這些損失函數專門針對全景圖的等距柱狀投影(ERP)進行了畸變補償,確保預測出的深度圖不僅數值準,而且邊緣銳利、幾何結構不崩塌。
![]()
效果:三大主流榜單
在多項嚴苛的零樣本(Zero-shot)測試中,DAP 展現了優異的效果:
- 室內場景(Stanford2D3D / Matterport3D):DAP 的絕對相對誤差(AbsRel)大幅下降,在沒有針對目標數據集進行任何微調的情況下,依然保持了極高的預測一致性。
- 戶外場景(Deep360 / DAP-Test):在極具挑戰性的戶外測試集中,DAP 顯著超越了此前的 DAC 和 Unik3D。它預測出的建筑物邊緣清晰,天空區域深度穩定,不再出現傳統模型的 “深度空洞” 或 “結構扭曲”。
![]()
![]()
圖示對比:圖中的實測對比中可以看到,對比 baseline 出現的遠景模糊和天空深度誤判,DAP 無論是復雜的家具紋理還是遠處的山脈輪廓,都清晰可見。
![]()
全空間智能的新里程碑
DAP 的出現,標志著全景深度估計正式進入了 open-world 時代。
它不僅能為自動駕駛、機器人避障提供更廣闊的 “全知視角”,也為 3D 場景重建、VR/AR 內容創作提供了極低成本的深度獲取手段。正如論文總結所言,DAP 通過大規模數據擴展和統一的三階段管線,成功構建了一個能跨越室內外、統一米制深度的全景視覺基座。
目前,DAP 的項目頁面已經正式上線,相關的代碼與模型也已開源。
“數據是在全景領域實現 AGI 感知的關鍵。”DAP 不僅為機器人全向避障提供了更精準的 “眼睛”,也為 VR/AR 場景的大規模 3D 重建和場景生成奠定了堅實的技術底座。如果你對全景視覺、空間計算或深度估計感興趣,DAP 絕對是不容錯過的年度之作!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.