在單目深度估計中,分辨率越來越高已經是一個很常見的趨勢。很多方法可以輸出2K甚至4K的深度結果,看起來也確實比低分辨率更細致。
但在實際使用中,這類高分辨率深度并不總是好用。尤其是在三維重建、新視角合成等對幾何一致性要求較高的任務中,物體邊緣容易發虛,細小結構經常對不齊,結果并沒有隨著分辨率提升而明顯改善。類似的問題在自動駕駛和機器人導航場景中同樣存在,幾何誤差會影響障礙物邊界判斷和可通行區域估計,從而增加后續規劃與決策的不確定性。
一個很重要的原因在于,現有方法大多仍在固定分辨率下預測深度,再通過插值將結果放大到更高分辨率。這樣做雖然能夠得到更大的輸出尺寸,但在細節區域,本質上只是放大了原有的預測誤差。
而對于依賴深度信息進行環境建模的自動駕駛系統而言,這種誤差不僅影響局部幾何質量,還會進一步影響路徑規劃和決策的穩定性。久而久之,人們開始意識到,高分辨率深度面臨的瓶頸,可能并不只是模型不夠復雜,而是預測深度的方式本身存在局限。
基于這樣的觀察,浙江大學彭思達團隊聯合理想研究團隊,提出了論文《InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields》。這項工作并未急于在既有框架上追求更高指標,而是從深度的表示方式本身出發,重新思考高分辨率條件下深度應如何被建模和使用。
圍繞這一思路,研究團隊設計了一系列覆蓋合成數據、真實數據以及三維下游任務的實驗,將這種表示方式放到不同場景中加以檢驗,從而更細致地觀察其在細節區域和復雜幾何結構中的實際表現。
![]()
論文地址:https://arxiv.org/pdf/2601.03252
當深度不再受分辨率限制
研究團隊通過一系列覆蓋合成數據、真實數據以及下游三維任務的實驗,系統驗證了InfiniDepth在高分辨率深度估計、細粒度幾何建模以及大視角渲染方面的有效性。
首先,在研究團隊構建的Synth4K數據集上,對模型進行了零樣本相對深度評測。Synth4K由五個子數據集組成,分別來自不同高質量游戲場景,每個子集包含數百張分辨率為3840×2160的RGB圖像及對應高精度深度圖,能夠真實反映高分辨率場景中的邊緣結構、薄物體以及復雜曲面。
![]()
在評測過程中,研究人員同時報告了全圖區域和高頻細節區域的結果,并采用δ0.5、δ1和δ2作為評價指標。在全圖區域內,InfiniDepth在五個子數據集上均取得了最優表現。
例如,Synth4K-1上,InfiniDepth的δ1達到89.0%,明顯高于DepthAnything的83.8%和MoGe-2的84.2%;在Synth4K-3上,其δ1提升至93.9%,相比DepthPro和Marigold等方法仍具有顯著優勢;在Synth4K-5上,InfiniDepth的δ1達到96.3%,在所有對比方法中排名第一。這些結果表明,在整體區域內,該方法在高分辨率條件下具備穩定而一致的精度優勢。
![]()
在進一步針對高頻細節區域的評測中,研究人員僅在由多尺度拉普拉斯算子篩選出的幾何變化劇烈區域計算指標。結果顯示,所有方法在高頻區域的性能都會明顯下降,但InfiniDepth的下降幅度最小,且在多數子集上仍保持領先。
例如,在Synth4K-1的高頻區域內,其δ1達到67.5%,而DepthAnything和DepthAnythingV2分別僅為61.3%和60.6%;在Synth4K-3的高頻區域中,InfiniDepth的δ1為69.0%,相比MoGe-2的63.4%有明顯提升。整體來看,InfiniDepth在高頻區域的δ1指標通常比主流方法高出約5至8個百分點,表明這個方法在邊緣、薄結構和局部幾何變化區域具有更強的表達能力。
值得一提的是,這類高頻區域本身并非只存在于合成數據中,而是廣泛出現在真實世界的復雜場景中。在自動駕駛環境下,路緣、護欄、交通標志桿等關鍵元素往往具有細長、邊界清晰且幾何變化明顯的特點,其深度估計精度直接影響車輛對道路結構和可行駛空間的理解能力。因此,在這些區域中保持穩定的幾何表達,對于提升復雜道路環境下的感知可靠性具有實際意義。
研究團隊還特別指出,這種性能差異并非來自后處理技巧。對于Synth4K的4K輸出,絕大多數對比方法需要先在較低分辨率下預測深度,再通過插值方式上采樣到4K,而InfiniDepth由于采用連續深度表示,可以直接在4K坐標位置預測深度值,因此其在高分辨率評測中的優勢反映的是模型原生的分辨率擴展能力。
![]()
在真實世界數據集上的零樣本相對深度評測中,研究人員在KITTI、ETH3D、NYUv2、ScanNet和DIODE五個數據集上報告了δ1指標。結果顯示,InfiniDepth在這些數據集上的表現與當前主流方法整體處于同一水平。
例如,在ETH3D上,其δ1達到99.1%,略高于MoGe-2的99.0%;在KITTI上,其δ1為97.9%,與DepthPro和MoGe等方法基本持平;在NYUv2和ScanNet上,InfiniDepth的表現也未出現明顯退化。這些結果說明,即便模型只使用合成數據訓練,其連續深度表示并未對真實數據的泛化能力造成負面影響。這種對訓練數據分布變化不敏感的特性,在自動駕駛和移動機器人等實際部署場景中尤為關鍵,因為真實環境往往與訓練條件存在較大差異,對感知系統的穩定性提出了更高要求。
![]()
在尺度深度估計實驗中,研究團隊將InfiniDepth與稀疏深度提示機制結合,并在Synth4K以及真實數據集上采用更嚴格的δ0.01、δ0.02和δ0.04指標進行評測。雷峰網
在Synth4K的全圖區域中,InfiniDepth-Metric在Synth4K-1上的δ0.01達到78.0%,相比PromptDA的65.0%提升顯著;在Synth4K-3上,其δ0.01達到83.8%,同樣領先于所有對比方法。在高頻細節區域內,這一優勢更加明顯,例如在Synth4K-3的高頻區域中,InfiniDepth-Metric的δ0.01為37.2%,而PromptDA僅為24.7%,PriorDA和Omni-DC的表現更低。這表明,在細節區域和高精度尺度估計任務中,連續深度表示能夠帶來更顯著的收益。
![]()
在真實數據集的尺度深度評測中,研究人員同樣觀察到一致趨勢。在KITTI和ETH3D上,InfiniDepth-Metric的δ0.01指標分別達到63.9%和96.7%,均優于現有方法;在DIODE數據集上,其δ0.01達到98.4%,在對比方法中排名第一。這說明該方法在引入稀疏深度約束后,能夠在真實場景中實現高精度且穩定的尺度深度預測。
![]()
此外,在單視圖新視角合成實驗中,研究團隊將InfiniDepth預測的深度用于構建三維點云并驅動高斯渲染。實驗結果表明,相比采用像素對齊深度的方法,在大視角變化條件下,基于該方法構建的點云分布更加均勻,生成的新視角圖像中幾何空洞和斷裂明顯減少,整體結構更加完整。這說明連續深度表示能夠為三維建模提供更加穩定和一致的幾何基礎。
這種更可靠的三維幾何結構不僅有利于視覺重建和渲染任務,在自動駕駛和機器人系統中同樣具有現實意義。更準確的空間幾何信息有助于系統對周圍環境形成更清晰的空間認知,從而為后續的導航規劃與決策提供更加穩定的感知支撐。
![]()
把深度放進三維里再看一次
這些實驗結果來源于研究團隊圍繞“深度表示方式是否限制分辨率擴展性與幾何細節恢復能力”這一核心問題所設計的系統實驗。
研究人員指出,現有單目深度估計方法普遍在固定像素網格上進行深度預測,輸出分辨率與訓練分辨率強相關,高分辨率結果通常依賴插值或上采樣,從而不可避免地損失高頻幾何信息。為驗證這一問題是否源于表示方式本身,研究團隊提出將深度建模為連續空間中的映射關系,使模型能夠在任意圖像坐標位置直接預測深度值。
![]()
在數據設計上,為避免真實數據集中深度標注稀疏、分辨率有限和噪聲較大的問題對實驗結論產生干擾,研究人員構建了Synth4K數據集,并進一步引入高頻細節掩碼,通過多尺度拉普拉斯能量篩選出幾何變化最為劇烈的區域,從而實現對模型細節恢復能力的定量評估。
![]()
在實驗設置上,所有對比方法均使用相同分辨率的輸入圖像,并在評測階段統一對齊尺度;對于4K輸出,基線方法的結果通過上采樣獲得,而InfiniDepth直接在4K網格坐標位置進行深度預測,以確保實驗對比集中反映深度表示和解碼方式的差異。在訓練階段,研究人員并未對整張深度圖逐像素監督,而是隨機采樣大量坐標與對應深度值進行訓練,這一策略既符合連續深度建模的設定,也使得高分辨率監督更加靈活。
![]()
為驗證各個模塊的貢獻,研究團隊進一步設計了系統的消融實驗。當移除連續深度表示、回退到傳統離散網格預測方式時,模型在Synth4K和真實數據集上的高精度指標普遍下降8到12個百分點;當去除多尺度局部特征查詢與融合機制時,模型在細節區域的性能同樣出現一致性退化。這些結果從定量角度證明,連續表示和多尺度局部查詢是InfiniDepth性能提升的關鍵因素。雷峰網
![]()
在新視角合成相關實驗中,研究人員進一步分析了像素對齊深度在三維反投影過程中造成點云密度不均的問題,并基于連續深度表示所支持的幾何分析能力,根據不同區域對應的表面覆蓋情況分配采樣密度,從而在三維空間中生成更加均勻的表面點分布。實驗結果表明,這一策略在大視角變化條件下能夠有效減少孔洞和幾何斷裂。
![]()
不同場景下的一致性結論
綜合上述實驗可以看出,InfiniDepth的研究意義不僅體現在指標上的提升,更在于研究團隊通過多數據集、多指標和多任務的定量實驗,清楚地表明高分辨率深度估計中幾何細節恢復能力的主要瓶頸來源于深度表示方式本身。在Synth4K這一高分辨率基準上,高頻細節區域中普遍達到5至10個百分點的性能提升,直接說明了依賴插值的高分辨率預測在幾何建模上的局限性。
同時,真實數據集上的零樣本評測結果表明,連續深度表示并未削弱模型的泛化能力,而在引入稀疏深度約束后,其在高精度尺度深度估計中的優勢進一步放大。結合新視角合成實驗可以看到,這種表示方式不僅提升了二維深度圖在細節上的一致性,也為三維點云構建和渲染提供了更加穩定的幾何基礎。
在此基礎上,這類連續深度表示所帶來的穩定幾何結構,使深度信息能夠更自然地被用于后續的三維建模與環境理解。在自動駕駛和機器人系統中,這種高分辨率且一致的深度感知,有助于提升復雜場景下空間建模和導航決策的可靠性。
總體而言,研究團隊通過在高分辨率合成數據、真實世界數據以及下游三維任務上的系統實驗,用具體數據和指標證明了連續隱式深度表示在分辨率擴展性、幾何細節恢復能力以及大視角渲染方面的綜合優勢,為單目深度估計的后續研究提供了清晰而可驗證的方向。
研究背后的工作者
本論文的通訊作者彭思達,現任浙江大學軟件學院研究員。他于2023年在浙江大學計算機科學與技術學院獲得博士學位,師從周曉巍教授和鮑虎軍教授,本科畢業于浙江大學信息工程專業。
彭思達教授在三維視覺、神經隱式表示以及深度感知等研究方向上具有扎實的研究積累和持續的學術貢獻,已在多項國際頂級會議和期刊上發表高水平論文,并在多項學術評選中獲得重要榮譽,包括2025 China3DV年度杰出青年學者獎和2024 CCF優秀博士論文獎。
此外,他在GitHub上分享的個人科研經驗與學習資料獲得約9.7K星標關注,致力于推動空間智能與幾何感知領域的基礎研究與應用落地。
彭思達教授的研究興趣從神經隱式深度估計進一步拓展至動態場景建模、空間智能體訓練以及大規模三維重建等方向,強調解決具有實際應用價值且尚未充分解決的核心問題,推動新技術在真實行業場景中的落地與影響。
![]()
參考鏈接:https://pengsida.net/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.