一、導讀
近年來,基于 Stable Diffusion(穩定擴散模型)的方法能生成清晰、泛化能力強的深度圖,但它們通常需要高精度深度標注進行監督訓練,限制了在無標注數據上的應用。
為了解決這一難題,本文提出了首個基于 Stable Diffusion 的自監督單目深度估計框架 Jasmine。它通過引入混合批次圖像重建任務和尺度-平移門控循環單元,在不依賴任何深度標注的情況下,有效保留了 Stable Diffusion 的先驗知識,顯著提升了深度估計的清晰度和跨數據集泛化能力。
實驗表明,Jasmine 在 KITTI 數據集上達到了最先進的性能,并在多個零樣本測試集上表現優異。
二、論文基本信息
![]()
論文標題:Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation
作者姓名與單位:Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao(分別來自北京交通大學、南洋理工大學、香港科技大學、重慶郵電大學)
發表日期與會議/期刊來源:NeurIPS 2025
論文鏈接: https://arxiv.org/abs/2503.15905v2
首次將 Stable Diffusion 引入自監督深度估計框架,無需高精度深度標注。
提出混合批次圖像重建任務,避免自監督訓練破壞 Stable Diffusion 的細節先驗。
設計尺度-平移 GRU 模塊,解決尺度-平移不變性與尺度不變性之間的分布差異。
在 KITTI 上達到最優性能,并在多個零樣本數據集上表現出卓越泛化能力。
Jasmine 的核心思路是:在自監督訓練中,通過圖像重建任務保護 Stable Diffusion 的細節先驗,并用尺度-平移 GRU 對齊不同深度分布,從而在不依賴標注的情況下實現清晰、準確的深度估計。
![]()
自監督深度估計基礎
自監督方法通過相鄰幀圖像 和 之間的幾何約束來訓練深度網絡。通過相機位姿 和相機內參 ,可將 投影回當前幀視角,得到合成圖像 ,再通過光度重建損失 約束深度預測:Stable Diffusion 用于深度估計
Stable Diffusion 將深度預測視為圖像條件下的標注生成任務。輸入圖像 和深度圖 被編碼為潛變量 和 ,通過 U-Net 進行去噪,最終解碼為深度圖 。為加速訓練,Jasmine 采用單步去噪策略。混合批次圖像重建
自監督的光度損失會引入噪聲,破壞 Stable Diffusion 的細節先驗。Jasmine 引入一個任務切換器 ,讓同一個 U-Net 交替執行深度預測和圖像重建任務。重建任務使用來自 KITTI 和 Hypersim 的混合圖像批次,并用光度損失監督重建圖像:其中 是從兩個數據集中隨機選擇的圖像。
尺度-平移 GRU
Stable Diffusion 輸出的是尺度-平移不變深度,而自監督方法輸出的是尺度不變深度。Jasmine 提出 Scale-Shift GRU 模塊,通過迭代修正尺度 和平移 參數,將 對齊到 :其中 由 GRU 的隱藏狀態預測。GRU 的復位門還能過濾自監督訓練中的異常梯度,保護細節信息。
自監督微調策略
訓練過程中引入教師模型(如 MonoViT)提供的偽標簽 ,用于穩定早期訓練:總損失為:
五、實驗設計與結果分析 實驗設置
訓練數據集:KITTI(39,810 張圖像)和 Hypersim(28,000 張合成圖像)。
零樣本測試集:CityScape、DrivingStereo(含多種天氣變體)。
評測指標:AbsRel、SqRel、RMSE、RMSElog、 、 、 。
對比實驗
表1 顯示 Jasmine 在 KITTI 數據集上所有指標均優于現有自監督方法和零樣本 Stable Diffusion 方法,尤其在 指標上提升顯著。
![]()
表2 顯示 Jasmine 在 CityScape 和 DrivingStereo 的多種天氣條件下均表現最優,展現出強大的零樣本泛化能力。
![]()
圖1、圖5 可視化結果表明,Jasmine 在細節保留和復雜結構處理上明顯優于其他方法。
![]()
![]()
消融實驗
驗證了各模塊的有效性:
移除 Stable Diffusion 先驗導致性能崩潰。
移除 MIR 或 SSG 分別導致 AbsRel 下降 47% 和 43%。
使用圖像域光度損失優于潛空間監督。
合成數據并非必需,但跨域數據有助于性能提升。
![]()
六、論文結論與評價 總結
Jasmine 是首個將 Stable Diffusion 成功應用于自監督深度估計的框架,通過圖像重建任務和尺度-平移 GRU,在不依賴深度標注的情況下實現了清晰、泛化能力強的深度預測。在 KITTI 上達到最優性能,并在多個零樣本數據集上表現卓越。
評價
該方法突破了傳統自監督方法在細節保留上的瓶頸,也為其他無監督密集預測任務提供了新思路。缺點是模型計算量較大,推理速度較慢。
未來可探索更高效的架構設計,并將該框架推廣至深度補全、多視圖立體等任務中,進一步提升實用性和擴展性。
文章來源:CV煉丹術。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.