一、導讀
近年來,基于 Stable Diffusion(穩(wěn)定擴散模型)的方法能生成清晰、泛化能力強的深度圖,但它們通常需要高精度深度標注進行監(jiān)督訓練,限制了在無標注數(shù)據(jù)上的應用。
為了解決這一難題,本文提出了首個基于 Stable Diffusion 的自監(jiān)督單目深度估計框架 Jasmine。它通過引入混合批次圖像重建任務和尺度-平移門控循環(huán)單元,在不依賴任何深度標注的情況下,有效保留了 Stable Diffusion 的先驗知識,顯著提升了深度估計的清晰度和跨數(shù)據(jù)集泛化能力。
實驗表明,Jasmine 在 KITTI 數(shù)據(jù)集上達到了最先進的性能,并在多個零樣本測試集上表現(xiàn)優(yōu)異。
二、論文基本信息
![]()
論文標題:Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation
作者姓名與單位:Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao(分別來自北京交通大學、南洋理工大學、香港科技大學、重慶郵電大學)
發(fā)表日期與會議/期刊來源:NeurIPS 2025
論文鏈接: https://arxiv.org/abs/2503.15905v2
首次將 Stable Diffusion 引入自監(jiān)督深度估計框架,無需高精度深度標注。
提出混合批次圖像重建任務,避免自監(jiān)督訓練破壞 Stable Diffusion 的細節(jié)先驗。
設計尺度-平移 GRU 模塊,解決尺度-平移不變性與尺度不變性之間的分布差異。
在 KITTI 上達到最優(yōu)性能,并在多個零樣本數(shù)據(jù)集上表現(xiàn)出卓越泛化能力。
Jasmine 的核心思路是:在自監(jiān)督訓練中,通過圖像重建任務保護 Stable Diffusion 的細節(jié)先驗,并用尺度-平移 GRU 對齊不同深度分布,從而在不依賴標注的情況下實現(xiàn)清晰、準確的深度估計。
![]()
自監(jiān)督深度估計基礎
自監(jiān)督方法通過相鄰幀圖像 和 之間的幾何約束來訓練深度網(wǎng)絡。通過相機位姿 和相機內(nèi)參 ,可將 投影回當前幀視角,得到合成圖像 ,再通過光度重建損失 約束深度預測:Stable Diffusion 用于深度估計
Stable Diffusion 將深度預測視為圖像條件下的標注生成任務。輸入圖像 和深度圖 被編碼為潛變量 和 ,通過 U-Net 進行去噪,最終解碼為深度圖 。為加速訓練,Jasmine 采用單步去噪策略。混合批次圖像重建
自監(jiān)督的光度損失會引入噪聲,破壞 Stable Diffusion 的細節(jié)先驗。Jasmine 引入一個任務切換器 ,讓同一個 U-Net 交替執(zhí)行深度預測和圖像重建任務。重建任務使用來自 KITTI 和 Hypersim 的混合圖像批次,并用光度損失監(jiān)督重建圖像:其中 是從兩個數(shù)據(jù)集中隨機選擇的圖像。
尺度-平移 GRU
Stable Diffusion 輸出的是尺度-平移不變深度,而自監(jiān)督方法輸出的是尺度不變深度。Jasmine 提出 Scale-Shift GRU 模塊,通過迭代修正尺度 和平移 參數(shù),將 對齊到 :其中 由 GRU 的隱藏狀態(tài)預測。GRU 的復位門還能過濾自監(jiān)督訓練中的異常梯度,保護細節(jié)信息。
自監(jiān)督微調(diào)策略
訓練過程中引入教師模型(如 MonoViT)提供的偽標簽 ,用于穩(wěn)定早期訓練:總損失為:
五、實驗設計與結果分析 實驗設置
訓練數(shù)據(jù)集:KITTI(39,810 張圖像)和 Hypersim(28,000 張合成圖像)。
零樣本測試集:CityScape、DrivingStereo(含多種天氣變體)。
評測指標:AbsRel、SqRel、RMSE、RMSElog、 、 、 。
對比實驗
表1 顯示 Jasmine 在 KITTI 數(shù)據(jù)集上所有指標均優(yōu)于現(xiàn)有自監(jiān)督方法和零樣本 Stable Diffusion 方法,尤其在 指標上提升顯著。
![]()
表2 顯示 Jasmine 在 CityScape 和 DrivingStereo 的多種天氣條件下均表現(xiàn)最優(yōu),展現(xiàn)出強大的零樣本泛化能力。
![]()
圖1、圖5 可視化結果表明,Jasmine 在細節(jié)保留和復雜結構處理上明顯優(yōu)于其他方法。
![]()
![]()
消融實驗
驗證了各模塊的有效性:
移除 Stable Diffusion 先驗導致性能崩潰。
移除 MIR 或 SSG 分別導致 AbsRel 下降 47% 和 43%。
使用圖像域光度損失優(yōu)于潛空間監(jiān)督。
合成數(shù)據(jù)并非必需,但跨域數(shù)據(jù)有助于性能提升。
![]()
六、論文結論與評價 總結
Jasmine 是首個將 Stable Diffusion 成功應用于自監(jiān)督深度估計的框架,通過圖像重建任務和尺度-平移 GRU,在不依賴深度標注的情況下實現(xiàn)了清晰、泛化能力強的深度預測。在 KITTI 上達到最優(yōu)性能,并在多個零樣本數(shù)據(jù)集上表現(xiàn)卓越。
評價
該方法突破了傳統(tǒng)自監(jiān)督方法在細節(jié)保留上的瓶頸,也為其他無監(jiān)督密集預測任務提供了新思路。缺點是模型計算量較大,推理速度較慢。
未來可探索更高效的架構設計,并將該框架推廣至深度補全、多視圖立體等任務中,進一步提升實用性和擴展性。
文章來源:CV煉丹術。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.