NeurIPS 2025｜北交大等提出Jasmine：自監(jiān)督+Stable Diffusion先驗，實現(xiàn)高質量單目深度感知

2025-11-11 21:12:42　來源: 算法與數(shù)學之美

北京舉報

分享至

一、導讀

近年來，基于 Stable Diffusion（穩(wěn)定擴散模型）的方法能生成清晰、泛化能力強的深度圖，但它們通常需要高精度深度標注進行監(jiān)督訓練，限制了在無標注數(shù)據(jù)上的應用。

為了解決這一難題，本文提出了首個基于 Stable Diffusion 的自監(jiān)督單目深度估計框架 Jasmine。它通過引入混合批次圖像重建任務和尺度-平移門控循環(huán)單元，在不依賴任何深度標注的情況下，有效保留了 Stable Diffusion 的先驗知識，顯著提升了深度估計的清晰度和跨數(shù)據(jù)集泛化能力。

實驗表明，Jasmine 在 KITTI 數(shù)據(jù)集上達到了最先進的性能，并在多個零樣本測試集上表現(xiàn)優(yōu)異。

二、論文基本信息

論文標題：Jasmine: Harnessing Diffusion Prior for Self-Supervised Depth Estimation
作者姓名與單位：Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao（分別來自北京交通大學、南洋理工大學、香港科技大學、重慶郵電大學）
發(fā)表日期與會議/期刊來源：NeurIPS 2025
論文鏈接： https://arxiv.org/abs/2503.15905v2

三、主要貢獻與創(chuàng)新

首次將 Stable Diffusion 引入自監(jiān)督深度估計框架，無需高精度深度標注。
提出混合批次圖像重建任務，避免自監(jiān)督訓練破壞 Stable Diffusion 的細節(jié)先驗。
設計尺度-平移 GRU 模塊，解決尺度-平移不變性與尺度不變性之間的分布差異。
在 KITTI 上達到最優(yōu)性能，并在多個零樣本數(shù)據(jù)集上表現(xiàn)出卓越泛化能力。

四、研究方法與原理

Jasmine 的核心思路是：在自監(jiān)督訓練中，通過圖像重建任務保護 Stable Diffusion 的細節(jié)先驗，并用尺度-平移 GRU 對齊不同深度分布，從而在不依賴標注的情況下實現(xiàn)清晰、準確的深度估計。

自監(jiān)督深度估計基礎
自監(jiān)督方法通過相鄰幀圖像和之間的幾何約束來訓練深度網(wǎng)絡。通過相機位姿和相機內(nèi)參，可將投影回當前幀視角，得到合成圖像，再通過光度重建損失約束深度預測：
Stable Diffusion 用于深度估計
Stable Diffusion 將深度預測視為圖像條件下的標注生成任務。輸入圖像和深度圖被編碼為潛變量和，通過 U-Net 進行去噪，最終解碼為深度圖。為加速訓練，Jasmine 采用單步去噪策略。
混合批次圖像重建
自監(jiān)督的光度損失會引入噪聲，破壞 Stable Diffusion 的細節(jié)先驗。Jasmine 引入一個任務切換器，讓同一個 U-Net 交替執(zhí)行深度預測和圖像重建任務。重建任務使用來自 KITTI 和 Hypersim 的混合圖像批次，并用光度損失監(jiān)督重建圖像：
其中是從兩個數(shù)據(jù)集中隨機選擇的圖像。
尺度-平移 GRU
Stable Diffusion 輸出的是尺度-平移不變深度，而自監(jiān)督方法輸出的是尺度不變深度。Jasmine 提出 Scale-Shift GRU 模塊，通過迭代修正尺度和平移參數(shù)，將對齊到：
其中由 GRU 的隱藏狀態(tài)預測。GRU 的復位門還能過濾自監(jiān)督訓練中的異常梯度，保護細節(jié)信息。
自監(jiān)督微調(diào)策略
訓練過程中引入教師模型（如 MonoViT）提供的偽標簽，用于穩(wěn)定早期訓練：
總損失為：

五、實驗設計與結果分析實驗設置

訓練數(shù)據(jù)集：KITTI（39,810 張圖像）和 Hypersim（28,000 張合成圖像）。
零樣本測試集：CityScape、DrivingStereo（含多種天氣變體）。
評測指標：AbsRel、SqRel、RMSE、RMSElog、、、。

對比實驗

表1 顯示 Jasmine 在 KITTI 數(shù)據(jù)集上所有指標均優(yōu)于現(xiàn)有自監(jiān)督方法和零樣本 Stable Diffusion 方法，尤其在指標上提升顯著。

表2 顯示 Jasmine 在 CityScape 和 DrivingStereo 的多種天氣條件下均表現(xiàn)最優(yōu)，展現(xiàn)出強大的零樣本泛化能力。

圖1、圖5 可視化結果表明，Jasmine 在細節(jié)保留和復雜結構處理上明顯優(yōu)于其他方法。

消融實驗

驗證了各模塊的有效性：

移除 Stable Diffusion 先驗導致性能崩潰。
移除 MIR 或 SSG 分別導致 AbsRel 下降 47% 和 43%。
使用圖像域光度損失優(yōu)于潛空間監(jiān)督。
合成數(shù)據(jù)并非必需，但跨域數(shù)據(jù)有助于性能提升。

六、論文結論與評價總結

Jasmine 是首個將 Stable Diffusion 成功應用于自監(jiān)督深度估計的框架，通過圖像重建任務和尺度-平移 GRU，在不依賴深度標注的情況下實現(xiàn)了清晰、泛化能力強的深度預測。在 KITTI 上達到最優(yōu)性能，并在多個零樣本數(shù)據(jù)集上表現(xiàn)卓越。

評價

該方法突破了傳統(tǒng)自監(jiān)督方法在細節(jié)保留上的瓶頸，也為其他無監(jiān)督密集預測任務提供了新思路。缺點是模型計算量較大，推理速度較慢。

未來可探索更高效的架構設計，并將該框架推廣至深度補全、多視圖立體等任務中，進一步提升實用性和擴展性。

文章來源：CV煉丹術。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.