文章來源:計算機書童。
在計算機視覺領域,多模態圖像配準與融合技術一直是研究熱點。無論是安防監控、醫療影像還是遙感探測,如何將可見光、紅外等不同模態的圖像精準對齊并有效融合,始終是提升場景理解能力的關鍵。近期,一篇題為《AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion》的論文提出了全新解決方案,讓我們一起來揭開這項創新研究的神秘面紗。
論文信息 題目:AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion 自適應統一網絡:用于聯合多模態圖像配準與融合 作者:Ming Lu, Min Jiang, Xuefeng Tao, Jun Kong 源碼:https://github.com/luming1314/AU-Net 傳統方法的瓶頸:為何1+1≠2?
長期以來,聯合多模態圖像配準與融合(JMIRF)領域存在兩大痛點:
效率低下 :傳統方法多采用"先配準后融合"的級聯模式,兩個模塊獨立訓練、依次執行,運行時間簡單疊加,未充分挖掘結構共享潛力
協同不足 :即使是最新研究,也僅實現像素級聯合訓練(PLJT),本質仍是模塊的簡單組合,無法實現配準與融合的深度協同增強
如圖1所示,現有方法存在明顯局限:![]()
圖1:(a)單獨訓練模式 (b)像素級聯合訓練模式 (c)本文提出的特征級聯合訓練模式
核心創新:特征級聯合訓練(FLJT)范式
論文提出的特征級聯合訓練(FLJT) 徹底打破傳統框架,通過三個維度實現突破:
統一網絡架構 :將配準與融合模塊深度整合,共享特征提取結構,避免冗余計算
分層語義交互 :在多尺度特征層面實現配準與融合的雙向反饋,跨層傳遞語義信息
動態協同學習 :通過對稱結構設計,使配準精度提升與融合質量優化形成正向循環
AU-Net的整體架構如圖2所示,采用對稱設計實現雙向處理流程:![]()
圖2:AU-Net整體框架圖,包含四大核心模塊
1. 共享特征提取模塊
基于倒置金字塔結構設計(圖3),通過四個子模塊層實現多尺度特征提取:![]()
圖3:共享特征提取模塊的層級結構
layer-0:采用權重不共享設計,提取全尺度模態自適應特征
layer-1至layer-3:權重共享的下采樣子模塊,生成1/2、1/4、1/8尺度特征
創新點:通過單次特征提取同時服務于配準和融合任務,大幅提升效率
采用多尺度特征級配準策略,通過三個子配準單元實現分層優化(圖4):![]()
圖4:單個子配準模塊的工作流程
核心機制:先通過上一層變形場進行粗配準,再計算局部相關體積實現精細調整
優勢:相比傳統像素級配準,特征級配準更魯棒,能捕捉語義層面的對應關系
處理流程:從最粗尺度(1/8)到全尺度(1x)逐步優化變形場,實現漸進式對齊
創新設計多模態尺度感知動態卷積(MSDConv),實現自適應特征融合(圖5、6):
圖5:子融合模塊的特征聚合流程
![]()
圖6:多模態尺度感知動態卷積的注意力機制
動態卷積特性:根據輸入特征動態調整卷積核權重,實現模態和尺度雙維度自適應
注意力機制:通過四個維度(空間、輸入通道、輸出通道、內核數量)的注意力標量優化特征聚合
融合策略:采用逐元素最大操作實現多尺度特征的漸進式融合
基于去噪擴散概率模型(DDPMs)實現雙向跨模態轉換(圖7):![]()
圖7:基于DDPMs的圖像轉換流程
雙向轉換:同時支持紅外→可見光和可見光→紅外轉換,提供額外監督信號
創新設計:采用"緩存方案"規避DDPMs迭代計算的高開銷,訓練時緩存轉換結果,推理時移除轉換模塊
核心價值:減少模態分布差距,使單模態評估指標可用于跨模態配準訓練
在NirScene和RoadScene數據集上的定性結果(圖8)顯示:![]()
圖8:不同方法的配準結果對比(紅色/黃色框為關鍵區域)
AU-Net在復雜場景中表現出更優的對齊精度,尤其在局部細節區域(如行人頭部、建筑物邊緣)有效避免了偽影和不自然變形。定量評估中,在MSE、MAE、NCC等五項指標中均排名第一,充分驗證了特征級聯合訓練的優勢。
融合性能評估
聯合配準與融合的定性結果(圖9)表明:![]()
圖9:不同方法的融合結果對比
AU-Net生成的融合圖像具有三個顯著優勢:
完全消除視差導致的重疊偽影
更好保留多模態圖像的互補信息(如天空對比度、細節紋理)
有效抑制對齊區域的不自然變形
定量評估中,AU-Net在空間頻率(SF)、平均梯度(AG)等七項指標中表現卓越,尤其在未訓練的RoadScene數據集上仍保持優異性能,證明了模型的強泛化能力。
總結與展望
AU-Net通過特征級聯合訓練范式,實現了多模態圖像配準與融合的深度統一,其創新點可概括為:
首次提出FLJT范式,打破傳統級聯模式的局限
動態融合模塊實現跨模態、跨尺度的自適應特征聚合
雙向擴散轉換機制有效縮小模態差距,提供額外監督
這項研究不僅為多模態圖像處理提供了新范式,其特征共享和動態適應的設計思想,也為其他聯合任務(如分割與檢測、重建與增強)提供了重要借鑒。未來,隨著模態種類的增加和應用場景的拓展,AU-Net的設計理念有望在更廣泛的計算機視覺任務中發揮價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.