文章來源:計算機書童。
在計算機視覺領(lǐng)域,多模態(tài)圖像配準與融合技術(shù)一直是研究熱點。無論是安防監(jiān)控、醫(yī)療影像還是遙感探測,如何將可見光、紅外等不同模態(tài)的圖像精準對齊并有效融合,始終是提升場景理解能力的關(guān)鍵。近期,一篇題為《AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion》的論文提出了全新解決方案,讓我們一起來揭開這項創(chuàng)新研究的神秘面紗。
論文信息 題目:AU-Net: Adaptive Unified Network for Joint Multi-Modal Image Registration and Fusion 自適應(yīng)統(tǒng)一網(wǎng)絡(luò):用于聯(lián)合多模態(tài)圖像配準與融合 作者:Ming Lu, Min Jiang, Xuefeng Tao, Jun Kong 源碼:https://github.com/luming1314/AU-Net 傳統(tǒng)方法的瓶頸:為何1+1≠2?
長期以來,聯(lián)合多模態(tài)圖像配準與融合(JMIRF)領(lǐng)域存在兩大痛點:
效率低下 :傳統(tǒng)方法多采用"先配準后融合"的級聯(lián)模式,兩個模塊獨立訓(xùn)練、依次執(zhí)行,運行時間簡單疊加,未充分挖掘結(jié)構(gòu)共享潛力
協(xié)同不足 :即使是最新研究,也僅實現(xiàn)像素級聯(lián)合訓(xùn)練(PLJT),本質(zhì)仍是模塊的簡單組合,無法實現(xiàn)配準與融合的深度協(xié)同增強
如圖1所示,現(xiàn)有方法存在明顯局限:![]()
圖1:(a)單獨訓(xùn)練模式 (b)像素級聯(lián)合訓(xùn)練模式 (c)本文提出的特征級聯(lián)合訓(xùn)練模式
核心創(chuàng)新:特征級聯(lián)合訓(xùn)練(FLJT)范式
論文提出的特征級聯(lián)合訓(xùn)練(FLJT) 徹底打破傳統(tǒng)框架,通過三個維度實現(xiàn)突破:
統(tǒng)一網(wǎng)絡(luò)架構(gòu) :將配準與融合模塊深度整合,共享特征提取結(jié)構(gòu),避免冗余計算
分層語義交互 :在多尺度特征層面實現(xiàn)配準與融合的雙向反饋,跨層傳遞語義信息
動態(tài)協(xié)同學(xué)習(xí) :通過對稱結(jié)構(gòu)設(shè)計,使配準精度提升與融合質(zhì)量優(yōu)化形成正向循環(huán)
AU-Net的整體架構(gòu)如圖2所示,采用對稱設(shè)計實現(xiàn)雙向處理流程:![]()
圖2:AU-Net整體框架圖,包含四大核心模塊
1. 共享特征提取模塊
基于倒置金字塔結(jié)構(gòu)設(shè)計(圖3),通過四個子模塊層實現(xiàn)多尺度特征提取:![]()
圖3:共享特征提取模塊的層級結(jié)構(gòu)
layer-0:采用權(quán)重不共享設(shè)計,提取全尺度模態(tài)自適應(yīng)特征
layer-1至layer-3:權(quán)重共享的下采樣子模塊,生成1/2、1/4、1/8尺度特征
創(chuàng)新點:通過單次特征提取同時服務(wù)于配準和融合任務(wù),大幅提升效率
采用多尺度特征級配準策略,通過三個子配準單元實現(xiàn)分層優(yōu)化(圖4):![]()
圖4:單個子配準模塊的工作流程
核心機制:先通過上一層變形場進行粗配準,再計算局部相關(guān)體積實現(xiàn)精細調(diào)整
優(yōu)勢:相比傳統(tǒng)像素級配準,特征級配準更魯棒,能捕捉語義層面的對應(yīng)關(guān)系
處理流程:從最粗尺度(1/8)到全尺度(1x)逐步優(yōu)化變形場,實現(xiàn)漸進式對齊
創(chuàng)新設(shè)計多模態(tài)尺度感知動態(tài)卷積(MSDConv),實現(xiàn)自適應(yīng)特征融合(圖5、6):
圖5:子融合模塊的特征聚合流程
![]()
圖6:多模態(tài)尺度感知動態(tài)卷積的注意力機制
動態(tài)卷積特性:根據(jù)輸入特征動態(tài)調(diào)整卷積核權(quán)重,實現(xiàn)模態(tài)和尺度雙維度自適應(yīng)
注意力機制:通過四個維度(空間、輸入通道、輸出通道、內(nèi)核數(shù)量)的注意力標量優(yōu)化特征聚合
融合策略:采用逐元素最大操作實現(xiàn)多尺度特征的漸進式融合
基于去噪擴散概率模型(DDPMs)實現(xiàn)雙向跨模態(tài)轉(zhuǎn)換(圖7):![]()
圖7:基于DDPMs的圖像轉(zhuǎn)換流程
雙向轉(zhuǎn)換:同時支持紅外→可見光和可見光→紅外轉(zhuǎn)換,提供額外監(jiān)督信號
創(chuàng)新設(shè)計:采用"緩存方案"規(guī)避DDPMs迭代計算的高開銷,訓(xùn)練時緩存轉(zhuǎn)換結(jié)果,推理時移除轉(zhuǎn)換模塊
核心價值:減少模態(tài)分布差距,使單模態(tài)評估指標可用于跨模態(tài)配準訓(xùn)練
在NirScene和RoadScene數(shù)據(jù)集上的定性結(jié)果(圖8)顯示:![]()
圖8:不同方法的配準結(jié)果對比(紅色/黃色框為關(guān)鍵區(qū)域)
AU-Net在復(fù)雜場景中表現(xiàn)出更優(yōu)的對齊精度,尤其在局部細節(jié)區(qū)域(如行人頭部、建筑物邊緣)有效避免了偽影和不自然變形。定量評估中,在MSE、MAE、NCC等五項指標中均排名第一,充分驗證了特征級聯(lián)合訓(xùn)練的優(yōu)勢。
融合性能評估
聯(lián)合配準與融合的定性結(jié)果(圖9)表明:![]()
圖9:不同方法的融合結(jié)果對比
AU-Net生成的融合圖像具有三個顯著優(yōu)勢:
完全消除視差導(dǎo)致的重疊偽影
更好保留多模態(tài)圖像的互補信息(如天空對比度、細節(jié)紋理)
有效抑制對齊區(qū)域的不自然變形
定量評估中,AU-Net在空間頻率(SF)、平均梯度(AG)等七項指標中表現(xiàn)卓越,尤其在未訓(xùn)練的RoadScene數(shù)據(jù)集上仍保持優(yōu)異性能,證明了模型的強泛化能力。
總結(jié)與展望
AU-Net通過特征級聯(lián)合訓(xùn)練范式,實現(xiàn)了多模態(tài)圖像配準與融合的深度統(tǒng)一,其創(chuàng)新點可概括為:
首次提出FLJT范式,打破傳統(tǒng)級聯(lián)模式的局限
動態(tài)融合模塊實現(xiàn)跨模態(tài)、跨尺度的自適應(yīng)特征聚合
雙向擴散轉(zhuǎn)換機制有效縮小模態(tài)差距,提供額外監(jiān)督
這項研究不僅為多模態(tài)圖像處理提供了新范式,其特征共享和動態(tài)適應(yīng)的設(shè)計思想,也為其他聯(lián)合任務(wù)(如分割與檢測、重建與增強)提供了重要借鑒。未來,隨著模態(tài)種類的增加和應(yīng)用場景的拓展,AU-Net的設(shè)計理念有望在更廣泛的計算機視覺任務(wù)中發(fā)揮價值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.