網易首頁 > 網易號 > 正文申請入駐

【技術】基于深度學習的遙感影像建筑物變化檢測方法

2026-04-08 19:45:52　來源: 測繪之家

北京舉報

分享至

摘要：

在遙感影像建筑物變化檢測研究中，非相關目標干擾和雙時相特征交互不足等問題長期制約著檢測精度的提升。為解決該技術難題，本文提出了一種基于深度學習的遙感影像建筑物變化檢測方法。該方法的核心在于多尺度特征融合機制的構建，其結構由3 個關鍵部分組成：用于多層次特征獲取的特征提取模塊、負責特征差異分析的計算模塊以及執行特征重建的上采樣模塊。首先，設計了一種兼顧計算效率和模型簡潔度的特征提取方案，在保持特征表征能力的同時優化了計算資源的使用；其次，將時間維度特征交互與空間維度特征聚合相結合，形成時空特征協同機制，不僅降低了非相關目標的影響，還促進了雙時相特征的深度整合；最后，設計一種漸進式多尺度差異特征掩膜上采樣技術，提升變化區域的重建質量。為評估方法的性能，研究選取了大規模地球視覺圖像變化識別建筑物變化檢測數據集（LEVIR-CD）和武漢大學變化檢測數據集（WHU-CD）兩個公開基準數據集進行驗證。結果表明，所提出的方法在LEVIR-CD 數據集的F1值達到了92.15%，在WHU-CD 數據集上達到了90.47%，均優于現有主流方法，有力證實了該方法的價值和實際應用前景。

關鍵詞：遙感影像；建筑物變化檢測；多尺度特征融合；差異特征掩膜

引言

在城鄉空間構成中，建筑物扮演著不可或缺的角色，是人類生活環境中的核心要素。為了有效監測建筑物的動態變化，對其進行變化檢測是重要手段之一。隨著遙感技術的發展，影像數據在空間分辨率、光譜特征和時間維度等方面取得了顯著進步，為地表覆蓋變化的精確監測奠定了堅實基礎［1-2］。從技術發展的脈絡來看，傳統變化檢測方法包括基于像素和對象的分析方法［3-4］。前者雖然具有算法實現簡便的優勢，但其逐像素運算模式不僅計算效率低下，而且檢測結果中常出現離散噪聲點，制約了識別準確度的提高。相較而言，后者以影像分割后的對象為基本處理單元，能夠充分挖掘影像的上下文信息，有效降低了由單一像素光譜變異導致的誤判風險。但這種方法的檢測效果與圖像分割質量密切相關，當面對建筑物等具有復雜結構的場景時，其應用性能往往會受到一定制約。

隨著人工智能技術的發展，深度學習在自動化數據處理領域取得了突破性進展，特別是在降低人工標注成本和提升學習效率方面表現出色［5-6］。在遙感變化檢測領域，文獻［7］提出了一種網絡架構，該架構充分利用了時序影像間的關聯特性，設計出具有權重共享機制的雙分支網絡模型。這種基于卷積神經網絡的設計不僅確保了特征提取的有效性，還通過參數共享機制顯著降低了計算復雜度，從而提高了模型訓練效率。針對遙感影像中復雜背景等難題，文獻［8］提出一種基于變換器（Transformer）技術的解決方法，該方法通過對時間序列影像執行語義分割操作，旨在生成差異特征圖；文獻［9］將視覺幾何群16 層網絡（visual geometry group 16，VGG16）深度網絡組件整合進處理流程，顯著提升了時序影像在細節特征提取中的能力。當前，在變化檢測研究領域，研究者正面臨若干亟待解決的關鍵問題，主要包括雙時態特征提取過程復雜、特征交互受限以及非目標對象干擾等。為應對這些挑戰，本文設計了一種基于類U型網絡（U shape network，U-Net）框架的多尺度特征融合方法，重點解決建筑物變化檢測問題，并為檢測流程的各個環節提供解決方法。在特征提取環節，采用經過預訓練的移動翻轉瓶頸卷積（mobile inverted bottleneck convolution，MBConv）模塊作為基礎單元，該設計顯著提升了特征提取效能并降低了計算成本。在差異特征提取方面，結合了分組卷積（group convolution，GConv）和通道混洗（channel shuffle，CS），通過時間注意力機制的引入，有效增強了真實差異特征的識別精度。為了更有效地削弱非目標元素的干擾，通過引入十字交叉注意力機制（criss-cross attention，CCA），從而保證了全局上下文信息的緊密連接。在特征提升階段，通過構建特征掩碼并與原始輸入特征進行逐級融合，最終借助解碼器完成分類，并輸出檢測結果［10］。為驗證所提模型及各模塊的有效性，本文設計并實施對比實驗和消融實驗，同時結合模型可視化技術進行了深入分析與討論。

模型結構與方法

基準模型

孿生式U 形網絡（SiamUnet）特征在于采用雙分支編碼器-解碼器結構，并實現了對稱參數共享機制［11］。首先，利用特征提取模塊提取初步特征；其次，通過下采樣模塊，特征逐漸由局部細節擴展至全局結構，實現了特征維度的提升；再次，這些分階段獲取的雙時態特征被傳遞至解碼器，以精確區分兩者間的微小差異；最后，利用上采樣模塊將差異信息從微觀層面整合至宏觀層面，得到最終的變化檢測結果［12-13］。

本文方法

本文提出的變化檢測算法包含了差異特征提取、模型訓練及結果評價，技術路線如圖1所示。

圖1 本文技術路線

SiamUnet 在編碼階段對復雜語義分割模型的過度應用，造成計算資源浪費，同時在解碼階段引入復雜差異特征提取模塊，導致模型結構復雜化［14］。因此，本文對SiamUnet 架構進行重構，將其劃分為雙時態特征提取、差異特征分析及解碼器三大核心模塊。

圖2 直觀地展示了該網絡的運行步驟，首要操作是利用移動翻轉瓶頸卷積技術，從雙時態影像數據中提取多尺度特征信息。為了增強差異特征的辨識力，專門設計一個模塊來加深雙時態特征間的關聯性，并融合了空間特征聚合（spatial fusion，SF）模塊，以提升目標識別的精確度。在上采樣階段，根據最高維度特征，逐步融合各階段的差異特征，實現了從全局到局部的多層次差異特征提取。

圖2 本文模型網絡結構

2.1 特征提取模塊

在深度學習領域，VGG16 和Transformer 等預訓練模型因其出色的特征提取能力而得到廣泛應用。這類模型通常采用增加網絡層級和擴展通道數量的方式提升性能表現［15］。然而，研究揭示了網絡架構設計中的一個關鍵現象：當網絡在深度或寬度任一維度持續擴展時，其性能增益呈現邊際遞減效應，因此提出高效網絡（EfficientNet）結構，該架構在模型復雜度與性能表現之間實現了優化平衡。

2.2 差異特征生成模塊

本文構建的差異特征生成模塊包含3個關鍵環節。

1）雙時態語義差異引導。考慮變化檢測任務與圖像語義分割任務的差異，特別關注從不同時相影像中有效抽取差異目標的語義信息。為此，設計一種基于自注意力機制的雙時態關聯模塊，該模塊能夠顯著提高雙時態影像在語義差異層面的交互能力，確保時間維度上的差異信息能夠準確傳遞。

在特征提取階段，首先從原始數據中獲取兩個時態特征和，并將其整合至輸入特征值V中。為構建關鍵特征表示，采用平均池化方法對和進行融合處理，所得結果與權重矩陣Wk進行矩陣運算，從而生成關鍵字K，同時，分別對和實施平均池化操作。其次通過權重矩陣和的線性變換，得到對應的查詢向量Q1和Q2。為了提升特征的表達能力，引入基于多層感知器（multilayer perceptron，MLP）的自注意力機制評估通道間的相關性，并將這些相關性權重與輸入特征的對應通道進行逐通道乘法運算。最后獲得優化后的雙時態特征和，計算公式為

式中，C1、C2均為通道權重向量。

2）雙時態特征融合。針對雙時態特征在差異提取前的相互獨立難題，本文提出了一種雙時態特征融合模塊，其核心在于實現特征的高效與精確整合，從而提升差異信息的提取能力。此模塊融合了改良的分組卷積和混洗模塊，盡管分組卷積通過分割通道提升了計算速度，但也可能導致特征間聯系減弱。為解決這一問題，引入通道混洗策略，它在減少模型參數和計算量的同時，確保了特征的高質量表達。在實際操作中，首先根據時態信息對通道執行分組卷積，然后通過通道混洗對特征進行重組，以獲得融合的特征。這兩種卷積操作的計算公式為

式中，flops1 為分組卷積操作1；flops2 為分組卷積操作2；H1、W1分別為高度、寬度；C1為分組卷積操作1 通道數；C2為分組卷積操作2 通道數；k 為卷積核大小。通過對式（1）、式（2）對比分析可以發現，在相同輸入輸出條件下，傳統卷積的計算量是分組卷積的兩倍。本模塊采用3層級聯的分組卷積結構，并通過通道混洗實現特征連接，從而實現了特征的高效融合。

3）空間特征聚合。針對雙時態特征中存在的冗余信息問題，建立高效的空間特征交互機制對提高目標檢測精度尤為重要［16］。本文設計一種基于十字交叉注意力機制的特征融合方法，該機制依據距離度量準則，在水平和垂直方向構建十字形信息通道，實現了特征的高效整合。空間特征聚合模塊由雙層十字交叉注意力結構組成。與傳統方法需要逐像素建立全局關聯不同，本方法僅通過兩次十字交叉操作即可為每個像素構建完整的空間關聯網絡，在保證計算效率的同時顯著提升了特征融合效果。

2.3 上采樣模塊

在模型設計上，本文設計一個輕量級上采樣模塊，該模塊接收特征數據后，首先，利用3×3 卷積將特征圖尺寸擴大一倍，并進行批量歸一化處理；其次，通過1×1 卷積的逐點操作，將通道數減半，對處理后的特征與差異特征掩碼進行逐點相乘操作；最后，上采樣后的特征被遞送給分類器，以產生最終的檢測結果。該設計在維持檢測性能的同時，顯著降低了參數數量和計算負荷。

實驗與設計

實驗數據及預處理

本研究選取LEVIR-CD 和WHU-CD 兩個公開數據集進行驗證，以評估所提方法在建筑物變化檢測中的性能，其中，LEVIR-CD 數據集包含637 組RGB 影像，空間分辨率為0.5 m，單幅影像尺寸為1 024×1 024像素。考慮計算效率，將原始影像裁剪為16 個256×256 像素的子圖像。按照標準實驗設置，將7 120 對子圖像（占總樣本70%）用于訓練，1 024對（10%）用于驗證，2 048對（20%）用于測試。

WHU-CD數據集包含一對高分辨率多光譜影像，涵蓋紅、綠、藍三個波段，空間分辨率為0.2 m，影像尺寸為32 507×15 354 像素。原始影像被裁剪為512×512像素的子圖像，共包含1 260對訓練樣本和690 對測試樣本。此外，每幅512×512 像素圖像被進一步劃分為4 個無重疊的256×256 像素子區域。同時，隨機從訓練集中抽取了10%的樣本構建驗證集。經過上述處理，最終得到了一個包含4 536對訓練樣本、504對驗證樣本和2 760對測試樣本的數據集。

實驗參數

實驗均在PyTorch 框架下完成，具體實驗參數如表1所示。

表1 參數設置

在優化模型的過程中，本研究選用交叉熵損失函數（cross entropy，CE）作為評估指標，表示為［17］

式中，L（）為交叉熵損失函數；G為實際變化區域；為模型預測區域；Gi為實際變化結果；?為預測變化結果；N為預測像元數量。

評價指標

為全面評估模型性能，本文采用4 項核心指標：精確度P、召回率R、F1值和交并比（intersection over union，IoU）UIo。分別表示為［18］

式中，TP、FP分別為正確劃分、錯誤劃分的變化像素數量；FN為錯誤劃分的未變化像素數量。

對比模型

為評估模型性能，本研究選取了4 種網絡模型進行對比分析［19-20］。

1）全卷積早期融合（fully convolutional early fusion，FC-EF）模型。該模型采用早期融合策略，將雙時相影像融合后輸入U-Net 的編碼器-解碼器結構進行處理。

2）時空注意力神經網絡（spatial-temporal attention neural network，STANet）模型。該模型結合度量學習，利用孿生全卷積網絡優化特征提取。

3）智能融合網絡（intelligent fusion network，IFN）模型。該模型整合多源遙感影像信息，增強圖像分析的準確性和細節表現。

4）大遷移（big transfer，BiT）模型。該模型通過深度監督機制有效提升變化檢測的精度和魯棒性。

結果分析

定量分析

根據表2 和表3 的量化結果，本文提出的方法在LEVIR-CD 數據集上展現了出色的性能，F1值和IoU 指標分別達到了91.15%和83.66%。與FC-EF、STANet、IFN 和BiT 模型進行對比分析，F1值分別取得了7.64%、3.78%、1.51%和0.89%的提升。在WHU-CD 數據集上，其F1值和IoU 分別達到了89.47%和81.88%，優于對比模型。實驗結果表明，本文方法在2 個數據集上均取得了最優性能。IFN 模型雖具有較高的精確度，但其召回率偏低；STANet 模型的召回率雖略高，但精確度不足。相比之下，本文方法在精確度和召回率之間實現了更好的平衡，獲得了最高的F1值。在對比模型中，基于Transformer 的BiT 模型表現較好，而FC-EF模型的整體性能相對較弱。

表2 LEVIR-CD數據集檢測精度

表3 WHU-CD數據集檢測精度

定性分析

圖3 為LEVIR-CD 數集的檢測結果，圖4 為WHU-CD 數據集的檢測結果。分析圖3 和圖4 發現：在建筑物變化檢測任務中，本文提出方法表現出色，檢測結果與真實情況高度一致，能夠精確繪制建筑物邊界，顯著降低誤檢和漏檢率。

圖3 LEVIR-CD數據集檢測結果

圖4 WHU-CD數據集檢測結果

FC-EF 模型檢測性能存在顯著不足，易受偽變化因素的干擾，頻繁引發誤報和漏報。STANet和IFN 模型由于視野范圍的限制，難以精確識別建筑物的細微變化特征。盡管BiT 模型在檢測性能方面與本文方法相當，但其上采樣過程中的特征圖尺寸縮減導致了中低層細節信息的丟失。綜上所述，本文提出的方法能夠準確預測建筑物在不同尺寸的變化，成功解決了大尺寸建筑物檢測中的碎片化與不完整性挑戰。在檢測精確度和輪廓細節的表達上，本文方法相較于其他對比方法表現出明顯的優越性。

消融實驗

為系統評估特征提取模塊、差異特征生成模塊、上采樣模塊對網絡性能的影響機制，基于LEVIR-CD 數據集，設計5 組對照實驗，實驗設計中，“×”標記表示禁用相應模塊，“√”標記則表示啟用該模塊。同時，為建立可靠的性能參照系，本文構建了一個未包含上述3 個模塊的基礎網絡（SiamUnet），實驗結果如表4 所示。

表4 消融實驗定量結果

實驗數據表明，特征提取模塊、差異特征生成模塊、上采樣模塊的引入均顯著提升了SiamUnet 的性能。當任意模塊被移除時，模型的檢測精度均出現不同程度的下降。需要注意的是，由于SiamUnet未包含上述3個模塊，其精度指標明顯低于其他實驗組，該結果有力證實了這些模塊對模型性能提升的重要貢獻。

深入分析消融實驗結果發現，差異特征生成模塊的缺失對模型性能影響最為顯著，導致F1值和IoU 值分別下降1.19%和1.98%。這一現象凸顯了差異特征生成模塊在模型中的核心作用，其通過促進雙時態影像間真實差異部分的提取，顯著提升了不同尺度建筑物的變化檢測精度。特征提取模塊的移除則使F1值和IoU 值分別降低1.14%和1.90%，其影響程度僅次于差異特征生成模塊，表明特征提取模塊通過預訓練的移動翻轉瓶頸卷積模塊，對變化檢測效果的優化具有重要作用。上采樣模塊的移除導致F1值和IoU值分別下降0.46%和0.76%，雖然影響相對較小，但仍證實了該模塊在提升特征提取效果的價值。實驗結果表明，3 個模塊在提升建筑物變化檢測性能方面均發揮著重要作用，為后續網絡優化提供了重要的理論依據和實踐指導。

結束語

針對深度學習在遙感影像建筑物變化檢測任務中存在的復雜難題，本文提出一種變化檢測模型。為驗證模型性能，研究選取了兩個公開的遙感數據集進行系統性實驗評估。實驗結果表明，相較于現有模型，本文方法在建筑物變化區域的識別精度和定位準確性方面均取得了顯著突破，尤其在應對復雜多變的實際場景以及處理多尺度建筑物變化檢測任務時表現出優異的性能。通過消融實驗的定量分析，進一步驗證了模型各功能模塊的有效性。基于當前研究成果，后續研究將著重探索更優化的模型結構設計，以持續提升模型的實際應用價值和技術潛力。

來源：北京測繪雜志社

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.