文章來源:遙感與深度學(xué)習(xí)。
RS DL
![]()
題目:SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation
論文:https://arxiv.org/abs/2504.19839
代碼與模型:https://github.com/BinSpa/SRMF
年份:2025
作者:Yulong Guo (共一), Zilun Zhang (共一), Yongheng Shang, Tiancheng Zhao, Shuiguang Deng, Yingchun Yang, Jianwei Yin
單位:浙江大學(xué)
原作者審閱認(rèn)證
摘要
超高分辨率(UHR)遙感圖像的語義分割在實(shí)際應(yīng)用中常面臨顯著長尾分布:城市/農(nóng)田等“頭部”類別像素極多,而車站/公園/溫室等“尾部”類別樣本稀缺,導(dǎo)致模型對(duì)少數(shù)類識(shí)別不穩(wěn)。SRMF提出從“數(shù)據(jù)-模型”雙端出發(fā):一方面以多尺度錨定區(qū)域采樣(MSAR)替代常見的隨機(jī)/中心裁剪,顯著豐富單次訓(xùn)練樣本的空間語境;另一方面以語義重排序與重采樣(SRR-TA)在批內(nèi)平衡類別,并首次在無需逐圖文本標(biāo)注的前提下引入遙感領(lǐng)域VLM文本先驗(yàn)進(jìn)行像素級(jí)文本-視覺融合,緩解類內(nèi)差異大、類間差異小帶來的混淆。
![]()
(FBP數(shù)據(jù)集像素分布示例圖)
創(chuàng)新點(diǎn)
MSAR(Multi-Scale Anchored Region Sampling):多尺度錨定區(qū)域采樣,兼顧局部細(xì)節(jié)與更大環(huán)境語境,避免多尺度中心裁剪的樣本重復(fù)與局部特化。
SRR-TA(Semantic Reranking & Resampling for Training Augmentation):基于SAM-HQ預(yù)分割得到的區(qū)域,按“主類別+類別豐富度”排序,優(yōu)先采樣尾部類,實(shí)現(xiàn)批內(nèi)類別平衡。
通用表征知識(shí)注入:匯總遙感常見地物類目,利用GeoRSCLIP等領(lǐng)域VLM提取文本特征,與視覺特征做余弦相似度融合,增強(qiáng)尾部類區(qū)分度且不依賴逐圖文本標(biāo)注。
![]()
(SRMF整體架構(gòu))
方法架構(gòu)
1 MSAR:多尺度錨定區(qū)域采樣
先從原圖隨機(jī)裁出錨定區(qū)域(h×w),再在2/3/4倍尺度窗口中搜集包含該錨區(qū)的候選塊,隨機(jī)采樣后縮放回(h×w)并與錨區(qū)拼接成訓(xùn)練圖。該策略提升錨區(qū)的“出現(xiàn)位置多樣性”和“上下文多樣性”,在不改變圖像標(biāo)簽體系的條件下增廣場景語境。
![]()
(MSAR架構(gòu))
2 SRR-TA:語義重排序與重采樣
在每張UHR圖像上用SAM-HQ生成多尺度掩膜與邊界框,計(jì)算“主類別”“類別豐富度”,對(duì)區(qū)域打分排序,訓(xùn)練時(shí)優(yōu)先抽取尾部類區(qū)域并保留地面采樣距離(GSD)的一致性,形成兼顧上下文與少數(shù)類的批數(shù)據(jù)。
![]()
(在FBP數(shù)據(jù)集上生成的boxes示例)
3 文本-視覺融合(通用表征知識(shí)注入)
將K個(gè)遙感地物文本描述經(jīng)領(lǐng)域VLM的文本編碼器得到Rt(K×d),將視覺主干輸出Ri(h×w×c)經(jīng)線性映射到d維并與Rt計(jì)算像素級(jí)余弦相似度,把得到的相似度圖與Ri拼接后送入解碼器進(jìn)行像素分類。該像素級(jí)注入把“類語義中心”灌注到每個(gè)位置,適合尾部類特征聚合。
實(shí)驗(yàn)與結(jié)果
數(shù)據(jù)集:URUR(7前景類)、GID(5類)、FBP(24前景類),均為UHR遙感分割常用基準(zhǔn)。
指標(biāo):mIoU;整圖采用滑窗(512×512,stride 341)預(yù)測并還原。
總體效果:在URUR/GID/FBP上相較強(qiáng)基線穩(wěn)定提升,并對(duì)“少數(shù)類”如barren land、pond、railway station等顯著降低混淆。
消融:MSAR優(yōu)于隨機(jī)/中心多尺度裁剪;保持GSD在尾部類采樣中尤為關(guān)鍵;僅使用文本先驗(yàn)即可帶來穩(wěn)定增益,簡單線性映射即可對(duì)齊多模態(tài)特征。
![]()
(主實(shí)驗(yàn))
![]()
(消融實(shí)驗(yàn))
![]()
![]()
設(shè)計(jì)抉擇與經(jīng)驗(yàn)
為何MSAR有效?——在固定輸入大小下擴(kuò)大地面覆蓋范圍,引入更豐富的跨類鄰接關(guān)系,有助于學(xué)習(xí)可分判的上下文。
為何要保持GSD?——有助于尾部類在更廣空間內(nèi)被抽樣到;破壞GSD會(huì)使極少類樣本進(jìn)一步稀釋。
為何文本先驗(yàn)優(yōu)于“生成圖像先驗(yàn)”?——文本語義更具泛化與壓縮性;合成航拍視覺與衛(wèi)星視角存在域差異,難以提供穩(wěn)定增益。
代碼: https://github.com/BinSpa/SRMF (含訓(xùn)練與推理腳本)
建議流程:先進(jìn)行SAM-HQ批量掩膜預(yù)提取→構(gòu)建SRR-TA優(yōu)先隊(duì)列→按MSAR策略生成訓(xùn)練批→注入文本先驗(yàn)→標(biāo)準(zhǔn)分割訓(xùn)練與滑窗推理。
@article{Guo2025SRMF,
title={SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation},
author={Guo, Yulong and Zhang, Zilun and Shang, Yongheng and Zhao, Tiancheng and Deng, Shuiguang and Yang, Yingchun and Yin, Jianwei},
journal={arXiv preprint arXiv:2504.19839},
year={2025}
結(jié)語
SRMF以簡潔、可落地的數(shù)據(jù)采樣與多模態(tài)注入方案,有效緩解UHR遙感分割中的長尾難題并提升尾部類表現(xiàn)。歡迎關(guān)注項(xiàng)目倉庫獲取代碼與數(shù)據(jù),亦歡迎學(xué)術(shù)引用與合作交流。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.