![]()
哈工大團隊帶來的SAR領域首個融合多輔助任務的大模型 SUMMIT 。它如何解決SAR成像機制帶來的獨特難題?讓我們一探究竟。
最近讀到一篇發在關于SAR的大模型的paper,來自哈工大團隊,名為《SUMMIT: A SAR foundation model with multiple auxiliary tasks enhanced intrinsic characteristics》,發布了一個名為“SUMMIT”的模型。
整個算法研發過程很有參考價值,并且實測效果也都很不錯。
PART.01
現有困境:光學經驗的水土不服
現有的遙感大模型大多基于光學圖像訓練,往往忽略了合成孔徑雷達(SAR)獨特的成像機制。業界似乎也沒有特別好的專門針對SAR的大模型,研究方向可能主要還是在于如何將SAR的物理特性(如斑點噪聲、散射機制)注入深度學習模型。
![]()
這篇研究提出了首個融合多輔助任務的SAR基礎模型SUMMIT,通過自監督學習框架,巧妙地將去噪與空間散射特征增強結合,在分類、檢測和分割等下游任務中取得了SOTA性能。
![]()
在光學領域,像 GPT、DINOv2 這種模型通過海量數據預訓練,泛化能力強得離譜。但在 SAR 領域,沒有起到特別好作用。主要是存在以下問題:
1. 成像機制差異SAR基于主動式微波成像,其圖像由回波矢量疊加形成。這導致了光學圖像中不存在的斑點噪聲和幾何畸變。
2. 特征表征困難通用視覺模型傾向于學習顏色和紋理特征,而SAR圖像是單通道的幅度信息,依賴于強散射點和邊緣結構來表征目標。
3. 數據與知識缺口缺乏大規模、高質量的SAR預訓練數據集,且模型難以自發理解SAR的電磁散射物理特性。
通俗來說就是,因為成像原理的迥然不同,以及稀缺的數據集,導致現有的視覺模型在面對SAR時,很難有好的效果。
PART.02
核心思路:物理驅動的自監督學習
所以就涉及到模型的微調,這篇研究采用的技術路線還是以MAE為主,但是與傳統的MAE有改進。
直接套用類似 MAE(掩碼自編碼器)這種讓模型“猜被遮擋部分”的邏輯,模型很可能會把注意力浪費在擬合那些隨機的噪聲斑點上,而不是去理解真正的地物結構。
本研究主要基于ViT的掩碼自編碼器(MAE)架構。其核心創新在于引入了輔助任務協調模塊(ATCM),將三個物理驅動的自監督輔助任務(SSATs)無縫集成到預訓練中:
![]()
自監督去噪
SAR的斑點噪聲近似于乘性噪聲。ATCM在輸入端對原始圖像進行對數變換并注入模擬高斯噪聲,強制Encoder學習從含噪數據中恢復純凈信號,讓模型學會“忽略”斑點噪聲。
邊緣特征增強
利用Canny算子提取原始圖像的邊緣圖作為監督信號。該任務迫使模型保留高頻的結構和輪廓信息,這對SAR目標的幾何形狀識別至關重要。
散射點特征提取
利用Harris角點檢測提取強散射點。SAR圖像中,角點和邊緣通常對應強后向散射中心。
同時為了支撐訓練,作者構建了一個涵蓋56萬張樣本的數據集 MuSID:涵蓋C波段和X波段,源自高分三號、Sentinel-1、TerraSAR-X等多個傳感器,分辨率跨度從0.3m到15m。并且經過嚴格的數據清洗、裁剪(統一為448x448)和去重處理。
![]()
PART.03
實驗結果:顯著提升
在分類、檢測、分割三個下游任務上,基于 MSTAR, SSDD, SAR-Aircraft-1.0 等7個主流數據集進行了廣泛驗證。
01
目標檢測
在 SARDet-100K(目前最大的SAR檢測數據集)上,SUMMIT展現了壓倒性優勢。相比于直接在SAR數據上微調的 ViTDet,SUMMIT的 mAP 提升了至少為 5%。
![]()
在港口和停機坪等密集場景下,SUMMIT能有效分離重疊目標,而對比模型容易出現漏檢或誤檢。
![]()
02
目標分類
在 MSTAR 數據集上的小樣本性能突出:
僅使用 30% 的訓練數據,準確率達到 98.39%。
全量數據下準確率達 99.89%,優于 ResNet, Swin-Transformer 等主流模型。
03
真正的理解:注意力熱力圖
![]()
對比熱力圖可以發現模型學習機理的區別,上圖紅框為SUMMIT模型的注意力結果:
普通 ViT:
注意力由于受斑點噪聲干擾,分布較為散亂,常聚焦于背景噪聲。
SUMMIT:
注意力高度集中在目標的強散射中心(如艦船甲板、飛機機身)。
這證明,通過那些輔助任務的“調教”,模型真的懂了 SAR 的成像機理,它知道哪里是信號,哪里是噪聲。
小 結
在垂類領域的 AI 研究中,Domain Knowledge(領域知識)依然是王道。
單純的數據堆疊也許能解決通用的視覺問題,但像 SAR 這種有著復雜物理背景的數據,必須要把物理特性(如散射機制、噪聲分布)融入到模型的設計哲學里去。
論文相關代碼已經開源:
https://github.com/Yunsans/SUMMIT-SAR
>End
本文轉載自“空天感知”,原標題《哈工大提出物理驅動的SAR大模型SUMMIT,多項下游任務SOTA》。
為分享前沿資訊及有價值的觀點,太空與網絡微信公眾號轉載此文,并經過編輯。
未按照規范轉載及引用者,我們保留追究相應責任的權利
部分圖片難以找到原始出處,故文中未加以標注,如若侵犯了您的權益,請第一時間聯系我們。
HISTORY/往期推薦
充滿激情的新時代,
充滿挑戰的新疆域,
與踔厲奮發的引領者,
卓爾不群的企業家,
一起開拓,
一起體驗,
一起感悟,
共同打造更真品質,
共同實現更高價值,
共同見證商業航天更大的跨越!
——《太空與網絡》,觀察,記錄,傳播,引領。
·《衛星與網絡》創始人:劉雨菲
·《衛星與網絡》副社長:王俊峰
·微信公眾號(ID:satnetdy)團隊
編輯:艷玲、哈玫,周泳、邱莉、黃榕、娜娜
主筆記者:李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟
策劃部:楊艷、若?、李真子
視覺總監:董濘
專業攝影:馮小京、宋偉
設計部:顧錳、潘希峎、楊小明
行政部:姜河、林紫
業務部:王錦熙、瑾怡
原創文章轉載授權、轉載文章侵權、投稿等事宜,請加微信:15910858067
商務合作;展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣;企業口碑傳播及整體營銷傳播等,請加微信:13811260603
雜志訂閱,請加微信:wangxiaoyu9960
·衛星與網絡各分部:
成都分部負責人:沈淮
長沙分部負責人:賓鴻浦
西安分部負責人:郭朝暉
青島分部負責人:江偉
·衛星與網絡總部負責人:農燕
·會議活動部負責人:喬顥益、許克新、董今福
· 投融資及戰略層面合作:劉雨菲
·本平臺簽約設計公司:一畫開天(北京)文化創意設計有限公司
· 航天加(深圳)股權投資基金管理負責人:楊艷
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.