網易首頁 > 網易號 > 正文申請入駐

【論文】基于高分辨率衛星影像的人群檢測數據集和新方法

2026-01-28 20:35:20　來源: 測繪之家

北京舉報

分享至

題目: Crowd detection using Very-Fine-Resolution satellite imagery

期刊: ISPRS Journal of Photogrammetry and Remote Sensing

論文: https://doi.org/10.1016/j.isprsjprs.2026.01.001

數據: CrowdSat數據集（論文首次提出）

代碼: https://github.com/Tong-777777/CrowdSat-Net

年份: 2026

單位: 中央民族大學；同濟大學；蘭卡斯特大學；南安普頓大學

創新點

首次利用超高分辨率(~0.3m)衛星影像進行人群檢測，構建了包含超過12萬個標注個體的CrowdSat數據集
提出CrowdSat-Net網絡，包含雙上下文漸進注意力網絡(DCPAN)模塊來增強小目標特征表示
設計高頻引導可變形上采樣器(HFGDU)模塊，通過頻域引導的可變形卷積恢復上采樣過程中的高頻信息
引入多時相影像輔助標注策略，減少點狀背景物體的誤標注率

背景

隨著人口增長和城市化進程加快，公共區域人群活動頻繁增加，帶來交通擁堵、踩踏事故、安全隱患和公共衛生風險等問題。人群檢測(CD)通過估計特定區域內個體的位置和數量，對緩解這些風險至關重要。傳統方法主要依賴地面監控或航空影像，但存在時空覆蓋范圍有限的問題。

超高分辨率(VFR)衛星影像(如北京三號、吉林一號高分04A等，空間分辨率約0.3米)的發展為大規模人群活動分析提供了新機遇。相比地面和航空影像，VFR衛星影像具有更廣的空間覆蓋和更短的重訪周期，能夠實現持續的大范圍監測和歷史模式分析。然而，VFR影像中個體信號微弱且模糊(約3×3像素)，在特征提取和上采樣過程中容易出現信號衰減或丟失，現有方法難以有效應對這些挑戰。

數據

本文構建了首個基于VFR衛星影像的人群檢測數據集CrowdSat。

CrowdSat數據集

數據來源與覆蓋范圍
- 數據來自三個互補的遙感數據源：Google Earth平臺(空間分辨率約0.30m)、北京三號衛星(BJ3N，0.30m全色波段)和吉林一號高分04A衛星(JL4A，0.31m全色波段)
- 覆蓋中國32個省級行政區(貴州省和澳門除外)，采集時間為2023年2月20日至2025年1月2日
- 選取的區域包括城市廣場、商業街、交通樞紐和風景名勝等典型公共聚集場所
數據預處理
- 對BJ3N和JL4A的多光譜影像(1.20m/1.24m)使用區域到點回歸克里金(ATPRK)全色銳化技術，提升至0.30m/0.31m空間分辨率
- 進行幾何校正、裁剪和輻射歸一化處理，增強不同數據源之間的一致性
- 將影像裁剪為256×256像素的無重疊圖像塊，移除無人群的圖像塊后得到3447個標注圖像塊
數據標注
- 采用中心點標注策略，在每個個體的3×3像素區域中心放置單點標注
- 利用Google Earth平臺的多時相VFR影像作為輔助數據，交叉參考不同時間點的影像以區分個體與固定物體(如路面、路燈、石柱等)
- 總計標注120,141個個體，平均每個圖像塊包含34.9個個體，中位數為14.0個
數據集特征
- 多密度表示
  圖像塊中個體數量范圍從1到808，覆蓋從極稀疏到極密集的各種人群場景
- 全國范圍覆蓋
  各省份圖像塊數量從0到393不等，個體數量從0到10,716不等
- 多季節適應
  數據采集跨越所有四季，涵蓋不同的光照條件和人群活動模式
- 多樣化環境
  包含開放公共區域、建成區、雪地、植被區、海灘、沙漠等多種場景類型

方法

本文提出CrowdSat-Net，一種基于點的卷積神經網絡方法，專門設計用于VFR衛星影像的人群檢測。

整體架構

采用兩階段堆疊沙漏網絡(Hourglass Network)作為主干
使用焦點逆距離變換(FIDT)方法將標注圖像轉換為FIDT圖，通過為更接近中心的像素分配更高的響應值實現密集人群中的無重疊定位
采用中間監督策略，每個沙漏網絡生成位置圖并計算焦點損失，總損失為各沙漏網絡焦點損失之和
使用局部最大值檢測策略(LMDS)處理最后一個沙漏網絡的位置圖以獲得最終的個體定位

雙上下文漸進注意力網絡(DCPAN)

模塊設計
- 嵌入在ResNet層之后的圖像預處理階段，用于增強小目標特征表示
- 結合基礎空間注意力(SA)編碼和兩個并行分支：多尺度特征提取(MSFE)分支和局部對比度增強(LCE)分支
關鍵組件
- SA編碼
  通過最大池化和平均池化提取基礎空間特征
- MSFE分支
  采用膨脹率為2和4的并行膨脹卷積層捕獲互補的多尺度上下文信息，解決全局池化操作無法建模對象間位置依賴關系的問題
- LCE分支
  通過局部對比度生成器突出具有大異質性的位置，恢復標準池化操作模糊的高頻細節
- 將MSFE和LCE的輸出逐元素相加后通過sigmoid激活生成增強權重圖，與原始特征逐像素相乘得到最終特征

高頻引導可變形上采樣器(HFGDU)

模塊目標
- 替代傳統上采樣方法(如雙線性插值)，恢復上采樣過程中丟失的高頻信息和精細空間細節
- 解決傳統方法導致的邊界過度平滑和高頻特征錯位問題
三階段架構
- 初始上采樣
  使用雙線性插值將粗分辨率特征圖上采樣以匹配細分辨率特征圖的空間尺寸
- 高頻細節補償(HFDC)
  采用可學習的拉普拉斯類高通濾波器提取上采樣特征圖的高頻分量，通過殘差補償生成器細化高頻特征圖，并與上采樣特征圖整合恢復精細高頻分量
- 可變形對齊融合(DAF)
  引入可變形卷積層預測空間偏移量動態對齊上采樣特征和細分辨率特征，通過特征調制門選擇性整合對齊特征并抑制冗余信息

結果與分析

CrowdSat-Net在CrowdSat數據集上超越了八種先進的人群檢測方法，實現了最高的F1分數和精度，驗證了DCPAN和HFGDU模塊的有效性。跨區域評估進一步證明了模型在全球不同地區的空間泛化能力，但在極稀疏和極密集場景中仍存在性能下降的局限。

更多圖表分析可見原文

來源：遙感與深度學習

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.