文章來源:我愛計算機視覺(ID:aicvml)
在無人機航拍、衛星遙感等領域,如何精準又快速地識別出畫面中的小目標,一直是個棘手的難題。這些小目標,比如遠處的車輛、行人,在圖像里可能只占了幾個像素,特征提取過程中寶貴的空間細節一不小心就丟失了,導致模型“視而不見”或者“指鹿為馬”。最近,來自南京航空航天大學的研究團隊帶來了一份頗有新意的答卷——PRNet。他們認為,與其在信息丟失后費力地重建,不如從一開始就死死“捍衛”原始信息。
![]()
論文標題 : PRNet: Original Information Is All You Have
作者 : PeiHuang Zheng, Yunlong Zhao, Zheng Cui, Yang Li
機構 : 南京航空航天大學
論文地址 : https://arxiv.org/abs/2510.09531
代碼倉庫 : https://github.com/hhao659/PRNet
熟悉目標檢測的朋友們都知道,神經網絡在提取特征時,會逐層進行卷積和下采樣,這個過程就像是不斷對圖像進行“濃縮”,以提煉出高層語義信息。但對于本身就像素很少的小目標來說,這種“濃縮”是致命的。幾輪下來,本就模糊的邊緣、紋理等細節信息可能就徹底消失了,導致后續的檢測頭“巧婦難為無米之炊”。
![]()
上圖直觀地展示了分辨率下降對不同數據集中目標可見性的影響。可以看到,在VisDrone和AI-TOD這類航拍數據集中,小目標在分辨率降低后,其邊緣、紋理和形狀信息損失慘重,幾乎無法辨認。
雖然現在主流的檢測器大都采用特征金字塔網絡(Feature Pyramid Network, FPN)及其變體,試圖通過融合深層語義信息和淺層空間信息來緩解這個問題。但作者一針見血地指出,這些方法大多是在特征已經被“污染”之后進行“后期補救”,重建的細節往往已經偏離了最原始、最真實的信息,效果自然大打折扣。
PRNet:捍衛原始信息的兩大“法寶”
面對這一困境,PRNet的核心思想非常直接:與其修補,不如保護。它把重點放在了如何最大化地保留和利用網絡淺層那些未經處理的、最“新鮮”的空間特征上。為此,PRNet設計了兩大核心模塊:漸進式精煉頸(Progressive Refinement Neck, PRN) 和 增強型切片下采樣(Enhanced SliceSamp, ESSamp)。
![]()
上圖展示了PRNet的整體架構。可以看到,它在YOLOv11的基礎上,用PRN替換了傳統的PAN-FPN結構,并在骨干網絡的前兩層用ESSamp替換了常規的步進卷積下采樣。
漸進式精煉頸 (PRN):讓淺層特征“物盡其用”
傳統FPN結構中,來自骨干網絡的淺層特征圖(比如P2)通常只在自頂向下的融合路徑中使用一次,之后就被“拋棄”了。這在作者看來是巨大的浪費,因為這些特征圖包含了最豐富的空間細節。
PRN的設計就是為了解決這個問題。它引入了“骨干特征復用”和“漸進式融合”的機制。
![]()
從上圖的對比中可以清晰地看到,傳統的FPN、PAN等結構都是單向或雙向的簡單融合。而PRN(最右側)則建立了一個迭代優化的閉環:它不僅進行自頂向下和自底向上的融合,還反復地(圖中的橙色線)將骨干網絡中那些“原汁原味”的淺層、中層特征重新引入到融合過程中,對高分辨率特征進行迭代精煉。這種設計確保了寶貴的空間細節在整個特征融合過程中始終“在線”,從而實現空間與語義的更優對齊。
增強型切片下采樣 (ESSamp):從源頭減少信息損失
除了在“頸部”做文章,PRNet還在“骨干”的下采樣階段進行了優化。傳統的下采樣方式,如步進卷積,為了降維會丟棄大量信息。
ESSamp模塊則是一種更“溫柔”的下采樣方式。
![]()
它首先使用PixelUnshuffle操作,將特征圖的空間維度信息巧妙地重排到通道維度,實現無損的維度轉換。然后,通過一個增強的深度可分離卷積(depthwise convolution)來提取特征。這里的“增強”體現在它為每個輸入通道分配了多個卷積核(深度乘子d=2),從而在不大幅增加計算成本的前提下,提升了捕捉精細局部模式的能力。這套組合拳下來,ESSamp在完成下采樣的同時,最大限度地保留了對小目標至關重要的細節信息。
實驗效果:精度與效率的雙重勝利
PRNet在VisDrone、AI-TOD和UAVDT等多個主流航拍圖像數據集上進行了廣泛實驗,結果相當亮眼。
VisDrone數據集上的SOTA表現
在VisDrone驗證集上,PRNet在不同量級的模型上都展現了卓越的性能。
![]()
例如,輕量級的 PRNet-N,參數量僅為 2.2M,就達到了 26.7% 的AP,超越了參數量更大的YOLO11-s。而中量級的PRNet,相比YOLO11-m,在AP提升 2.5% 的同時,參數量和計算量分別減少了 61.3% 和 34.0%,實現了極佳的精度-效率權衡。
![]()
在更具挑戰性的VisDrone測試集上,PRNet同樣表現出色,AP達到了 24.2%,顯著優于YOLOv8-M等方法。
在AI-TOD和UAVDT上的泛化能力
![]()
![]()
在包含大量極小目標的AI-TOD數據集和無人機視角的UAVDT數據集上,PRNet同樣取得了領先的成績,證明了其方法的普適性和魯棒性。
可視化結果與消融研究 ![]()
上圖的可視化結果生動地展示了PRNet的優勢。可以看到,相比基線模型,PRNet的熱力圖(Heatmaps)更聚焦于小而密集的物體區域,最終的檢測結果也更精確,漏檢和誤檢都更少。
![]()
![]()
消融實驗進一步證實了PRN和ESSamp兩個模塊的有效性。單獨加入PRN就能帶來 7.1% 的AP提升,而兩者結合使用時效果最佳,證明了它們之間存在良好的協同作用。實驗還探討了PRN的迭代次數和ESSamp的深度乘子等超參數,為實現最佳性能提供了依據。
總結
CV君覺得,PRNet提出的“捍衛原始信息”的理念,為解決小目標檢測中的信息丟失問題提供了一個非常清晰且有效的思路。從信息傳遞的源頭和過程入手,通過巧妙的結構設計實現了“開源”和“節流”,最終在精度和效率上都取得了令人信服的結果。
大家對這個“返璞歸真”的思路怎么看?歡迎在評論區留下你的看法!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.