在自動駕駛的視覺系統中,如何讓AI準確識別出街景中"卡車的窗戶"而不是誤判為"汽車"?在醫療影像分析時,怎樣讓模型僅憑部分圖像就能推斷出完整的病灶區域?今天要給大家介紹的這項研究,或許能給出完美答案。
來自國內高校的研究團隊提出了一種名為DMSI(雙級掩碼語義推理)的全新框架,在半監督語義分割任務中刷新了多項SOTA記錄。更厲害的是,它讓模型真正學會了"上下文推理"——就像人類看到半遮半掩的物體時,能根據周圍環境猜出全貌一樣。
論文信息 題目:Dual-Level Masked Semantic Inference for Semi-Supervised Semantic Segmentation 半監督語義分割的雙層掩碼語義推理 作者:Qiankun Ma, Ziyao Zhang, Pengchong Qiao, Yu Wang, Rongrong Ji, Chang Liu, Jie Chen 為什么現有模型總是"犯糊涂"?
傳統的半監督語義分割方法有個致命弱點:它們只關注單個像素的預測是否穩定,卻忽略了像素之間的"鄰里關系"。
就像下面這個例子,普通模型會把卡車的窗戶誤判為汽車,因為它只看局部像素的顏色和紋理,沒意識到"窗戶"周圍都是"卡車"的部件。這種"只見樹木不見森林"的認知方式,在復雜場景中很容易出錯。
![]()
而人類在識別物體時,總會不自覺地利用上下文信息:看到車輪就想到汽車,看到枝葉就聯想到樹木。DMSI的核心創新,就是讓AI也具備這種"聯想推理"能力。
DMSI框架:讓模型學會"猜謎"的三大絕招
研究團隊提出的DMSI框架,用"掩碼后推理"的思路徹底改變了模型的學習方式。簡單說就是:故意遮住圖像的一部分,逼模型根據剩下的部分猜被遮住的內容。整個框架就像一個嚴格的老師,通過不斷"出題考學生",讓模型逐漸學會利用上下文線索。
絕招一:雙級掩碼一致性正則化(DMCR)
這個機制就像給模型布置兩種難度的"填空題":
圖像級掩碼 :直接在原圖上遮掉一塊,讓模型根據剩余像素猜被遮區域(類似我們玩的"看圖猜物")
特征級掩碼 :在模型處理圖像的中間特征層遮掉一部分,迫使模型從高層語義中找線索
通過這兩種訓練方式,模型既能學到顏色、紋理等低級特征,又能掌握物體關系等高級語義。實驗證明,這種雙管齊下的方法比單一掩碼方式性能提升1.5%。
絕招二:自適應掩碼位置(AMP)——專挑"重點區域"考
普通的掩碼方法隨機遮圖,經常把無關緊要的背景區域遮住,白費功夫。AMP則像個精明的老師,專挑"難點"考:
先把圖像分成若干個小補丁
計算每個補丁的"不確定性"(模型最容易認錯的區域)
優先遮掉那些語義豐富的前景區域(比如汽車、行人)
從下面的對比可以看出,AMP會智能地避開天空、道路等簡單背景,專門針對卡車、公交車等難識別的物體進行掩碼訓練。
![]()
絕招三:自適應掩碼比例(AMR)——因材施教的智慧
就像老師不會給差生出太難的題,AMR會根據圖像的"難易程度"調整掩碼比例:
對容易識別的圖像(模型預測準確度高):遮得多一點,逼模型挑戰極限
對難識別的圖像(模型經常出錯):遮得少一點,避免打擊學習積極性
隨著訓練進展,當模型對某張圖的識別越來越準,AMR會自動提高掩碼比例,就像學生進步了,老師會增加作業難度一樣。
![]()
方法全貌:DMSI的工作流程
整個框架采用師生訓練模式,通過四個關鍵步驟實現語義推理能力的培養:
教師模型對原圖進行完整預測,生成高置信度的"參考答案"
AdaMask根據圖像特點,智能生成掩碼位置和比例
學生模型分別對"掩碼圖像"和"掩碼特征"進行預測
通過損失函數讓學生的預測結果與教師的"參考答案"對齊
這種訓練方式讓模型被迫養成"找上下文線索"的習慣,就像我們做填空題時會下意識地聯系前后文一樣。
![]()
實驗結果:刷新四大數據集SOTA
在多個權威數據集上,DMSI都展現出壓倒性優勢:
PASCAL VOC 2012 :在僅用92張標注圖像的極端情況下,比之前最好的方法高出3.7%
Cityscapes :使用ResNet-101作為骨干網絡時,所有劃分協議下均領先2%左右
MS COCO :在這個包含81類物體的復雜數據集上,全面超越PseudoSeg和UniMatch
ADE20K :在150個類別的場景解析任務中,顯著優于AEL等現有方法
特別值得注意的是,在標注數據越少的情況下,DMSI的優勢越明顯,這意味著它能大幅降低對標注數據的依賴,在實際應用中能節省大量標注成本。
為什么DMSI如此強大?
通過深入分析,研究團隊發現了DMSI性能飛躍的兩個關鍵原因:
1. 像素間的"信息交流"更頻繁
用互信息(MI)指標衡量發現,DMSI模型中像素之間的信息交互明顯增強。同類像素(比如卡車的各個部件)之間的"默契度"更高,能互相提供識別線索。
![]()
2. 抗干擾能力顯著提升
在加入高斯噪聲、對抗性噪聲甚至隨機掩碼的情況下,DMSI的性能下降幅度遠小于傳統方法。這是因為它不是依賴單個像素的特征,而是綜合了周圍像素的上下文信息,就像多人作證比單人作證更可靠一樣。
![]()
實際應用價值與局限
DMSI的創新思路不僅限于語義分割,還能應用到更廣泛的領域:
自動駕駛:在雨天、逆光等惡劣條件下,仍能通過上下文推理準確識別物體
醫療影像:僅憑部分清晰區域就能推斷完整病灶,減少漏診誤診
遙感圖像分析:在云層遮擋情況下,仍能識別地面目標
當然,這個方法也有局限性——由于需要進行兩次前向傳播,訓練時間比傳統方法增加約15%。但考慮到性能的巨大提升,這點代價在大多數場景下是值得的。
結語:從"看見"到"理解"的跨越
DMSI的成功證明了一個重要觀點:計算機視覺不僅要讓模型"看見"像素,更要讓它"理解"場景中各元素的關系。這種從"語義理解"到"語義推理"的跨越,或許是AI視覺系統走向真正智能的關鍵一步。
未來,研究團隊計劃將這種上下文推理能力擴展到跨圖像場景,讓模型能從多張圖片中學習更復雜的語義關系。讓我們期待這個方向能帶來更多突破性進展!
文章來源:計算機書童。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.