來源:我愛計算機視覺
在工業(yè)視覺檢測中,零樣本異常檢測 (ZSAD) 是個理想的“圣杯”——無需目標域訓練,直接上手就能檢。然而,現有的基于 VLM(如 CLIP)的方法往往面臨兩難:CLIP 擅長全局語義(懂什么是“瓶子”),但對細微的劃痕、裂紋等局部結構“視而不見”。
北京郵電大學和中國電信人工智能研究院 (TeleAI) 的研究團隊提出了 SSVP (Synergistic Semantic-Visual Prompting) 框架。他們不僅引入了 DINOv3 來補充細粒度視覺特征,更通過一種深度的“語義-視覺協同”機制,讓 Prompt 不再是死板的文本,而是能根據視覺內容動態(tài)變化的“靈動指令”。
該方法在 MVTec-AD 上達到了 93.0% 的 Image-AUROC,橫掃 7 個主流工業(yè)數據集,刷新了 SOTA!
![]()
論文標題 : SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection
論文地址 : https://arxiv.org/abs/2601.09147
機構 : 北京郵電大學, 中國電信人工智能研究院 (TeleAI)
傳統(tǒng)的 ZSAD 方法(如 WinCLIP)喜歡用簡單的加權融合來結合 CLIP 和視覺特征,這種“淺層融合”就像是用膠水硬粘,雖然勉強能用,但沒法解決核心矛盾:
語義太泛 :CLIP 的特征太高級,容易忽略工業(yè)場景中至關重要的紋理細節(jié)。
Prompt死板 :現有的 Prompt 生成(甚至單純的概率式生成)缺乏視覺條件的強約束,導致生成的文本指令“對牛彈琴”,無法精準錨定特定的異常模式。
全局與局部割裂 :全局打分往往被大面積的背景噪聲掩蓋,漏掉微小的缺陷。
如下圖所示,SSVP 提出了一種基于“深度協同流”的新范式,這里的 Prompt 生成是視覺條件 (Vision-Conditioned) 的,真正做到了“看圖說話”。
![]()
02 方法詳解:SSVP 三重奏
SSVP 的架構(圖2)設計得非常精巧,主要由三個模塊組成,分別解決上述三個痛點。
![]()
2.1 層級語義-視覺協同 (HSVS)
這是基礎底座。作者引入了DINOv3作為"視覺專家"來補充 CLIP 的細粒度結構特征。核心組件是自適應Token特征融合(ATF)模塊。
它首先將 CLIP 和 DINOv3 的局部特征投影到共享子空間:
然后通過雙路交叉注意力(Bi-Attn)顯式注入結構先驗。比如,用 CLIP 的語義去查詢 DINO 的結構細節(jié):
最終,將雙向交互的特征拼接并融合,生成兼具語義理解和結構感知的協同特征 :
2.2 視覺條件 Prompt 生成器 (VCPG)
傳統(tǒng)的 Prompt 是"靜態(tài)"的,SSVP 則讓 Prompt"看圖說話"。VCPG 引入了VAE(變分自編碼器)來對視覺特征的分布進行建模。
潛變量建模 :編碼器 從協同特征中預測分布參數,并利用重參數化技巧采樣出 視覺隱變量(Visual Latent Bias) :
動態(tài)注入 :通過交叉注意力(Text-Latent Cross-Attention),讓文本 Embedding 根據 進行動態(tài)調整,生成視覺增強的殘差 ,并通過門控標量 注入:
這意味著,如果圖中有疑似裂紋,Prompt 就會在特征空間中向"裂紋"語義偏移。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.