文章來源:我愛計算機視覺(ID:aicvml)
最近,SAM 3 以概念提示分割再次引起計算機視覺研究社區的注意。圖像分割技術,作為理解視覺世界的基石,正從為特定任務(如車輛分割、息肉分割、偽裝物體檢測)訓練的專用模型,邁向能夠“分割萬物”的通用大模型時代。今天,CV君將和大家一起,藉由三篇論文,回顧從專才模型到通用模型SAM系列的概念分割的技術演進。
在深入探討這些前沿技術之前,CV君覺得有必要先聊聊圖像分割領域里兩個核心概念的區分:上下文無關概念(Context-Independent, CI)與上下文依賴概念(Context-Dependent, CD)。
簡單來說,CI 概念指的是那些無論出現在什么場景下,其定義和識別特征都相對固定的物體,比如“人”、“汽車”、“飛機”等。它們的類別是固定的,不隨環境變化而改變。長久以來,多類別的語義分割領域主要關注的就是這類 Multi-CI 概念的分割。
而CD 概念則恰恰相反,它們的識別和理解嚴重依賴其所處的環境和上下文信息。例如,偽裝的物體、陰影、透明物體,以及醫學影像中的病灶等。這些概念的特點是,目標本身如果不結合周圍環境,就難以被準確識別。由于不同CD概念之間存在較大的領域/模態差異(domain/modality gap),長期以來,對CD概念的研究多是面向單一概念的“專才”范式。
![]()
本圖來自下述的Spider文
上圖展示了CI概念(如熊、船、巴士)與CD概念(如顯著物體、陰影、COVID-19感染病灶、息肉)在視覺上的對比。CI概念的分割目標清晰,而CD概念的分割則需要考慮其與周圍環境的互動。
研究業界論文可以發現,傳統的 Multi-CI 概念語義分割領域目前已明顯遇到瓶頸,而轉向 Multi-CD 概念分割,無疑是一個新的起點。如果能將這些復雜的CD概念統一起來,完成復雜的 Multi-CD 概念預測,將是進一步完善圖像分割范式的重要一步。畢竟,Multi-CI + Multi-CD 才是語義分割的完整構成。
接下來,就讓我們從 Spider 開始,看看這些模型是如何一步步探索 Multi-CD 概念分割的。
Spider:統一上下文依賴概念的分割專家
首先,讓我們回到2024年5月,一篇被ICML 2024錄用的論文為我們介紹了一位“專家”型選手。
![]()
論文標題: Spider: A Unified Framework for Context-dependent Concept Segmentation
錄用信息: ICML 2024
論文地址: https://arxiv.org/abs/2405.01002
在分割領域,有些概念的識別嚴重依賴其周圍的環境,比如偽裝的章魚、透明的玻璃杯或是醫學影像中的病灶。這些被稱為“上下文依賴(Context-Dependent)”概念。傳統方法通常為每一種任務都訓練一個“專才”模型,費時費力且難以泛化。
為了解決這個問題,來自大連理工大學的研究者們提出了一個名為Spider(蜘蛛)的統一模型。它能夠在一個復雜的網絡(語義空間)中,通過交錯的概念(任務領域和類別語義)精準地“爬”到任何感興趣的目標上。
![]()
Spider的核心思想
Spider的核心在于其獨特的“概念濾波器(Concept Filters)”機制。它接收一組“圖像-掩碼”對作為視覺提示(prompt),然后動態生成一個濾波器,指導模型在當前圖像中分割出與提示相似的概念。
如下圖所示,這種方法與之前工作的特征交互方式有所不同。Spider不只是簡單地融合特征,而是利用提示信息來生成一個動態的、針對特定概念的“篩子”,從而能更靈活地處理不同的分割任務。
![]()
整個流程可以概括為:
輸入 :待分割的目標圖像,以及一組包含同類概念的“圖像-掩碼”提示。
特征提取 :圖像和提示分別通過編碼器提取特征。
概念濾波 :利用提示特征生成前景和背景感知的查詢(queries),并通過一個動態生成的概念濾波器作用于解碼器的最后一層。
輸出 :精準的分割掩碼。
![]()
實驗效果如何?
Spider的表現非常亮眼。在一個包含8個不同上下文依賴分割任務(4個自然場景+4個醫學場景)的數據集上,Spider以單一模型顯著超越了當時最先進的8個“專才”模型。
![]()
從可視化結果中我們可以看到,無論是顯著性物體、偽裝物體,還是各種醫學病灶,Spider都能給出高質量的分割結果。
![]()
更令人印象深刻的是它的持續學習能力。當模型在T1-T4任務上預訓練后,可以持續微調以適應T5-T8的新任務,而舊任務的性能下降非常小。這證明了Spider框架的強大擴展性。
![]()
承前啟后:對SAM系列模型評估后的思考
Spider展示了統一模型的潛力,但它仍是一個“專家系統”。而幾乎同時期,以SAM(Segment Anything Model)為代表的“通才”基礎模型橫空出世,試圖“分割萬物”。那么,這些通用大模型在Spider所關注的“上下文依賴”這類精細任務上表現如何呢?
一篇于2024年12月提交給IJCV的論文延續了這一探索,建立了一個統一的評估框架,全面審視了SAM和SAM 2在11種不同上下文依賴概念上的表現。
![]()
論文標題: Inspiring the Next Generation of Segment Anything Models:Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes
投稿信息: IJCV 投稿
論文地址: https://arxiv.org/abs/2412.01240
這項工作更像是一次全面的“摸底考試”,它不僅評估了SAM系列,還為未來的類似SAM 3的分割模型探索了方向。
![]()
SAM vs SAM 2
在深入評估之前,我們先簡單回顧下SAM和SAM 2的結構差異。SAM 2引入了前一幀的預測結果作為額外輸入,增強了在視頻或序列數據上的表現。
![]()
“大一統”評估結果
研究者們在包括顯著物體、偽裝物體、陰影、透明物體、工業缺陷以及多種醫學病灶在內的圖像和視頻數據集上,對SAM和SAM 2進行了詳細的量化和質化評估。
![]()
![]()
結果發現,盡管SAM系列模型非常強大,但在很多需要深度上下文理解的任務上,它們的“零樣本”表現并不總是盡如人意。例如,在偽裝物體檢測和陰影檢測中,SAM的分割結果常常不完整或存在明顯錯誤。
下面是一些可視化對比,可以直觀地看到SAM和SAM 2在不同任務上的表現:
偽裝物體檢測 (上) vs. 陰影檢測 (下)![]()
![]()
透明物體分割 (上) vs. 工業表面異常檢測 (下)![]()
![]()
這項評估工作如同一面鏡子,照見了通用大模型在走向真正“萬能”的道路上,還需要在理解復雜、微妙的視覺概念方面繼續努力。這也為SAM 3等類似模型的登場埋下了伏筆。
范式躍進:SAM 3 的“概念分割”革命
時間快進到2025年10月,一篇投往ICLR 2026的論文揭開了SAM 3的神秘面紗。
![]()
論文標題: SAM 3: Segment Anything with Promptable Concept Segmentation
投稿信息: ICLR 2026 投稿
論文地址: https://openreview.net/forum?id=r35clVtGzw
SAM 3不僅在傳統的“可提示化視覺分割”(Promptable Visual Segmentation, PVS)任務(如通過點擊來分割物體)上超越了SAM 2,更帶來了一個全新的范式——“可提示化概念分割”(Promptable Concept Segmentation, PCS)。
![]()
這意味著,用戶現在可以通過一個簡短的名詞短語(如“a striped cat”)、一張示例圖片,或兩者的結合,來讓模型分割出圖像中所有屬于這個“概念”的實例。這無疑是向更高級、更智能的交互方式邁出的一大步。
值得注意的是,SAM 3的作者們在定義“可提示化概念分割”(PCS)任務時,也充分考慮到了我們之前討論的“上下文依賴”(Context-Dependent)概念所帶來的挑戰。他們在論文中明確指出,PCS任務本身具有內在的模糊性,因為其詞匯是開放的。例如,像“‘大的’圓圈”這樣的描述是主觀的,而一些短語甚至是依賴于上下文的(context-dependent phrases),比如“品牌標識”,可能根本無法在視覺上被明確“接地”(groundable)。
這表明,即使是像SAM 3這樣強大的通用模型,在邁向真正理解萬物的過程中,也必須正視和處理這些復雜的、依賴于具體情境才能準確界定的視覺概念。
![]()
SAM 3 的架構與數據引擎
為了實現這一飛躍,SAM 3在架構上進行了重要升級。它集成了一個“提示編碼器(Prompt Encoder)”,能夠理解文本和圖像示例,并將其轉化為模型可以利用的表征。
![]()
![]()
當然,強大的模型離不開海量、高質量的數據。SAM 3的背后是一個龐大的“數據引擎”,它通過一個多階段的流程,收集、標注和驗證了包含一個名為SA-Co(Segment Anything with Concepts)的超大規模數據集。
![]()
SAM 3 的驚人能力
SAM 3的能力是全方位的。在傳統的交互式分割基準上,它大幅超越了之前的模型。
![]()
更重要的是,在新的PCS任務上,SAM 3展現了強大的概念理解和泛化能力。它甚至可以作為一個智能體(Agent),與多模態大語言模型(MLLM)結合,完成復雜的推理分割任務。例如,當被要求“分割出所有舉起手的人”時,MLLM可以向SAM 3發出“手”和“人”的查詢,并分析返回的掩碼來得到最終答案。
總結與展望
從Spider的“專才多能”,到SAM系列的“萬物通才”,我們看到了一條清晰的技術演進路徑:
統一與泛化 :從為每個任務定制模型,到用一個統一框架解決一類問題(Spider)。
基礎模型崛起 :出現像SAM這樣,旨在解決所有分割問題的通用基礎模型。
評估與反思 :通過系統性評估,發現通用模型在特定細分領域的不足,為后續改進指明方向。
概念與交互 :最新的SAM 3引入了對“概念”的理解,將交互從“點”和“框”提升到了“語義”層面,實現了新的飛躍。
這條路還遠未到終點。如何讓模型更好地理解模糊、抽象甚至帶有主觀性的概念?如何進一步降低對海量標注數據的依賴?這些都是未來值得探索的方向。
大家對這個技術演進路線怎么看?你覺得“概念分割”的未來會用在哪些有趣的場景?一起來聊聊吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.