網易首頁 > 網易號 > 正文申請入駐

從“Spider”到SAM 3：概念提示分割小考

2025-10-25 21:55:35　來源: 算法與數學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

最近，SAM 3 以概念提示分割再次引起計算機視覺研究社區的注意。圖像分割技術，作為理解視覺世界的基石，正從為特定任務（如車輛分割、息肉分割、偽裝物體檢測）訓練的專用模型，邁向能夠“分割萬物”的通用大模型時代。今天，CV君將和大家一起，藉由三篇論文，回顧從專才模型到通用模型SAM系列的概念分割的技術演進。

在深入探討這些前沿技術之前，CV君覺得有必要先聊聊圖像分割領域里兩個核心概念的區分：上下文無關概念（Context-Independent, CI）與上下文依賴概念（Context-Dependent, CD）。

簡單來說，CI 概念指的是那些無論出現在什么場景下，其定義和識別特征都相對固定的物體，比如“人”、“汽車”、“飛機”等。它們的類別是固定的，不隨環境變化而改變。長久以來，多類別的語義分割領域主要關注的就是這類 Multi-CI 概念的分割。

而CD 概念則恰恰相反，它們的識別和理解嚴重依賴其所處的環境和上下文信息。例如，偽裝的物體、陰影、透明物體，以及醫學影像中的病灶等。這些概念的特點是，目標本身如果不結合周圍環境，就難以被準確識別。由于不同CD概念之間存在較大的領域/模態差異（domain/modality gap），長期以來，對CD概念的研究多是面向單一概念的“專才”范式。

本圖來自下述的Spider文

上圖展示了CI概念（如熊、船、巴士）與CD概念（如顯著物體、陰影、COVID-19感染病灶、息肉）在視覺上的對比。CI概念的分割目標清晰，而CD概念的分割則需要考慮其與周圍環境的互動。

研究業界論文可以發現，傳統的 Multi-CI 概念語義分割領域目前已明顯遇到瓶頸，而轉向 Multi-CD 概念分割，無疑是一個新的起點。如果能將這些復雜的CD概念統一起來，完成復雜的 Multi-CD 概念預測，將是進一步完善圖像分割范式的重要一步。畢竟，Multi-CI + Multi-CD 才是語義分割的完整構成。

接下來，就讓我們從 Spider 開始，看看這些模型是如何一步步探索 Multi-CD 概念分割的。

Spider：統一上下文依賴概念的分割專家

首先，讓我們回到2024年5月，一篇被ICML 2024錄用的論文為我們介紹了一位“專家”型選手。

論文標題： Spider: A Unified Framework for Context-dependent Concept Segmentation
錄用信息： ICML 2024
論文地址： https://arxiv.org/abs/2405.01002

在分割領域，有些概念的識別嚴重依賴其周圍的環境，比如偽裝的章魚、透明的玻璃杯或是醫學影像中的病灶。這些被稱為“上下文依賴（Context-Dependent）”概念。傳統方法通常為每一種任務都訓練一個“專才”模型，費時費力且難以泛化。

為了解決這個問題，來自大連理工大學的研究者們提出了一個名為Spider（蜘蛛）的統一模型。它能夠在一個復雜的網絡（語義空間）中，通過交錯的概念（任務領域和類別語義）精準地“爬”到任何感興趣的目標上。

Spider的核心思想

Spider的核心在于其獨特的“概念濾波器（Concept Filters）”機制。它接收一組“圖像-掩碼”對作為視覺提示（prompt），然后動態生成一個濾波器，指導模型在當前圖像中分割出與提示相似的概念。

如下圖所示，這種方法與之前工作的特征交互方式有所不同。Spider不只是簡單地融合特征，而是利用提示信息來生成一個動態的、針對特定概念的“篩子”，從而能更靈活地處理不同的分割任務。

整個流程可以概括為：

輸入：待分割的目標圖像，以及一組包含同類概念的“圖像-掩碼”提示。
特征提取 ：圖像和提示分別通過編碼器提取特征。
概念濾波 ：利用提示特征生成前景和背景感知的查詢（queries），并通過一個動態生成的概念濾波器作用于解碼器的最后一層。
輸出：精準的分割掩碼。

實驗效果如何？

Spider的表現非常亮眼。在一個包含8個不同上下文依賴分割任務（4個自然場景+4個醫學場景）的數據集上，Spider以單一模型顯著超越了當時最先進的8個“專才”模型。

從可視化結果中我們可以看到，無論是顯著性物體、偽裝物體，還是各種醫學病灶，Spider都能給出高質量的分割結果。

更令人印象深刻的是它的持續學習能力。當模型在T1-T4任務上預訓練后，可以持續微調以適應T5-T8的新任務，而舊任務的性能下降非常小。這證明了Spider框架的強大擴展性。

承前啟后：對SAM系列模型評估后的思考

Spider展示了統一模型的潛力，但它仍是一個“專家系統”。而幾乎同時期，以SAM（Segment Anything Model）為代表的“通才”基礎模型橫空出世，試圖“分割萬物”。那么，這些通用大模型在Spider所關注的“上下文依賴”這類精細任務上表現如何呢？

一篇于2024年12月提交給IJCV的論文延續了這一探索，建立了一個統一的評估框架，全面審視了SAM和SAM 2在11種不同上下文依賴概念上的表現。

論文標題： Inspiring the Next Generation of Segment Anything Models：Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes
投稿信息： IJCV 投稿
論文地址： https://arxiv.org/abs/2412.01240

這項工作更像是一次全面的“摸底考試”，它不僅評估了SAM系列，還為未來的類似SAM 3的分割模型探索了方向。

SAM vs SAM 2

在深入評估之前，我們先簡單回顧下SAM和SAM 2的結構差異。SAM 2引入了前一幀的預測結果作為額外輸入，增強了在視頻或序列數據上的表現。

“大一統”評估結果

研究者們在包括顯著物體、偽裝物體、陰影、透明物體、工業缺陷以及多種醫學病灶在內的圖像和視頻數據集上，對SAM和SAM 2進行了詳細的量化和質化評估。

結果發現，盡管SAM系列模型非常強大，但在很多需要深度上下文理解的任務上，它們的“零樣本”表現并不總是盡如人意。例如，在偽裝物體檢測和陰影檢測中，SAM的分割結果常常不完整或存在明顯錯誤。

下面是一些可視化對比，可以直觀地看到SAM和SAM 2在不同任務上的表現：

偽裝物體檢測 (上) vs. 陰影檢測 (下)

透明物體分割 (上) vs. 工業表面異常檢測 (下)

這項評估工作如同一面鏡子，照見了通用大模型在走向真正“萬能”的道路上，還需要在理解復雜、微妙的視覺概念方面繼續努力。這也為SAM 3等類似模型的登場埋下了伏筆。

范式躍進：SAM 3 的“概念分割”革命

時間快進到2025年10月，一篇投往ICLR 2026的論文揭開了SAM 3的神秘面紗。

論文標題： SAM 3: Segment Anything with Promptable Concept Segmentation
投稿信息： ICLR 2026 投稿
論文地址： https://openreview.net/forum?id=r35clVtGzw

SAM 3不僅在傳統的“可提示化視覺分割”（Promptable Visual Segmentation, PVS）任務（如通過點擊來分割物體）上超越了SAM 2，更帶來了一個全新的范式——“可提示化概念分割”（Promptable Concept Segmentation, PCS）。

這意味著，用戶現在可以通過一個簡短的名詞短語（如“a striped cat”）、一張示例圖片，或兩者的結合，來讓模型分割出圖像中所有屬于這個“概念”的實例。這無疑是向更高級、更智能的交互方式邁出的一大步。

值得注意的是，SAM 3的作者們在定義“可提示化概念分割”（PCS）任務時，也充分考慮到了我們之前討論的“上下文依賴”（Context-Dependent）概念所帶來的挑戰。他們在論文中明確指出，PCS任務本身具有內在的模糊性，因為其詞匯是開放的。例如，像“‘大的’圓圈”這樣的描述是主觀的，而一些短語甚至是依賴于上下文的（context-dependent phrases），比如“品牌標識”，可能根本無法在視覺上被明確“接地”（groundable）。

這表明，即使是像SAM 3這樣強大的通用模型，在邁向真正理解萬物的過程中，也必須正視和處理這些復雜的、依賴于具體情境才能準確界定的視覺概念。

SAM 3 的架構與數據引擎

為了實現這一飛躍，SAM 3在架構上進行了重要升級。它集成了一個“提示編碼器（Prompt Encoder）”，能夠理解文本和圖像示例，并將其轉化為模型可以利用的表征。

當然，強大的模型離不開海量、高質量的數據。SAM 3的背后是一個龐大的“數據引擎”，它通過一個多階段的流程，收集、標注和驗證了包含一個名為SA-Co（Segment Anything with Concepts）的超大規模數據集。

SAM 3 的驚人能力

SAM 3的能力是全方位的。在傳統的交互式分割基準上，它大幅超越了之前的模型。

更重要的是，在新的PCS任務上，SAM 3展現了強大的概念理解和泛化能力。它甚至可以作為一個智能體（Agent），與多模態大語言模型（MLLM）結合，完成復雜的推理分割任務。例如，當被要求“分割出所有舉起手的人”時，MLLM可以向SAM 3發出“手”和“人”的查詢，并分析返回的掩碼來得到最終答案。

總結與展望

從Spider的“專才多能”，到SAM系列的“萬物通才”，我們看到了一條清晰的技術演進路徑：

統一與泛化 ：從為每個任務定制模型，到用一個統一框架解決一類問題（Spider）。
基礎模型崛起 ：出現像SAM這樣，旨在解決所有分割問題的通用基礎模型。
評估與反思 ：通過系統性評估，發現通用模型在特定細分領域的不足，為后續改進指明方向。
概念與交互 ：最新的SAM 3引入了對“概念”的理解，將交互從“點”和“框”提升到了“語義”層面，實現了新的飛躍。

這條路還遠未到終點。如何讓模型更好地理解模糊、抽象甚至帶有主觀性的概念？如何進一步降低對海量標注數據的依賴？這些都是未來值得探索的方向。

大家對這個技術演進路線怎么看？你覺得“概念分割”的未來會用在哪些有趣的場景？一起來聊聊吧！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.