<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從“Spider”到SAM 3:概念提示分割小考

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      最近,SAM 3 以概念提示分割再次引起計算機視覺研究社區的注意。圖像分割技術,作為理解視覺世界的基石,正從為特定任務(如車輛分割、息肉分割、偽裝物體檢測)訓練的專用模型,邁向能夠“分割萬物”的通用大模型時代。今天,CV君將和大家一起,藉由三篇論文,回顧從專才模型到通用模型SAM系列的概念分割的技術演進。

      在深入探討這些前沿技術之前,CV君覺得有必要先聊聊圖像分割領域里兩個核心概念的區分:上下文無關概念(Context-Independent, CI)上下文依賴概念(Context-Dependent, CD)

      簡單來說,CI 概念指的是那些無論出現在什么場景下,其定義和識別特征都相對固定的物體,比如“人”、“汽車”、“飛機”等。它們的類別是固定的,不隨環境變化而改變。長久以來,多類別的語義分割領域主要關注的就是這類 Multi-CI 概念的分割。

      CD 概念則恰恰相反,它們的識別和理解嚴重依賴其所處的環境和上下文信息。例如,偽裝的物體、陰影、透明物體,以及醫學影像中的病灶等。這些概念的特點是,目標本身如果不結合周圍環境,就難以被準確識別。由于不同CD概念之間存在較大的領域/模態差異(domain/modality gap),長期以來,對CD概念的研究多是面向單一概念的“專才”范式。


      本圖來自下述的Spider文

      上圖展示了CI概念(如熊、船、巴士)與CD概念(如顯著物體、陰影、COVID-19感染病灶、息肉)在視覺上的對比。CI概念的分割目標清晰,而CD概念的分割則需要考慮其與周圍環境的互動。

      研究業界論文可以發現,傳統的 Multi-CI 概念語義分割領域目前已明顯遇到瓶頸,而轉向 Multi-CD 概念分割,無疑是一個新的起點。如果能將這些復雜的CD概念統一起來,完成復雜的 Multi-CD 概念預測,將是進一步完善圖像分割范式的重要一步。畢竟,Multi-CI + Multi-CD 才是語義分割的完整構成。

      接下來,就讓我們從 Spider 開始,看看這些模型是如何一步步探索 Multi-CD 概念分割的。

      Spider:統一上下文依賴概念的分割專家

      首先,讓我們回到2024年5月,一篇被ICML 2024錄用的論文為我們介紹了一位“專家”型選手。



      • 論文標題: Spider: A Unified Framework for Context-dependent Concept Segmentation

      • 錄用信息: ICML 2024

      • 論文地址: https://arxiv.org/abs/2405.01002

      在分割領域,有些概念的識別嚴重依賴其周圍的環境,比如偽裝的章魚、透明的玻璃杯或是醫學影像中的病灶。這些被稱為“上下文依賴(Context-Dependent)”概念。傳統方法通常為每一種任務都訓練一個“專才”模型,費時費力且難以泛化。

      為了解決這個問題,來自大連理工大學的研究者們提出了一個名為Spider(蜘蛛)的統一模型。它能夠在一個復雜的網絡(語義空間)中,通過交錯的概念(任務領域和類別語義)精準地“爬”到任何感興趣的目標上。


      Spider的核心思想

      Spider的核心在于其獨特的“概念濾波器(Concept Filters)”機制。它接收一組“圖像-掩碼”對作為視覺提示(prompt),然后動態生成一個濾波器,指導模型在當前圖像中分割出與提示相似的概念。

      如下圖所示,這種方法與之前工作的特征交互方式有所不同。Spider不只是簡單地融合特征,而是利用提示信息來生成一個動態的、針對特定概念的“篩子”,從而能更靈活地處理不同的分割任務。


      整個流程可以概括為:

      1. 輸入 :待分割的目標圖像,以及一組包含同類概念的“圖像-掩碼”提示。

      2. 特征提取 :圖像和提示分別通過編碼器提取特征。

      3. 概念濾波 :利用提示特征生成前景和背景感知的查詢(queries),并通過一個動態生成的概念濾波器作用于解碼器的最后一層。

      4. 輸出 :精準的分割掩碼。


      實驗效果如何?

      Spider的表現非常亮眼。在一個包含8個不同上下文依賴分割任務(4個自然場景+4個醫學場景)的數據集上,Spider以單一模型顯著超越了當時最先進的8個“專才”模型


      從可視化結果中我們可以看到,無論是顯著性物體、偽裝物體,還是各種醫學病灶,Spider都能給出高質量的分割結果。


      更令人印象深刻的是它的持續學習能力。當模型在T1-T4任務上預訓練后,可以持續微調以適應T5-T8的新任務,而舊任務的性能下降非常小。這證明了Spider框架的強大擴展性。


      承前啟后:對SAM系列模型評估后的思考

      Spider展示了統一模型的潛力,但它仍是一個“專家系統”。而幾乎同時期,以SAM(Segment Anything Model)為代表的“通才”基礎模型橫空出世,試圖“分割萬物”。那么,這些通用大模型在Spider所關注的“上下文依賴”這類精細任務上表現如何呢?

      一篇于2024年12月提交給IJCV的論文延續了這一探索,建立了一個統一的評估框架,全面審視了SAM和SAM 2在11種不同上下文依賴概念上的表現。



      • 論文標題: Inspiring the Next Generation of Segment Anything Models:Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes

      • 投稿信息: IJCV 投稿

      • 論文地址: https://arxiv.org/abs/2412.01240

      這項工作更像是一次全面的“摸底考試”,它不僅評估了SAM系列,還為未來的類似SAM 3的分割模型探索了方向。


      SAM vs SAM 2

      在深入評估之前,我們先簡單回顧下SAM和SAM 2的結構差異。SAM 2引入了前一幀的預測結果作為額外輸入,增強了在視頻或序列數據上的表現。


      “大一統”評估結果

      研究者們在包括顯著物體、偽裝物體、陰影、透明物體、工業缺陷以及多種醫學病灶在內的圖像和視頻數據集上,對SAM和SAM 2進行了詳細的量化和質化評估。



      結果發現,盡管SAM系列模型非常強大,但在很多需要深度上下文理解的任務上,它們的“零樣本”表現并不總是盡如人意。例如,在偽裝物體檢測和陰影檢測中,SAM的分割結果常常不完整或存在明顯錯誤。

      下面是一些可視化對比,可以直觀地看到SAM和SAM 2在不同任務上的表現:

      偽裝物體檢測 (上) vs. 陰影檢測 (下)


      透明物體分割 (上) vs. 工業表面異常檢測 (下)


      這項評估工作如同一面鏡子,照見了通用大模型在走向真正“萬能”的道路上,還需要在理解復雜、微妙的視覺概念方面繼續努力。這也為SAM 3等類似模型的登場埋下了伏筆。

      范式躍進:SAM 3 的“概念分割”革命

      時間快進到2025年10月,一篇投往ICLR 2026的論文揭開了SAM 3的神秘面紗。



      • 論文標題: SAM 3: Segment Anything with Promptable Concept Segmentation

      • 投稿信息: ICLR 2026 投稿

      • 論文地址: https://openreview.net/forum?id=r35clVtGzw

      SAM 3不僅在傳統的“可提示化視覺分割”(Promptable Visual Segmentation, PVS)任務(如通過點擊來分割物體)上超越了SAM 2,更帶來了一個全新的范式——“可提示化概念分割”(Promptable Concept Segmentation, PCS)


      這意味著,用戶現在可以通過一個簡短的名詞短語(如“a striped cat”)、一張示例圖片,或兩者的結合,來讓模型分割出圖像中所有屬于這個“概念”的實例。這無疑是向更高級、更智能的交互方式邁出的一大步。

      值得注意的是,SAM 3的作者們在定義“可提示化概念分割”(PCS)任務時,也充分考慮到了我們之前討論的“上下文依賴”(Context-Dependent)概念所帶來的挑戰。他們在論文中明確指出,PCS任務本身具有內在的模糊性,因為其詞匯是開放的。例如,像“‘大的’圓圈”這樣的描述是主觀的,而一些短語甚至是依賴于上下文的(context-dependent phrases),比如“品牌標識”,可能根本無法在視覺上被明確“接地”(groundable)。

      這表明,即使是像SAM 3這樣強大的通用模型,在邁向真正理解萬物的過程中,也必須正視和處理這些復雜的、依賴于具體情境才能準確界定的視覺概念。


      SAM 3 的架構與數據引擎

      為了實現這一飛躍,SAM 3在架構上進行了重要升級。它集成了一個“提示編碼器(Prompt Encoder)”,能夠理解文本和圖像示例,并將其轉化為模型可以利用的表征。



      當然,強大的模型離不開海量、高質量的數據。SAM 3的背后是一個龐大的“數據引擎”,它通過一個多階段的流程,收集、標注和驗證了包含一個名為SA-Co(Segment Anything with Concepts)的超大規模數據集。


      SAM 3 的驚人能力

      SAM 3的能力是全方位的。在傳統的交互式分割基準上,它大幅超越了之前的模型。


      更重要的是,在新的PCS任務上,SAM 3展現了強大的概念理解和泛化能力。它甚至可以作為一個智能體(Agent),與多模態大語言模型(MLLM)結合,完成復雜的推理分割任務。例如,當被要求“分割出所有舉起手的人”時,MLLM可以向SAM 3發出“手”和“人”的查詢,并分析返回的掩碼來得到最終答案。

      總結與展望

      從Spider的“專才多能”,到SAM系列的“萬物通才”,我們看到了一條清晰的技術演進路徑:

      1. 統一與泛化 :從為每個任務定制模型,到用一個統一框架解決一類問題(Spider)。

      2. 基礎模型崛起 :出現像SAM這樣,旨在解決所有分割問題的通用基礎模型。

      3. 評估與反思 :通過系統性評估,發現通用模型在特定細分領域的不足,為后續改進指明方向。

      4. 概念與交互 :最新的SAM 3引入了對“概念”的理解,將交互從“點”和“框”提升到了“語義”層面,實現了新的飛躍。

      這條路還遠未到終點。如何讓模型更好地理解模糊、抽象甚至帶有主觀性的概念?如何進一步降低對海量標注數據的依賴?這些都是未來值得探索的方向。

      大家對這個技術演進路線怎么看?你覺得“概念分割”的未來會用在哪些有趣的場景?一起來聊聊吧!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      何晴去世不到24小時,惡心事發生!私生活被詬病,網友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      廣西54歲李某甘蔗地殺2女后續!10萬懸賞追逃,當地人曝更多內幕

      奇思妙想草葉君
      2025-12-14 21:46:07
      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發!澤連斯基,妥協了!一切結束了!

      突發!澤連斯基,妥協了!一切結束了!

      財經要參
      2025-12-15 13:18:38
      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      人社部定調!穩步提高社會保障待遇水平,2026年養老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現狀

      黃河新流域
      2025-09-28 13:34:43
      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      被全網瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      何晴離世消息曝光不到24小時,惡心的一幕出現了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發動戰爭

      泠泠說史
      2025-12-15 18:05:17
      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      西方內訌升級:英銀行家集體反水威脅撤出俄資產

      夢想的現實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:44:49
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5267文章數 64595關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      本地
      旅游
      游戲
      數碼
      公開課

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      旅游要聞

      跨年夜京城將上演鐘鼓齊鳴

      當手機能自動清每日任務,玩家天天上線是為了什么?

      數碼要聞

      藍寶石喊話AMD等GPU制造商:給我們芯片和顯存,放開設計自由

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 三级国产在线观看| 人妻有码中文字幕| 精品国产自线午夜福利| www.jizzjizz| 嘉荫县| 欧美精品亚洲精品日韩专区| 亚洲韩国精品无码一区二区三区| 国产av亚洲精品ai换脸电影| 第一福利在线视频| 亚洲日本在线电影| 亚洲日韩乱码中文无码蜜桃臀| 中文字幕久久久久人妻| 碰碰免费视频| 南昌市| 老熟妇仑乱一区二区视頻| 亚洲无码影视| 男人天堂一区二区| 天天澡天天狠天天天做| 邻居少妇张开腿让我爽了一夜| 日韩乱码人妻无码中文字幕| 又粗又大网站| 人妻专区中文字幕| 性欧美老人牲交xxxxx视频 | 成熟丰满熟妇高潮xxxxx| 思思热在线视频精品| 色色色资源| 国产在线视频www色| 久久亚洲精品成人无码网站 | 亚洲色大网站www永久网站| 久久精品中文字幕少妇| AV白浆| 男人和女人做爽爽视频| 久久综合噜噜激激的五月天| 亚洲色图自拍| 综艺| 日本丰满熟妇hd| 欧洲尺码日本尺码专线美国又| 亚洲熟女性视频| 亚洲综合成人网| 成人欧美一区二区三区1314| 欧美日韩亚洲国产|