![]()
上下文分割(In-Context Segmentation)旨在通過參考示例指導模型實現對特定目標的自動化分割。盡管 SAM 憑借卓越的零樣本泛化能力為此提供了強大的基礎,但將其應用于此仍受限于提示(如點或框)構建,這樣的需求不僅制約了批量推理的自動化效率,更使得模型在處理復雜的連續視頻時,難以維持時空一致性。
北京郵電大學聯合南洋理工大學等機構發表的 IEEE TPAMI 期刊論文《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》,不僅為圖像和視頻的上下文分割建立了統一的高效框架DC-SAM,還構建了首個視頻上下文分割基準IC-VOS
研究團隊巧妙地提出基于提示微調的 “循環一致性” 機制,通過正負雙分支與循環一致性注意力的協同,配合 Mask-Tube 策略,實現了 SAM 與 SAM2 在圖像及視頻上下文分割任務上的統一與高效適配。
實驗結果顯示,DC-SAM 在多個基準測試中均取得了 SOTA 性能:在 COCO-20i 上達到 55.5 mIoU,在 Pascal-5i 上達到 73.0 mIoU;在新建的 IC-VOS 視頻基準上,J&F 得分高達 71.52,顯著優于現有方法。該篇論文已被IEEE TPAMI錄用。
![]()
- 論文標題:DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
- 論文鏈接:https://arxiv.org/pdf/2504.12080
- 代碼鏈接:https://github.com/zaplm/DC-SAM
研究背景
近年來,以 SAM 和 SAM2 為代表的視覺基礎模型憑借海量訓練數據,展現了卓越的交互式分割能力,已成為醫學影像、開放詞匯分割等下游任務的強大基石。然而,盡管 SAM 在 “分割一切” 上表現出色,卻缺乏 “上下文分割”(In-Context Segmentation)的能力 —— 即無法僅憑一張參考示例(Support Image)及其掩碼,自動在查詢圖像(Query Image)中分割出同類目標。
為了彌補這一短板,早期的少樣本學習方法多依賴度量學習,但泛化能力有限。雖然 SegGPT 等通用模型通過大規模圖文對訓練實現了上下文分割,但其計算資源消耗巨大。相比之下,提示微調(Prompt Tuning)提供了一條高效路徑。然而,現有的 SAM 適配方法(如 VRP-SAM)主要依賴骨干網絡提取的通用特征,忽略了 SAM 自身提示編碼器(Prompt Encoder)的特征特性,且往往未能充分利用背景(負樣本)信息來約束分割邊界,導致生成的提示精度不足。
此外,視頻領域的上下文分割研究尚處于空白階段。現有的視頻分割基準(如 DAVIS、MOSE)主要側重于給定首幀掩碼的半監督跟蹤任務,缺乏評估 “基于參考示例進行視頻分割” 能力的專用基準。
針對上述挑戰,研究團隊推出了首個視頻上下文分割基準 IC-VOS,并同步提出了DC-SAM 框架。該框架旨在通過提示微調技術,將 SAM 與 SAM2 的能力無縫遷移至這一新任務,實現了統一高效的圖像與視頻上下文分割。
![]()
DC-SAM與現有方法的對比圖。 a) 方法對比圖,b) 預測可視化對比圖,c)得分對比圖。
IC-VOS:首個面向上下文視頻分割的大規模基準數據集
在研究過程中,研究團隊發現該領域缺乏一個專門用于評估 “上下文視頻對象分割” 的統一基準。現有的 VOS 數據集大多側重于第一幀掩碼的追蹤,而傳統的 Few-shot 圖像數據集則完全丟失了時間維度。
為了填補這一空白,研究團隊推出了IC-VOS (In-Context Video Object Segmentation) 數據集。這是首個旨在全面衡量模型在視頻上下文中學習能力的數據集。IC-VOS 涵蓋了極其豐富的場景,包括極小目標分割、快速運動變形以及復雜背景融合等。
![]()
IC-VOS 分割基準:a) 數據來源,b) 詞云圖,c) 類別分布,d) 示例樣本。
DC-SAM 框架
DC-SAM 框架由三個核心部分組成:基于 SAM 的特征融合正負雙分支循環一致性提示生成,以及面向視頻的 Mask-tube 訓練策略。該框架旨在充分利用 SAM 的特征空間,通過顯式的正負樣本約束和循環校驗,生成高精度的視覺提示。
![]()
DC-SAM方法概覽圖。
基于 SAM 的特征融合
現有的上下文分割方法通常僅依賴于預訓練骨干網絡(如 ResNet 或 DINOv2)提取特征,這導致生成的 Prompt 與 SAM 內部的特征空間存在 “語義鴻溝”。
![]()
![]()
![]()
![]()
基于 SAM 的多源特征融合方法圖
正負雙分支循環一致性提示生成
正負雙分支循環一致性提示生成是 DC-SAM 的核心模塊。為了解決單一前景提示帶來的邊界模糊問題,研究團隊設計了正負雙分支(Dual-Branch)結構:
![]()
在每個分支內部,為了防止 “語義漂移”(即錯誤匹配非目標區域),研究團隊引入了循環一致性交叉注意力(Cyclic Consistent Cross-Attention)。其核心思想是:只有當支持圖像中的像素 j 與查詢圖像中的匹配像素 j* 滿足語義類別一致時,才保留該注意力權重;否則,通過偏置項 B 將其屏蔽:
![]()
基于該偏置項,可以計算經過循環校驗的注意力輸出,確保生成的 Prompt 僅聚合高度可信的特征:
![]()
最終,正負分支生成的 Prompt 分別疊加 SAM 預訓練的 Pos/Neg Embeddings,共同指導 Mask Decoder 生成精準掩碼。
![]()
正負雙分支循環一致性提示生成方法圖
面向視頻的 Mask-tube 訓練策略及模型優化
得益于 SAM 與 SAM2 在 Prompt Encoder 上的架構一致性, DC-SAM 可以無縫遷移至視頻領域。為了賦予模型處理時空動態的能力,研究團隊設計了輕量級的Mask-tube(掩碼管道)訓練策略,通過數據增強將靜態圖像堆疊為偽視頻序列,從而模擬連續幀之間的時序變化。
在優化階段,無論是圖像還是視頻流的預測,均由二元交叉熵損失(BCE Loss)和相似度度量損失(Dice Loss) 共同約束。最終的總損失函數定義為兩者的加權和,以平衡局部像素分類與整體區域重疊度的優化目標(超參數 λ 經驗性地設置為 1):
![]()
性能評估與實驗分析
核心結果方面,DC-SAM 在圖像上下文分割基準 COCO-20i 和 Pascal-5i 上取得顯著性能優勢。與基礎視覺模型對比,即使面對使用了海量圖文對訓練的通用模型 SegGPT(56.1 mIoU),基于 DINOv2 的 DC-SAM 依然在 COCO-20i 上取得了 62.0 mIoU 的成績,實現了近 6% 的性能反超,證明了所提出提示微調方法的泛化能力。與 基于 SAM 的方法對比,在同等骨干網絡(ResNet50)下,DC-SAM 全面超越現有的 SAM 適配方法,即使對比最強的基準模型 VRP-SAM,也在COCO-20i 超越了 1.6%,證明 SAM 特征融合方法以及 Prompt 生成的有效性。
![]()
在團隊首創的視頻基準 IC-VOS 上,DC-SAM 取得了 71.52 的 J&F 得分,以 6.4% 的顯著優勢超越了 VRP-SAM,并大幅領先 PerSAM。這不僅充分驗證了 Mask-tube 策略的有效性,更證明了循環一致性約束能有效抑制視頻傳播過程中的語義漂移,實現穩健的目標鎖定。
![]()
為了直觀評估模型性能,研究團隊對 Pascal-5i 和 IC-VOS 上的分割結果進行了可視化分析。在圖像任務中,DC-SAM 展現了對復雜結構和細粒度特征的強大捕捉能力。無論是 “瓶子” 的完整輪廓,還是 “鳥類” 的細微紋理,模型均能生成高精度的掩碼;特別是在處理 “自行車” 和 “飛機” 等復雜物體時,DC-SAM 有效抑制了背景區域的誤檢(False Positives),邊緣分割清晰銳利。
![]()
圖像上下文分割效果對比圖,黃色的叉表示明顯錯誤。
在更具挑戰的視頻任務中,DC-SAM 的優勢進一步凸顯。以 “摩托車” 視頻序列為例,基線模型 PFENet 出現了明顯的語義漂移現象,不僅漏檢了車輪,還錯誤地將騎手包含在分割目標內。相比之下,DC-SAM 能夠精準區分干擾對象(如騎手)與目標主體,在連續幀中實現了穩健的語義鎖定與追蹤。
![]()
視頻上下文分割效果對比圖。
我們相信,DC-SAM 的提出為視覺大模型的落地應用,尤其是在需要高效、自動處理海量視頻數據的工業與科研領域,提供了極具競爭力的解決方案。
作者簡介
齊夢實,北京郵電大學計算機學院,教授、博導。博士畢業于北京航空航天大學,美國羅切斯特大學聯合培養博士。曾工作于瑞士洛桑聯邦理工學院CVLAB擔任博士后研究員,百度研究院訪問研究員等。入選2021年第七屆中國科協青年人才托舉工程(中國人工智能學會)、2024年小米青年學者、2025年ACM北京分會新星獎。主要研究方向為人工智能、計算機視覺和多媒體智能計算等。作為主要負責人承擔國家自然科學基金(面上/青年)、北京市自然科學基金-小米創新聯合基金、騰訊犀牛鳥課題、小米、阿里、微軟合作項目等,并作為核心研發人員參與了國家自然科學基金重大/重點項目、科技部重點專項和港澳臺科技專項等,發表國際高水平期刊會議論文50余篇,包括頂級學術會議CVPR/ICCV/ECCV/NeurIPS/ACM MM/AAAI和權威學術期刊TPAMI/TIP/TMM/TCSVT/TIFS等,擔任頂級會議AAAI、IJCAI的領域主席和TMM的特邀編輯。
畢蕭揚,北京郵電大學計算機學院,碩士研究生。主要研究方向為人工智能、計算機視覺和自動駕駛等。作為核心研究人員參與北京市自然科學基金-小米創新聯合基金、騰訊犀牛鳥課題等重點科研項目。發表的國際高水平論文成果收錄于權威學術期刊TPAMI和頂級學術會議UbiComp。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.