網易首頁 > 網易號 > 正文申請入駐

打破SAM交互限制，基于循環一致性的圖像與視頻上下文分割方法

2026-01-20 14:24:58　來源: 機器之心Pro

廣西舉報

分享至

上下文分割（In-Context Segmentation）旨在通過參考示例指導模型實現對特定目標的自動化分割。盡管 SAM 憑借卓越的零樣本泛化能力為此提供了強大的基礎，但將其應用于此仍受限于提示（如點或框）構建，這樣的需求不僅制約了批量推理的自動化效率，更使得模型在處理復雜的連續視頻時，難以維持時空一致性。

北京郵電大學聯合南洋理工大學等機構發表的 IEEE TPAMI 期刊論文《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》，不僅為圖像和視頻的上下文分割建立了統一的高效框架DC-SAM，還構建了首個視頻上下文分割基準IC-VOS

研究團隊巧妙地提出基于提示微調的 “循環一致性” 機制，通過正負雙分支與循環一致性注意力的協同，配合 Mask-Tube 策略，實現了 SAM 與 SAM2 在圖像及視頻上下文分割任務上的統一與高效適配。

實驗結果顯示，DC-SAM 在多個基準測試中均取得了 SOTA 性能：在 COCO-20i 上達到 55.5 mIoU，在 Pascal-5i 上達到 73.0 mIoU；在新建的 IC-VOS 視頻基準上，J&F 得分高達 71.52，顯著優于現有方法。該篇論文已被IEEE TPAMI錄用。

論文標題：DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
論文鏈接：https://arxiv.org/pdf/2504.12080
代碼鏈接：https://github.com/zaplm/DC-SAM

研究背景

近年來，以 SAM 和 SAM2 為代表的視覺基礎模型憑借海量訓練數據，展現了卓越的交互式分割能力，已成為醫學影像、開放詞匯分割等下游任務的強大基石。然而，盡管 SAM 在 “分割一切” 上表現出色，卻缺乏 “上下文分割”（In-Context Segmentation）的能力 —— 即無法僅憑一張參考示例（Support Image）及其掩碼，自動在查詢圖像（Query Image）中分割出同類目標。

為了彌補這一短板，早期的少樣本學習方法多依賴度量學習，但泛化能力有限。雖然 SegGPT 等通用模型通過大規模圖文對訓練實現了上下文分割，但其計算資源消耗巨大。相比之下，提示微調（Prompt Tuning）提供了一條高效路徑。然而，現有的 SAM 適配方法（如 VRP-SAM）主要依賴骨干網絡提取的通用特征，忽略了 SAM 自身提示編碼器（Prompt Encoder）的特征特性，且往往未能充分利用背景（負樣本）信息來約束分割邊界，導致生成的提示精度不足。

此外，視頻領域的上下文分割研究尚處于空白階段。現有的視頻分割基準（如 DAVIS、MOSE）主要側重于給定首幀掩碼的半監督跟蹤任務，缺乏評估 “基于參考示例進行視頻分割” 能力的專用基準。

針對上述挑戰，研究團隊推出了首個視頻上下文分割基準 IC-VOS，并同步提出了DC-SAM 框架。該框架旨在通過提示微調技術，將 SAM 與 SAM2 的能力無縫遷移至這一新任務，實現了統一高效的圖像與視頻上下文分割。

DC-SAM與現有方法的對比圖。 a) 方法對比圖，b) 預測可視化對比圖，c）得分對比圖。

IC-VOS：首個面向上下文視頻分割的大規模基準數據集

在研究過程中，研究團隊發現該領域缺乏一個專門用于評估 “上下文視頻對象分割” 的統一基準。現有的 VOS 數據集大多側重于第一幀掩碼的追蹤，而傳統的 Few-shot 圖像數據集則完全丟失了時間維度。

為了填補這一空白，研究團隊推出了IC-VOS (In-Context Video Object Segmentation) 數據集。這是首個旨在全面衡量模型在視頻上下文中學習能力的數據集。IC-VOS 涵蓋了極其豐富的場景，包括極小目標分割、快速運動變形以及復雜背景融合等。

IC-VOS 分割基準：a) 數據來源，b) 詞云圖，c) 類別分布，d) 示例樣本。

DC-SAM 框架

DC-SAM 框架由三個核心部分組成：基于 SAM 的特征融合正負雙分支循環一致性提示生成，以及面向視頻的 Mask-tube 訓練策略。該框架旨在充分利用 SAM 的特征空間，通過顯式的正負樣本約束和循環校驗，生成高精度的視覺提示。

DC-SAM方法概覽圖。

基于 SAM 的特征融合

現有的上下文分割方法通常僅依賴于預訓練骨干網絡（如 ResNet 或 DINOv2）提取特征，這導致生成的 Prompt 與 SAM 內部的特征空間存在 “語義鴻溝”。

基于 SAM 的多源特征融合方法圖

正負雙分支循環一致性提示生成

正負雙分支循環一致性提示生成是 DC-SAM 的核心模塊。為了解決單一前景提示帶來的邊界模糊問題，研究團隊設計了正負雙分支（Dual-Branch）結構：

在每個分支內部，為了防止 “語義漂移”（即錯誤匹配非目標區域），研究團隊引入了循環一致性交叉注意力（Cyclic Consistent Cross-Attention）。其核心思想是：只有當支持圖像中的像素 j 與查詢圖像中的匹配像素 j* 滿足語義類別一致時，才保留該注意力權重；否則，通過偏置項 B 將其屏蔽：

基于該偏置項，可以計算經過循環校驗的注意力輸出，確保生成的 Prompt 僅聚合高度可信的特征：

最終，正負分支生成的 Prompt 分別疊加 SAM 預訓練的 Pos/Neg Embeddings，共同指導 Mask Decoder 生成精準掩碼。

正負雙分支循環一致性提示生成方法圖

面向視頻的 Mask-tube 訓練策略及模型優化

得益于 SAM 與 SAM2 在 Prompt Encoder 上的架構一致性， DC-SAM 可以無縫遷移至視頻領域。為了賦予模型處理時空動態的能力，研究團隊設計了輕量級的Mask-tube（掩碼管道）訓練策略，通過數據增強將靜態圖像堆疊為偽視頻序列，從而模擬連續幀之間的時序變化。

在優化階段，無論是圖像還是視頻流的預測，均由二元交叉熵損失（BCE Loss）和相似度度量損失（Dice Loss）共同約束。最終的總損失函數定義為兩者的加權和，以平衡局部像素分類與整體區域重疊度的優化目標（超參數 λ 經驗性地設置為 1）：

性能評估與實驗分析

核心結果方面，DC-SAM 在圖像上下文分割基準 COCO-20i 和 Pascal-5i 上取得顯著性能優勢。與基礎視覺模型對比，即使面對使用了海量圖文對訓練的通用模型 SegGPT（56.1 mIoU），基于 DINOv2 的 DC-SAM 依然在 COCO-20i 上取得了 62.0 mIoU 的成績，實現了近 6% 的性能反超，證明了所提出提示微調方法的泛化能力。與基于 SAM 的方法對比，在同等骨干網絡（ResNet50）下，DC-SAM 全面超越現有的 SAM 適配方法，即使對比最強的基準模型 VRP-SAM，也在COCO-20i 超越了 1.6%，證明 SAM 特征融合方法以及 Prompt 生成的有效性。

在團隊首創的視頻基準 IC-VOS 上，DC-SAM 取得了 71.52 的 J&F 得分，以 6.4% 的顯著優勢超越了 VRP-SAM，并大幅領先 PerSAM。這不僅充分驗證了 Mask-tube 策略的有效性，更證明了循環一致性約束能有效抑制視頻傳播過程中的語義漂移，實現穩健的目標鎖定。

為了直觀評估模型性能，研究團隊對 Pascal-5i 和 IC-VOS 上的分割結果進行了可視化分析。在圖像任務中，DC-SAM 展現了對復雜結構和細粒度特征的強大捕捉能力。無論是 “瓶子” 的完整輪廓，還是 “鳥類” 的細微紋理，模型均能生成高精度的掩碼；特別是在處理 “自行車” 和 “飛機” 等復雜物體時，DC-SAM 有效抑制了背景區域的誤檢（False Positives），邊緣分割清晰銳利。

圖像上下文分割效果對比圖，黃色的叉表示明顯錯誤。

在更具挑戰的視頻任務中，DC-SAM 的優勢進一步凸顯。以 “摩托車” 視頻序列為例，基線模型 PFENet 出現了明顯的語義漂移現象，不僅漏檢了車輪，還錯誤地將騎手包含在分割目標內。相比之下，DC-SAM 能夠精準區分干擾對象（如騎手）與目標主體，在連續幀中實現了穩健的語義鎖定與追蹤。

視頻上下文分割效果對比圖。

我們相信，DC-SAM 的提出為視覺大模型的落地應用，尤其是在需要高效、自動處理海量視頻數據的工業與科研領域，提供了極具競爭力的解決方案。

作者簡介

齊夢實，北京郵電大學計算機學院，教授、博導。博士畢業于北京航空航天大學，美國羅切斯特大學聯合培養博士。曾工作于瑞士洛桑聯邦理工學院CVLAB擔任博士后研究員，百度研究院訪問研究員等。入選2021年第七屆中國科協青年人才托舉工程（中國人工智能學會）、2024年小米青年學者、2025年ACM北京分會新星獎。主要研究方向為人工智能、計算機視覺和多媒體智能計算等。作為主要負責人承擔國家自然科學基金（面上/青年）、北京市自然科學基金-小米創新聯合基金、騰訊犀牛鳥課題、小米、阿里、微軟合作項目等，并作為核心研發人員參與了國家自然科學基金重大/重點項目、科技部重點專項和港澳臺科技專項等，發表國際高水平期刊會議論文50余篇，包括頂級學術會議CVPR/ICCV/ECCV/NeurIPS/ACM MM/AAAI和權威學術期刊TPAMI/TIP/TMM/TCSVT/TIFS等，擔任頂級會議AAAI、IJCAI的領域主席和TMM的特邀編輯。

畢蕭揚，北京郵電大學計算機學院，碩士研究生。主要研究方向為人工智能、計算機視覺和自動駕駛等。作為核心研究人員參與北京市自然科學基金-小米創新聯合基金、騰訊犀牛鳥課題等重點科研項目。發表的國際高水平論文成果收錄于權威學術期刊TPAMI和頂級學術會議UbiComp。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.