TPAMI 2025 | 中國科大提出UniSOT：統(tǒng)一多模態(tài)單目標跟蹤新范式，性能顯著提升

2025-11-08 20:34:54　來源: 算法與數(shù)學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

今天，CV君想和大家分享一篇來自中國科學技術大學和Sangfor Research Institute的最新研究，這篇論文已被 TPAMI 接收，提出了一種名為 UniSOT 的統(tǒng)一框架，旨在解決多模態(tài)單目標跟蹤（Single Object Tracking, SOT）領域的長期挑戰(zhàn)。 UniSOT 這個名字，顧名思義，就是“Unified Single Object Tracking”的縮寫，它代表著一種全新的、能夠同時處理多種參考模態(tài)和視頻模態(tài)的統(tǒng)一跟蹤器。

論文標題 : UniSOT: A Unified Framework for Multi-Modality Single Object Tracking
論文作者 : Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang*, Xu Zhou, and Feng Wu (*通訊作者)
作者機構 : 中國科學技術大學；Sangfor Research Institute
論文地址 : https://arxiv.org/abs/2511.01427
錄用信息 : 該論文已被 TPAMI 接收

研究背景與動機

在單目標跟蹤任務中，我們通常需要根據(jù)給定的參考信息來追蹤視頻序列中的特定目標。隨著應用場景的日益復雜，對跟蹤器的要求也越來越高。一方面，用戶可能通過不同的方式來指定目標，例如直接給出目標的邊界框（BBOX），或者用自然語言（NL）描述目標，甚至兩者結合（NL+BBOX）。另一方面，視頻數(shù)據(jù)本身也變得多樣化，除了常見的RGB圖像，還可能包含深度信息（RGB+Depth）、熱成像信息（RGB+Thermal）或者事件流信息（RGB+Event），這些輔助模態(tài)在光照不足、遮擋等復雜環(huán)境下能顯著提升跟蹤的魯棒性。

然而，目前大多數(shù)現(xiàn)有的跟蹤器都是為特定的參考模態(tài)或視頻模態(tài)設計的。這意味著，如果我們要處理不同類型的輸入或不同模態(tài)的視頻，就需要開發(fā)或部署多個獨立的模型，這無疑增加了開發(fā)和部署的復雜性。

圖1. 現(xiàn)有解決方案與UniSOT的對比。傳統(tǒng)跟蹤器通常針對特定模態(tài)定制，而UniSOT旨在提供一個統(tǒng)一的框架。

作者認為，設計這樣一個統(tǒng)一的跟蹤器主要面臨兩大挑戰(zhàn)：

如何為多樣的參考模態(tài)設計一個統(tǒng)一的跟蹤模型？ 不同參考模態(tài)（視覺框和自然語言）之間存在巨大的語義鴻溝，這給特征提取器的一致性學習和預測頭（Box Head）的穩(wěn)定目標定位帶來了困難。
如何為多樣的視頻模態(tài)設計一個統(tǒng)一的訓練策略？ 不同的輔助視頻模態(tài)（深度、熱成像、事件流）包含的信息量和特性各不相同，如何設計一個統(tǒng)一的微調(diào)機制，既能學習到跨視頻模態(tài)的對齊特征，又能保留各自模態(tài)的特有線索，是一個難題。

為了解決上述問題，研究人員提出了 UniSOT 框架。

UniSOT 的核心技術原理

UniSOT 的核心思想是構建一個統(tǒng)一的跟蹤器，能夠以統(tǒng)一的參數(shù)同時處理三種參考模態(tài)和四種視頻模態(tài)。它主要由兩個核心設計構成：一個是針對參考模態(tài)統(tǒng)一的設計，另一個是針對視頻模態(tài)統(tǒng)一的設計。

UniSOT 整體框架圖

針對參考模態(tài)的統(tǒng)一設計

為了統(tǒng)一處理不同的參考模態(tài)，UniSOT 設計了一個 參考通用的特征提取器（Reference-Generalized Feature Extractor） 和一個 參考自適應的預測頭（Reference-Adaptive Box Head, RABH）。

1. 參考通用的特征提取器

這個特征提取器基于Transformer構建，巧妙地解決了多模態(tài)特征學習、融合與對齊的問題。

統(tǒng)一跟蹤框架示意圖

分層特征提取與融合 ：它包含N個淺層Encoder和M個深層Encoder。在淺層，視覺（圖像）和語言特征被分開獨立提取，避免了在低層次特征建模時產(chǎn)生混淆；在深層，兩者才進行融合，以實現(xiàn)高層語義的交互。
任務導向的多頭注意力（TMHA） ：為了在聯(lián)合訓練時兼容不同的參考輸入（比如有時只有BBOX，沒有NL）， UniSOT 引入了注意力掩碼機制，屏蔽掉那些與當前任務無關的特征交互。
多模態(tài)對比損失（MMCLoss） ：為了解決視覺和語言之間的語義鴻溝，作者設計了一個目標級別的對比損失。它通過拉近不同參考模態(tài)（視覺/語言）的語義Token與搜索區(qū)域中目標特征的相似度，同時推遠與背景（特別是硬背景，即干擾物）特征的相似度，從而將視覺和語言特征對齊到統(tǒng)一的語義空間，并增強了參考特征的判別力。

多模態(tài)對比損失（MMCLoss）示意圖

2. 參考自適應的預測頭（RABH）

傳統(tǒng)的預測頭對于不同的參考模態(tài)輸入，處理方式是固定的，這可能導致定位結果不穩(wěn)定。為此，RABH 被設計成一個動態(tài)的頭部，它能根據(jù)不同的參考信息，自適應地從視頻上下文中挖掘場景特征來輔助定位。

參考自適應預測頭（RABH）示意圖

其核心是一個新穎的 基于分布的交叉注意力機制。該機制能夠從歷史幀（上下文）中自適應地挖掘出 目標（Target）、干擾物（Distractor） 和 背景（Background） 三種特征。具體來說，它首先計算參考模態(tài)的語義Token與歷史幀中所有Patch的相似度，然后根據(jù)一個預設的閾值 β，將與目標外觀相似但非目標的Patch識別為“干擾物”，其余的則為“背景”。這樣，通過對比學習的方式，利用動態(tài)更新的目標、干擾物和背景原型來進行目標定位，大大提升了在復雜場景下的穩(wěn)定性和魯棒性。

針對視頻模態(tài)的統(tǒng)一設計

在完成了對RGB序列上不同參考模態(tài)的統(tǒng)一后，UniSOT 進入第二訓練階段，以統(tǒng)一處理多種視頻模態(tài)（RGB+Depth, RGB+Thermal, RGB+Event）。其核心是 秩自適應模態(tài)適配（Rank-Adaptive Modality Adaptation, RAMA） 機制。

輔助模態(tài)調(diào)整塊（AMTB）示意圖

RAMA 的設計靈感來源于AdaLoRA，它通過在預訓練好的模型中注入增量權重（? = PΛQ）的方式來適配新的視頻模態(tài)，而不是微調(diào)整個模型。

參數(shù)共享與模態(tài)對齊 ：所有輔助模態(tài)共享正交矩陣P和Q，這有助于學習跨視頻模態(tài)的對齊特征。
秩自適應與模態(tài)特定 ：每個輔助模態(tài)擁有自己獨立的奇異值矩陣Λ（即ΛD, ΛT, ΛE），并通過一個重要性評估函數(shù)來動態(tài)地為不同層、不同模塊、不同模態(tài)的增量參數(shù)分配不同的秩（rank）。這意味著模型可以自動判斷每個模態(tài)需要多少“特定信息”，為信息量大的模態(tài)分配更高的秩，為信息量少的模態(tài)分配較低的秩，從而在學習模態(tài)共性特征的同時，保留了模態(tài)的個性特征，并有效防止了過擬合。

實驗結果與分析

研究團隊在 18 個基準上對 UniSOT 進行了廣泛的實驗評估，結果表明其性能顯著優(yōu)于那些為特定模態(tài)設計的現(xiàn)有方法。

參考模態(tài)統(tǒng)一的有效性

在 TNL2K 數(shù)據(jù)集上， UniSOT 在BBOX、NL、NL+BBOX三種參考模態(tài)下的AUC性能均超過了現(xiàn)有方法 3.0% 以上。
消融實驗（表10）證明，MMCLoss和RABH兩個模塊都帶來了顯著的性能提升。例如，在NL參考下，MMCLoss帶來了2.3%的AUC提升，RABH帶來了2.0%的AUC提升。

UniSOT中不同組件的消融實驗

視頻模態(tài)統(tǒng)一的有效性

在 RGB+Depth (VOT-RGBD22, DepthTrack), RGB+Thermal (LasHeR, RGBT234), 和 RGB+Event (VisEvent) 三類任務上， UniSOT 的主要指標比之前的統(tǒng)一模型 Un-Track 提升了 2.0% 以上。
例如，在RGBT234數(shù)據(jù)集上， UniSOT-B 的MSR比Un-Track高出1.6% (64.1% vs 62.5%)。在VisEvent上，AUC高出1.8% (60.7% vs 58.9%)。

與SOTA RGBD跟蹤器的比較

與SOTA RGBT跟蹤器的比較

與SOTA RGBE跟蹤器的比較

可視化分析

可視化結果也直觀地證明了 UniSOT 的有效性。例如，RABH能夠更穩(wěn)定地定位目標，有效抑制干擾物；MMCLoss使得視覺和語言語義Token的響應圖更加一致且具有判別力。

目標定位結果可視化顯示

不同參考模態(tài)下的跟蹤結果可視化

不同輔助模態(tài)下的跟蹤結果可視化

總結與展望

UniSOT 的提出，無疑為多模態(tài)單目標跟蹤領域帶來了新的思路。它通過一系列精巧的設計，首次實現(xiàn)了一個能夠以統(tǒng)一參數(shù)處理多種參考模態(tài)和視頻模態(tài)的跟蹤器，極大地提升了跟蹤器的實用性和泛化能力。CV君覺得，這種統(tǒng)一化的設計理念，不僅簡化了模型部署，也為未來更復雜的跨模態(tài)感知任務提供了寶貴的經(jīng)驗。

你覺得這個技術未來會用在哪些場景？一起來聊聊吧！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.