文章來源:我愛計算機視覺(ID:aicvml)
今天,CV君想和大家分享一篇來自中國科學技術大學和Sangfor Research Institute的最新研究,這篇論文已被 TPAMI 接收,提出了一種名為 UniSOT 的統(tǒng)一框架,旨在解決多模態(tài)單目標跟蹤(Single Object Tracking, SOT)領域的長期挑戰(zhàn)。 UniSOT 這個名字,顧名思義,就是“Unified Single Object Tracking”的縮寫,它代表著一種全新的、能夠同時處理多種參考模態(tài)和視頻模態(tài)的統(tǒng)一跟蹤器。
![]()
論文標題 : UniSOT: A Unified Framework for Multi-Modality Single Object Tracking
論文作者 : Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang*, Xu Zhou, and Feng Wu (*通訊作者)
作者機構 : 中國科學技術大學;Sangfor Research Institute
論文地址 : https://arxiv.org/abs/2511.01427
錄用信息 : 該論文已被 TPAMI 接收
在單目標跟蹤任務中,我們通常需要根據(jù)給定的參考信息來追蹤視頻序列中的特定目標。隨著應用場景的日益復雜,對跟蹤器的要求也越來越高。一方面,用戶可能通過不同的方式來指定目標,例如直接給出目標的邊界框(BBOX),或者用自然語言(NL)描述目標,甚至兩者結合(NL+BBOX)。另一方面,視頻數(shù)據(jù)本身也變得多樣化,除了常見的RGB圖像,還可能包含深度信息(RGB+Depth)、熱成像信息(RGB+Thermal)或者事件流信息(RGB+Event),這些輔助模態(tài)在光照不足、遮擋等復雜環(huán)境下能顯著提升跟蹤的魯棒性。
然而,目前大多數(shù)現(xiàn)有的跟蹤器都是為特定的參考模態(tài)或視頻模態(tài)設計的。這意味著,如果我們要處理不同類型的輸入或不同模態(tài)的視頻,就需要開發(fā)或部署多個獨立的模型,這無疑增加了開發(fā)和部署的復雜性。
![]()
圖1. 現(xiàn)有解決方案與UniSOT的對比。傳統(tǒng)跟蹤器通常針對特定模態(tài)定制,而UniSOT旨在提供一個統(tǒng)一的框架。
作者認為,設計這樣一個統(tǒng)一的跟蹤器主要面臨兩大挑戰(zhàn):
如何為多樣的參考模態(tài)設計一個統(tǒng)一的跟蹤模型? 不同參考模態(tài)(視覺框和自然語言)之間存在巨大的語義鴻溝,這給特征提取器的一致性學習和預測頭(Box Head)的穩(wěn)定目標定位帶來了困難。
如何為多樣的視頻模態(tài)設計一個統(tǒng)一的訓練策略? 不同的輔助視頻模態(tài)(深度、熱成像、事件流)包含的信息量和特性各不相同,如何設計一個統(tǒng)一的微調(diào)機制,既能學習到跨視頻模態(tài)的對齊特征,又能保留各自模態(tài)的特有線索,是一個難題。
為了解決上述問題,研究人員提出了 UniSOT 框架。
UniSOT 的核心技術原理
UniSOT 的核心思想是構建一個統(tǒng)一的跟蹤器,能夠以統(tǒng)一的參數(shù)同時處理三種參考模態(tài)和四種視頻模態(tài)。它主要由兩個核心設計構成:一個是針對參考模態(tài)統(tǒng)一的設計,另一個是針對視頻模態(tài)統(tǒng)一的設計。
![]()
UniSOT 整體框架圖
針對參考模態(tài)的統(tǒng)一設計
為了統(tǒng)一處理不同的參考模態(tài),UniSOT 設計了一個 參考通用的特征提取器(Reference-Generalized Feature Extractor) 和一個 參考自適應的預測頭(Reference-Adaptive Box Head, RABH)。
1. 參考通用的特征提取器
這個特征提取器基于Transformer構建,巧妙地解決了多模態(tài)特征學習、融合與對齊的問題。
![]()
統(tǒng)一跟蹤框架示意圖
分層特征提取與融合 :它包含N個淺層Encoder和M個深層Encoder。在淺層,視覺(圖像)和語言特征被分開獨立提取,避免了在低層次特征建模時產(chǎn)生混淆;在深層,兩者才進行融合,以實現(xiàn)高層語義的交互。
任務導向的多頭注意力(TMHA) :為了在聯(lián)合訓練時兼容不同的參考輸入(比如有時只有BBOX,沒有NL), UniSOT 引入了注意力掩碼機制,屏蔽掉那些與當前任務無關的特征交互。
多模態(tài)對比損失(MMCLoss) :為了解決視覺和語言之間的語義鴻溝,作者設計了一個目標級別的對比損失。它通過拉近不同參考模態(tài)(視覺/語言)的語義Token與搜索區(qū)域中目標特征的相似度,同時推遠與背景(特別是硬背景,即干擾物)特征的相似度,從而將視覺和語言特征對齊到統(tǒng)一的語義空間,并增強了參考特征的判別力。
多模態(tài)對比損失(MMCLoss)示意圖
2. 參考自適應的預測頭(RABH)
傳統(tǒng)的預測頭對于不同的參考模態(tài)輸入,處理方式是固定的,這可能導致定位結果不穩(wěn)定。為此,RABH 被設計成一個動態(tài)的頭部,它能根據(jù)不同的參考信息,自適應地從視頻上下文中挖掘場景特征來輔助定位。
![]()
參考自適應預測頭(RABH)示意圖
其核心是一個新穎的 基于分布的交叉注意力機制。該機制能夠從歷史幀(上下文)中自適應地挖掘出 目標(Target)、干擾物(Distractor) 和 背景(Background) 三種特征。具體來說,它首先計算參考模態(tài)的語義Token與歷史幀中所有Patch的相似度,然后根據(jù)一個預設的閾值 β,將與目標外觀相似但非目標的Patch識別為“干擾物”,其余的則為“背景”。這樣,通過對比學習的方式,利用動態(tài)更新的目標、干擾物和背景原型來進行目標定位,大大提升了在復雜場景下的穩(wěn)定性和魯棒性。
針對視頻模態(tài)的統(tǒng)一設計
在完成了對RGB序列上不同參考模態(tài)的統(tǒng)一后,UniSOT 進入第二訓練階段,以統(tǒng)一處理多種視頻模態(tài)(RGB+Depth, RGB+Thermal, RGB+Event)。其核心是 秩自適應模態(tài)適配(Rank-Adaptive Modality Adaptation, RAMA) 機制。
![]()
輔助模態(tài)調(diào)整塊(AMTB)示意圖
RAMA 的設計靈感來源于AdaLoRA,它通過在預訓練好的模型中注入增量權重(? = PΛQ)的方式來適配新的視頻模態(tài),而不是微調(diào)整個模型。
參數(shù)共享與模態(tài)對齊 :所有輔助模態(tài)共享正交矩陣P和Q,這有助于學習跨視頻模態(tài)的對齊特征。
秩自適應與模態(tài)特定 :每個輔助模態(tài)擁有自己獨立的奇異值矩陣Λ(即ΛD, ΛT, ΛE),并通過一個重要性評估函數(shù)來動態(tài)地為不同層、不同模塊、不同模態(tài)的增量參數(shù)分配不同的秩(rank)。這意味著模型可以自動判斷每個模態(tài)需要多少“特定信息”,為信息量大的模態(tài)分配更高的秩,為信息量少的模態(tài)分配較低的秩,從而在學習模態(tài)共性特征的同時,保留了模態(tài)的個性特征,并有效防止了過擬合。
研究團隊在 18 個基準上對 UniSOT 進行了廣泛的實驗評估,結果表明其性能顯著優(yōu)于那些為特定模態(tài)設計的現(xiàn)有方法。
參考模態(tài)統(tǒng)一的有效性
在 TNL2K 數(shù)據(jù)集上, UniSOT 在BBOX、NL、NL+BBOX三種參考模態(tài)下的AUC性能均超過了現(xiàn)有方法 3.0% 以上。
消融實驗(表10)證明,MMCLoss和RABH兩個模塊都帶來了顯著的性能提升。例如,在NL參考下,MMCLoss帶來了2.3%的AUC提升,RABH帶來了2.0%的AUC提升。
UniSOT中不同組件的消融實驗
視頻模態(tài)統(tǒng)一的有效性
在 RGB+Depth (VOT-RGBD22, DepthTrack), RGB+Thermal (LasHeR, RGBT234), 和 RGB+Event (VisEvent) 三類任務上, UniSOT 的主要指標比之前的統(tǒng)一模型 Un-Track 提升了 2.0% 以上。
例如,在RGBT234數(shù)據(jù)集上, UniSOT-B 的MSR比Un-Track高出1.6% (64.1% vs 62.5%)。在VisEvent上,AUC高出1.8% (60.7% vs 58.9%)。
與SOTA RGBD跟蹤器的比較
![]()
與SOTA RGBT跟蹤器的比較
![]()
與SOTA RGBE跟蹤器的比較
可視化分析
可視化結果也直觀地證明了 UniSOT 的有效性。例如,RABH能夠更穩(wěn)定地定位目標,有效抑制干擾物;MMCLoss使得視覺和語言語義Token的響應圖更加一致且具有判別力。
![]()
目標定位結果可視化顯示
![]()
不同參考模態(tài)下的跟蹤結果可視化
![]()
不同輔助模態(tài)下的跟蹤結果可視化
總結與展望
UniSOT 的提出,無疑為多模態(tài)單目標跟蹤領域帶來了新的思路。它通過一系列精巧的設計,首次實現(xiàn)了一個能夠以統(tǒng)一參數(shù)處理多種參考模態(tài)和視頻模態(tài)的跟蹤器,極大地提升了跟蹤器的實用性和泛化能力。CV君覺得,這種統(tǒng)一化的設計理念,不僅簡化了模型部署,也為未來更復雜的跨模態(tài)感知任務提供了寶貴的經(jīng)驗。
你覺得這個技術未來會用在哪些場景?一起來聊聊吧!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.