<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      TPAMI 2025 | 中國科大提出UniSOT:統(tǒng)一多模態(tài)單目標跟蹤新范式,性能顯著提升

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      今天,CV君想和大家分享一篇來自中國科學技術大學和Sangfor Research Institute的最新研究,這篇論文已被 TPAMI 接收,提出了一種名為 UniSOT 的統(tǒng)一框架,旨在解決多模態(tài)單目標跟蹤(Single Object Tracking, SOT)領域的長期挑戰(zhàn)。 UniSOT 這個名字,顧名思義,就是“Unified Single Object Tracking”的縮寫,它代表著一種全新的、能夠同時處理多種參考模態(tài)和視頻模態(tài)的統(tǒng)一跟蹤器。



      • 論文標題 : UniSOT: A Unified Framework for Multi-Modality Single Object Tracking

      • 論文作者 : Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang*, Xu Zhou, and Feng Wu (*通訊作者)

      • 作者機構 : 中國科學技術大學;Sangfor Research Institute

      • 論文地址 : https://arxiv.org/abs/2511.01427

      • 錄用信息 : 該論文已被 TPAMI 接收

      研究背景與動機

      在單目標跟蹤任務中,我們通常需要根據(jù)給定的參考信息來追蹤視頻序列中的特定目標。隨著應用場景的日益復雜,對跟蹤器的要求也越來越高。一方面,用戶可能通過不同的方式來指定目標,例如直接給出目標的邊界框(BBOX),或者用自然語言(NL)描述目標,甚至兩者結合(NL+BBOX)。另一方面,視頻數(shù)據(jù)本身也變得多樣化,除了常見的RGB圖像,還可能包含深度信息(RGB+Depth)、熱成像信息(RGB+Thermal)或者事件流信息(RGB+Event),這些輔助模態(tài)在光照不足、遮擋等復雜環(huán)境下能顯著提升跟蹤的魯棒性。

      然而,目前大多數(shù)現(xiàn)有的跟蹤器都是為特定的參考模態(tài)或視頻模態(tài)設計的。這意味著,如果我們要處理不同類型的輸入或不同模態(tài)的視頻,就需要開發(fā)或部署多個獨立的模型,這無疑增加了開發(fā)和部署的復雜性。


      圖1. 現(xiàn)有解決方案與UniSOT的對比。傳統(tǒng)跟蹤器通常針對特定模態(tài)定制,而UniSOT旨在提供一個統(tǒng)一的框架。

      作者認為,設計這樣一個統(tǒng)一的跟蹤器主要面臨兩大挑戰(zhàn):

      1. 如何為多樣的參考模態(tài)設計一個統(tǒng)一的跟蹤模型? 不同參考模態(tài)(視覺框和自然語言)之間存在巨大的語義鴻溝,這給特征提取器的一致性學習和預測頭(Box Head)的穩(wěn)定目標定位帶來了困難。

      2. 如何為多樣的視頻模態(tài)設計一個統(tǒng)一的訓練策略? 不同的輔助視頻模態(tài)(深度、熱成像、事件流)包含的信息量和特性各不相同,如何設計一個統(tǒng)一的微調(diào)機制,既能學習到跨視頻模態(tài)的對齊特征,又能保留各自模態(tài)的特有線索,是一個難題。

      為了解決上述問題,研究人員提出了 UniSOT 框架。

      UniSOT 的核心技術原理

      UniSOT 的核心思想是構建一個統(tǒng)一的跟蹤器,能夠以統(tǒng)一的參數(shù)同時處理三種參考模態(tài)和四種視頻模態(tài)。它主要由兩個核心設計構成:一個是針對參考模態(tài)統(tǒng)一的設計,另一個是針對視頻模態(tài)統(tǒng)一的設計。


      UniSOT 整體框架圖

      針對參考模態(tài)的統(tǒng)一設計

      為了統(tǒng)一處理不同的參考模態(tài),UniSOT 設計了一個 參考通用的特征提取器(Reference-Generalized Feature Extractor) 和一個 參考自適應的預測頭(Reference-Adaptive Box Head, RABH)

      1. 參考通用的特征提取器

      這個特征提取器基于Transformer構建,巧妙地解決了多模態(tài)特征學習、融合與對齊的問題。


      統(tǒng)一跟蹤框架示意圖

      • 分層特征提取與融合 :它包含N個淺層Encoder和M個深層Encoder。在淺層,視覺(圖像)和語言特征被分開獨立提取,避免了在低層次特征建模時產(chǎn)生混淆;在深層,兩者才進行融合,以實現(xiàn)高層語義的交互。

      • 任務導向的多頭注意力(TMHA) :為了在聯(lián)合訓練時兼容不同的參考輸入(比如有時只有BBOX,沒有NL), UniSOT 引入了注意力掩碼機制,屏蔽掉那些與當前任務無關的特征交互。

      • 多模態(tài)對比損失(MMCLoss) :為了解決視覺和語言之間的語義鴻溝,作者設計了一個目標級別的對比損失。它通過拉近不同參考模態(tài)(視覺/語言)的語義Token與搜索區(qū)域中目標特征的相似度,同時推遠與背景(特別是硬背景,即干擾物)特征的相似度,從而將視覺和語言特征對齊到統(tǒng)一的語義空間,并增強了參考特征的判別力。

      多模態(tài)對比損失(MMCLoss)示意圖

      2. 參考自適應的預測頭(RABH)

      傳統(tǒng)的預測頭對于不同的參考模態(tài)輸入,處理方式是固定的,這可能導致定位結果不穩(wěn)定。為此,RABH 被設計成一個動態(tài)的頭部,它能根據(jù)不同的參考信息,自適應地從視頻上下文中挖掘場景特征來輔助定位。


      參考自適應預測頭(RABH)示意圖

      其核心是一個新穎的 基于分布的交叉注意力機制。該機制能夠從歷史幀(上下文)中自適應地挖掘出 目標(Target)干擾物(Distractor)背景(Background) 三種特征。具體來說,它首先計算參考模態(tài)的語義Token與歷史幀中所有Patch的相似度,然后根據(jù)一個預設的閾值 β,將與目標外觀相似但非目標的Patch識別為“干擾物”,其余的則為“背景”。這樣,通過對比學習的方式,利用動態(tài)更新的目標、干擾物和背景原型來進行目標定位,大大提升了在復雜場景下的穩(wěn)定性和魯棒性。

      針對視頻模態(tài)的統(tǒng)一設計

      在完成了對RGB序列上不同參考模態(tài)的統(tǒng)一后,UniSOT 進入第二訓練階段,以統(tǒng)一處理多種視頻模態(tài)(RGB+Depth, RGB+Thermal, RGB+Event)。其核心是 秩自適應模態(tài)適配(Rank-Adaptive Modality Adaptation, RAMA) 機制。


      輔助模態(tài)調(diào)整塊(AMTB)示意圖

      RAMA 的設計靈感來源于AdaLoRA,它通過在預訓練好的模型中注入增量權重(? = PΛQ)的方式來適配新的視頻模態(tài),而不是微調(diào)整個模型。

      • 參數(shù)共享與模態(tài)對齊 :所有輔助模態(tài)共享正交矩陣P和Q,這有助于學習跨視頻模態(tài)的對齊特征。

      • 秩自適應與模態(tài)特定 :每個輔助模態(tài)擁有自己獨立的奇異值矩陣Λ(即ΛD, ΛT, ΛE),并通過一個重要性評估函數(shù)來動態(tài)地為不同層、不同模塊、不同模態(tài)的增量參數(shù)分配不同的秩(rank)。這意味著模型可以自動判斷每個模態(tài)需要多少“特定信息”,為信息量大的模態(tài)分配更高的秩,為信息量少的模態(tài)分配較低的秩,從而在學習模態(tài)共性特征的同時,保留了模態(tài)的個性特征,并有效防止了過擬合。

      實驗結果與分析

      研究團隊在 18 個基準上對 UniSOT 進行了廣泛的實驗評估,結果表明其性能顯著優(yōu)于那些為特定模態(tài)設計的現(xiàn)有方法。

      參考模態(tài)統(tǒng)一的有效性

      • TNL2K 數(shù)據(jù)集上, UniSOT 在BBOX、NL、NL+BBOX三種參考模態(tài)下的AUC性能均超過了現(xiàn)有方法 3.0% 以上。

      • 消融實驗(表10)證明,MMCLoss和RABH兩個模塊都帶來了顯著的性能提升。例如,在NL參考下,MMCLoss帶來了2.3%的AUC提升,RABH帶來了2.0%的AUC提升。

      UniSOT中不同組件的消融實驗

      視頻模態(tài)統(tǒng)一的有效性

      • RGB+Depth (VOT-RGBD22, DepthTrack), RGB+Thermal (LasHeR, RGBT234), 和 RGB+Event (VisEvent) 三類任務上, UniSOT 的主要指標比之前的統(tǒng)一模型 Un-Track 提升了 2.0% 以上。

      • 例如,在RGBT234數(shù)據(jù)集上, UniSOT-B 的MSR比Un-Track高出1.6% (64.1% vs 62.5%)。在VisEvent上,AUC高出1.8% (60.7% vs 58.9%)。

      與SOTA RGBD跟蹤器的比較


      與SOTA RGBT跟蹤器的比較


      與SOTA RGBE跟蹤器的比較

      可視化分析

      可視化結果也直觀地證明了 UniSOT 的有效性。例如,RABH能夠更穩(wěn)定地定位目標,有效抑制干擾物;MMCLoss使得視覺和語言語義Token的響應圖更加一致且具有判別力。


      目標定位結果可視化顯示


      不同參考模態(tài)下的跟蹤結果可視化


      不同輔助模態(tài)下的跟蹤結果可視化

      總結與展望

      UniSOT 的提出,無疑為多模態(tài)單目標跟蹤領域帶來了新的思路。它通過一系列精巧的設計,首次實現(xiàn)了一個能夠以統(tǒng)一參數(shù)處理多種參考模態(tài)和視頻模態(tài)的跟蹤器,極大地提升了跟蹤器的實用性和泛化能力。CV君覺得,這種統(tǒng)一化的設計理念,不僅簡化了模型部署,也為未來更復雜的跨模態(tài)感知任務提供了寶貴的經(jīng)驗。

      你覺得這個技術未來會用在哪些場景?一起來聊聊吧!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優(yōu)趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發(fā)生!私生活被詬病,網(wǎng)友:紅顏薄命

      何晴去世不到24小時,惡心事發(fā)生!私生活被詬病,網(wǎng)友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續(xù)!10萬懸賞追逃,當?shù)厝似馗鄡?nèi)幕

      廣西54歲李某甘蔗地殺2女后續(xù)!10萬懸賞追逃,當?shù)厝似馗鄡?nèi)幕

      奇思妙想草葉君
      2025-12-14 21:46:07
      醫(yī)生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫(yī)生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發(fā)!澤連斯基,妥協(xié)了!一切結束了!

      突發(fā)!澤連斯基,妥協(xié)了!一切結束了!

      財經(jīng)要參
      2025-12-15 13:18:38
      人社部定調(diào)!穩(wěn)步提高社會保障待遇水平,2026年養(yǎng)老金雙增長嗎?

      人社部定調(diào)!穩(wěn)步提高社會保障待遇水平,2026年養(yǎng)老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉?qū)嵜e報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉?qū)嵜e報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發(fā)文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發(fā)文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

      黃河新流域
      2025-09-28 13:34:43
      被全網(wǎng)瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉(zhuǎn)!

      被全網(wǎng)瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉(zhuǎn)!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉(zhuǎn)這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現(xiàn)了!

      何晴離世消息曝光不到24小時,惡心的一幕出現(xiàn)了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

      泠泠說史
      2025-12-15 18:05:17
      西方內(nèi)訌升級:英銀行家集體反水威脅撤出俄資產(chǎn)

      西方內(nèi)訌升級:英銀行家集體反水威脅撤出俄資產(chǎn)

      夢想的現(xiàn)實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:43:00
      算法與數(shù)學之美 incentive-icons
      算法與數(shù)學之美
      分享知識,交流思想
      5267文章數(shù) 64595關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內(nèi)部人士回應

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內(nèi)部人士回應

      體育要聞

      戰(zhàn)勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現(xiàn)場,前夫許亞軍雙眼泛紅?

      財經(jīng)要聞

      新農(nóng)合漲到400元 農(nóng)民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態(tài)度原創(chuàng)

      游戲
      親子
      健康
      手機
      教育

      當手機能自動清每日任務,玩家天天上線是為了什么?

      親子要聞

      寶寶為啥一出門就不鬧了?真相不是“看新鮮”,90%家長沒琢磨透

      這些新療法,讓化療不再那么痛苦

      手機要聞

      全新紗緞光刻工藝!vivo S50圖賞

      教育要聞

      12月13日雅思大作文示范寫作 | 探索未開發(fā)景點的利與弊

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 四虎影视永久在线精品| 日韩激情无码免费毛片| 亚洲午夜精品久久久久久app| 成人性生交大片免费看视频app| 国产精品18久久久| 亚洲AV无码成人网站久久精品| 在线日韩一区二区| 中文人妻AV高清一区二区| 茄子av| 灯塔市| 一本色道久久综合亚洲精品按摩 | 欧美日韩午夜| 国产精品综合| 成人午夜AV| 亚州成人无码| 失禁大喷潮在线播放| 国产精品偷伦费观看一次| 成人精品区| 伊宁县| 黑人巨大精品欧美| 成人无遮挡裸免费视频在线观看| 国产成人精品a视频一区| а∨天堂一区中文字幕| 黄wwwww| 弋阳县| 激情影院内射美女| 性人久久久久| 欧美人成精品网站播放| 国产一级AAAAA片免费| 无码专区—va亚洲v天堂麻豆| 欧美噜噜久久久xxx| 痉挛高潮喷水av无码免费 | 欧美xb| 一本久久伊人热热精品中文字幕| 无码中文字幕av免费放| yy111111在线尤物| 欧产日产国产精品精品| 亚洲欲妇| av天堂中文字幕| 熟女毛多熟妇人妻在线视频| 狠狠躁夜夜躁人人爽天天古典|