視覺追蹤技術的背后,隱藏著一場模板設計的靜默革命。在復雜多變的現實場景中,目標物體會經歷形變、遮擋甚至與相似物體共存的挑戰,這使得準確追蹤成為計算機視覺中的一項艱巨任務。傳統追蹤方法往往要么保持模板純凈度而缺乏適應性,要么過度融合而引入干擾信息。ROMTrack框架打破了這一兩難困境,通過巧妙結合內在模板與混合模板的優勢,同時引入變化令牌來應對目標外觀變化,實現了對象建模的質的飛躍。這種創新設計不僅在多個基準測試中創造了新的性能記錄,更為視覺追蹤技術開辟了全新的研究思路。
![]()
追蹤對決
視覺對象追蹤是計算機視覺領域的基礎任務,目標是在給定初始狀態的情況下,在視頻序列中定位任意目標。拍攝場景中的遮擋、尺度變化、物體變形以及干擾物體的出現,都給實際應用中的追蹤器帶來了巨大挑戰。近年來,基于Transformer架構的追蹤器在應對這些難題時展現出顯著優勢。
當前主流的追蹤器通常采用三種對象建模方法。第一種是兩流混合建模法,如TransT和SBT,通過兩個交叉注意力操作實現模板與搜索區域的交互學習。第二種是單流混合建模法,如OSTrack和SimTrack,采用單一自注意力操作聯合學習混合模板特征和搜索區域特征。第三種是兩流分離建模法,如MixFormer和AiATrack,保持單獨的模板流以確保模板特征的純凈性。
這些方法各有優缺點。分離模板學習可以保持目標模板的固有特征,防止搜索區域的干擾,但缺乏模板與搜索區域之間的交流,難以提取具有區分性的目標導向特征。混合模板學習雖然可以進行廣泛的特征匹配,但可能通過雜亂的搜索區域將潛在的干擾引入模板,導致追蹤精度下降。
![]()
物體追蹤還面臨目標外觀變化的挑戰。在短時間內,目標運動通常是平滑的,但可能伴隨著外觀的巨大變化。追蹤器可以輕松處理平滑運動,但外觀變化則難以區分。例如,當一個人從正面轉向側面時,面部特征會發生顯著變化;或者當一只狗從站立變為臥下時,身體輪廓會完全不同。這些快速變化的外觀特征給準確追蹤帶來了極大挑戰。
此外,現實場景中常有相似外觀的干擾物體出現。比如,在追蹤一個人時,畫面中可能有多個穿著相似的人;在追蹤一輛車時,可能有多輛類似顏色和形狀的車輛。這些干擾物體可能導致追蹤器混淆目標,尤其是當目標被短暫遮擋后重新出現時。
從技術角度看,傳統的基于相關性的網絡在追蹤中起著關鍵作用,但它們沒有充分利用全局上下文。因此,近期主導的追蹤器引入了堆疊的Transformer層來進行更好的關系建模。這些追蹤器在特征提取和關系建模方面表現出色,但仍然面臨著如何平衡模板純凈度和特征匹配能力的挑戰。
雙劍合璧
針對現有追蹤方法的局限,ROMTrack提出了一種全新的穩健對象建模框架。該框架的核心思想是同時建模固有模板和混合模板特征,以結合兩種方法的優勢,同時規避它們的缺點。
ROMTrack的整體架構采用了vanilla ViT(視覺Transformer)作為骨干網絡,但用提出的對象編碼器替換了傳統的ViT編碼器,并在最后一個編碼器的輸出令牌上添加了預測頭。ROMTrack的輸入是一個包含一對模板圖像和一個搜索區域圖像的三元組。固有模板負責學習固有模板特征,混合模板負責學習混合模板特征。
在ROMTrack中,對象編碼器包含兩個關鍵組件:變化令牌和穩健對象建模。變化令牌是目標對象上下文外觀變化的嵌入,有助于解決物體變形和外觀變化問題。它們在每個對象編碼器后生成,從搜索區域中編碼外觀上下文的變化。這種設計基于一個觀察:目標在短時間內的運動通常是平滑的,但可能伴隨著外觀的巨大變化。
![]()
穩健對象建模方法的核心在于其兩種類型的模板:固有模板和混合模板。固有模板通過自注意力操作單獨增強學習的特征,消除來自搜索區域的干擾。同時,它接受來自混合模板和搜索區域特征的查詢,為具有區分性的目標導向特征學習提供固有信息。混合模板和搜索區域特征通過標準交叉注意力操作學習,實現相互指導。這種設計允許固有特征與混合特征之間的協同作用,創造出一個更加穩健的追蹤系統。
從技術層面看,每個對象編碼器層包含一個自注意力操作和一個交叉注意力操作。自注意力操作用于增強固有模板特征,而交叉注意力操作則用于增強混合模板和搜索區域特征。在交叉注意力操作中,查詢來自混合模板和搜索區域,而鍵和值則來自所有四個組成部分:變化令牌、固有模板、混合模板和搜索區域。
為了更直觀地理解這一過程,可以將注意力輸出分解為多個部分。例如,混合模板的注意力輸出包含來自變化令牌、固有模板、混合模板自身和搜索區域的信息。這種綜合信息使得混合模板能夠捕獲目標對象在第一幀和當前幀中的外觀信息,使其對上下文外觀變化敏感。
變化令牌的設計巧妙地利用了混合模板的這一特性。具體來說,當追蹤第t幀時,將第t-1幀的混合模板保留為變化令牌,以提供上下文外觀變化信息。這些變化令牌與當前幀的特征一起輸入下一個編碼器,幫助網絡適應目標外觀的變化。
ROMTrack的訓練過程包含兩個階段。在第一階段,按照主流追蹤器的標準訓練方法,不使用變化令牌訓練ROMTrack。在第二階段,通過在同一序列的連續幀中采樣兩個搜索區域來模擬它們之間的外觀變化,將變化令牌加入訓練。這種雙階段訓練策略確保了網絡能夠有效地學習和利用變化令牌。
相比現有方法,ROMTrack在多項基準測試中展現出了卓越性能。例如,在GOT-10k測試中,ROMTrack的AO指標達到72.9%,比SwinTrack-T-224高1.6%;在LaSOT測試中,AUC指標達到69.3%,超過了OSTrack和MixFormer。這些結果證明了ROMTrack在區分和定位物體方面的卓越能力。更高分辨率的模型ROMTrack-384在所有測試基準上都創造了新的最先進性能,顯示了該方法在追蹤未見類別對象方面的潛力。
![]()
值得注意的是,ROMTrack在實時性能方面也表現出色。它可以以每秒60幀以上的速度運行,與OSTrack-256相當,同時比MixFormer快2.5倍。這一特點使得ROMTrack不僅在準確性上領先,在實際應用中也具有顯著優勢。
實力證明
ROMTrack在多個權威基準測試上的表現,為其設計理念提供了有力支撐。在GOT-10k測試集上,ROMTrack將AO(平均重疊)指標提升至72.9%,比同類追蹤器SwinTrack-T-224高出1.6個百分點;在SR0.75(成功率0.75)指標上達到70.2%,超過OSTrack-256整整2個百分點。這些數據表明,ROMTrack在精確區分和定位物體方面具有明顯優勢。
更值得注意的是,ROMTrack-384(高分辨率版本)在GOT-10k測試集上創造了74.2%的AO成績,打破了之前的記錄。這種在未見類別對象追蹤中的卓越表現,證明了該框架具有極強的泛化能力。
在長期追蹤基準LaSOT上,ROMTrack同樣表現不俗。它在AUC(曲線下面積)指標上達到69.3%,超過了當前主流的OSTrack和MixFormer追蹤器。而高分辨率版本ROMTrack-384更是將AUC提升至71.4%,創造了新的記錄。這意味著在長視頻序列中,ROMTrack能夠維持更穩定的追蹤性能,不易受到遮擋、變形等因素的干擾。
在短期追蹤基準TrackingNet上,ROMTrack的表現同樣令人印象深刻。它在AUC指標上獲得83.6%的成績,在PNorm(歸一化精度)指標上達到88.4%,顯著超越了之前的最佳成績。這證明ROMTrack不僅適用于長期追蹤場景,在短期追蹤任務中同樣表現優異。
對抗相似干擾物體是追蹤器面臨的一大挑戰,LaSOText基準正是為測試這一能力而設計的。在這一基準上,ROMTrack的AUC達到48.9%,PNorm達到59.3%,比之前的最佳成績ToMP提高了1.2個百分點。這一結果表明,ROMTrack不僅能夠應對未見類別的追蹤任務,還能有效區分相似的干擾物體。
在小規模基準測試OTB100和NFS30上,ROMTrack同樣取得了優異成績。在OTB100上,AUC達到71.4%;在NFS30上,AUC達到68.0%。這些結果進一步證明了ROMTrack方法的通用性和有效性。
![]()
除了追蹤準確性外,計算效率也是評估追蹤器的重要指標。實驗表明,ROMTrack能夠以每秒60幀以上的速度運行,與OSTrack-256相當,而且比MixFormer快2.5倍。高分辨率版本ROMTrack-384也能達到每秒28幀的速度,與OSTrack-384相當,遠快于MixFormer-L。值得一提的是,ROMTrack-384在性能上超越MixFormer-L,但只使用了后者61%的MAC(乘加計算量)和50%的參數量。這表明ROMTrack不僅追蹤精度高,計算效率也更優。
深入分析發現,ROMTrack的成功關鍵在于其穩健的對象建模方法。通過結合固有模板和混合模板的優勢,ROMTrack能夠同時保持模板的純凈性和特征匹配能力。實驗結果顯示,即使沒有變化令牌,僅有固有模板和混合模板的ROMTrack(稱為ROMTrack (w/o vt))也能在所有基準測試中取得最佳成績,證明了穩健對象建模方法的優越性。
變化令牌的引入進一步提升了ROMTrack的性能。實驗表明,相比直接使用上一幀預測結果提取的模板特征(稱為ROMTrack-lpr),變化令牌能夠更好地模擬目標外觀變化,從而提高追蹤精度。在LaSOT基準上,ROMTrack比ROMTrack (w/o vt)的AUC高0.5個百分點;在LaSOText基準上,提高了0.7個百分點。這表明變化令牌設計確實能夠通過提示網絡調整目標物體的外觀建模來提高追蹤性能。
實驗還探索了樣本采樣策略對訓練效果的影響。結果顯示,連續采樣策略(即從同一視頻序列中采樣兩個連續幀作為搜索區域)比隨機采樣策略(從同一視頻序列中隨機采樣兩幀)效果更好。這是因為連續采樣能夠幫助模型更好地學習物體外觀的時間變化特性。
可視化分析進一步揭示了ROMTrack的工作原理。通過觀察不同塊之后的注意力圖和特征,可以發現搜索區域中的目標物體通過與兩個模板流和變化令牌的交互,逐層增強其特征。背景中可能的干擾物體被有效抑制,表明ROMTrack方法的魯棒性。相比之下,普通的混合模板建模(HTM)和分離模板建模(STM)方法在區分干擾物體和目標物體時存在困難,而ROMTrack能夠更準確地定位目標。
未來可期
ROMTrack的優異表現和創新設計不僅在當前視覺追蹤領域取得了突破,也為未來的技術發展指明了方向。在實際應用方面,ROMTrack框架表現出的高精度和實時性能,使其有望在多個領域發揮重要作用。
在視頻監控系統中,ROMTrack可以實現更精確的人員和車輛追蹤。傳統的監控系統在處理遮擋、人群密集或光照變化等情況時常常失效,而ROMTrack的穩健對象建模能力能夠有效應對這些挑戰。例如,在商場、機場等人流密集場所,ROMTrack可以持續追蹤特定人員,即使他們暫時被其他人遮擋或改變外觀(如脫下外套)。
![]()
自動駕駛領域也是ROMTrack的潛在應用方向。準確追蹤周圍的車輛、行人和其他道路使用者對自動駕駛系統至關重要。ROMTrack的高精度和實時性能使其能夠滿足自動駕駛的嚴格要求,特別是在復雜交通環境中區分相似外觀的車輛或行人。
在體育分析領域,ROMTrack可以用于球員和球的追蹤,幫助教練和分析師獲取更精確的運動數據。例如,在足球比賽中,即使球員在場上頻繁交叉移動,ROMTrack也能保持對特定球員的穩定追蹤。
影視制作中的動作捕捉和特效合成也可能受益于ROMTrack的高精度追蹤能力。傳統的動作捕捉系統往往需要演員穿戴特殊標記,而基于ROMTrack的系統可能實現無標記追蹤,大幅提高拍攝效率和演員舒適度。
除了直接應用,ROMTrack中的變化令牌設計也為其他計算機視覺任務提供了啟示。變化令牌成功地將時序信息嵌入到空間特征學習中,這一思路可以擴展到視頻分類、動作識別等需要理解時序變化的任務。
ROMTrack的穩健對象建模方法也可以進一步拓展。一個可能的方向是將模板更新策略與變化令牌設計結合。研究表明,結合兩者可以進一步提升性能,如在LaSOT基準上將AUC提高到69.6%。這表明,變化令牌與模板更新策略是互補的,未來的研究可以探索更優的結合方式。
多目標追蹤是另一個值得探索的方向。當前的ROMTrack主要針對單目標追蹤任務,但其穩健的對象建模框架有潛力擴展到多目標場景。在多目標追蹤中,不同目標之間的區分和身份保持是主要挑戰,ROMTrack的固有模板和變化令牌設計可能有助于解決這些問題。
盡管ROMTrack在多個基準測試上取得了優異成績,但視覺追蹤技術仍面臨諸多挑戰。極端光照變化、長時間遮擋、突發運動等情況依然是追蹤難題。未來的研究可以探索將ROMTrack與其他技術(如物理運動模型、深度信息)結合,以應對這些挑戰。
變化令牌的設計也有進一步優化空間。當前的實現使用前一幀的混合模板作為變化令牌,未來可以探索利用多幀信息或自適應選擇關鍵幀作為變化令牌的來源,以更好地捕捉目標外觀的動態變化。
隨著計算資源的提升和數據集規模的擴大,未來的視覺追蹤技術可能會朝著更大規模、更復雜的模型方向發展。ROMTrack已經證明,通過精心設計的架構,可以在不大幅增加計算量的情況下顯著提升性能。這一設計思路將繼續指導未來追蹤技術的發展。
![]()
總的來說,ROMTrack不僅是當前視覺追蹤技術的一次重要進步,也為未來的研究和應用指明了方向。它的成功表明,通過深入理解任務本質和創新設計,可以有效解決計算機視覺中的復雜問題。
參考資料
Cai, Y., Liu, J., Tang, J., &; Wu, G. (2023). Robust Object Modeling for Visual Tracking. ICCV 2023.
Chen, Z., Zhong, B., Li, G., Zhang, S., &; Ji, R. (2022). Visual Tracking via Hierarchical Deep Reinforcement Learning. CVPR 2022.
Wang, N., Zhou, W., Wang, J., &; Li, H. (2021). Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking. CVPR 2021.
Yan, B., Peng, H., Fu, J., Wang, D., &; Lu, H. (2021). Learning Spatio-Temporal Transformer for Visual Tracking. ICCV 2021.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.