![]()
這項由密歇根大學的Ayush Shrivastava、Sanyam Mehta、Daniel Geng和Andrew Owens,以及康奈爾大學的Andrew Owens共同完成的研究發表于2025年10月,論文編號為arXiv:2510.11715v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們看到一個人在視頻中跑步時,我們的大眼睛能夠輕松地跟蹤他的移動軌跡,即使他偶爾被樹木遮擋,我們也知道他會從另一邊出現。這種看似簡單的能力,對于計算機來說卻是一個巨大的挑戰。現在,密歇根大學的研究團隊發現了一個令人驚訝的現象:那些原本用來生成視頻的人工智能,竟然也具備了"追蹤"物體運動的神奇能力。
研究團隊發現,視頻生成和物體追蹤這兩個看似完全不同的任務,實際上有著深層的聯系。生成視頻的AI需要理解物體如何在時間中移動和變化,而追蹤物體也需要預測它們的運動軌跡。基于這個洞察,研究人員想出了一個巧妙的方法:在視頻的第一幀中放置一個醒目的紅色圓點標記在想要追蹤的位置上,然后讓視頻生成AI重新生成整個視頻。令人驚訝的是,AI不僅保留了這個紅點,還讓它隨著物體一起移動,就像是給物體貼上了一個"追蹤貼紙"。
這種方法的核心思想可以比作給寵物戴上GPS項圈。當你想知道你的貓在房子里的移動路線時,你給它戴上一個醒目的項圈,然后通過監控錄像就能看到項圈(代表貓)的移動軌跡。研究團隊的方法類似,只不過他們是在數字世界中給想要追蹤的物體"戴上"一個虛擬的紅色標記。
這項研究的創新之處在于,它完全不需要專門訓練追蹤算法,而是巧妙地利用了現有視頻生成AI的內在能力。這就像發現一臺原本用來洗衣服的機器,竟然還能用來脫水蔬菜一樣。研究團隊稱這種方法為"點提示追蹤",因為它通過簡單的視覺提示就能實現復雜的追蹤功能。
一、讓AI"看見"運動的魔法原理
要理解這個方法的工作原理,我們可以把視頻生成AI想象成一個非常有經驗的動畫師。這個動畫師已經看過無數的視頻,知道各種物體是如何移動的:球會滾動、人會走路、葉子會飄落。當你給這個動畫師一張靜態圖片,并要求他畫出接下來會發生什么時,他會根據以往的經驗來預測和繪制物體的運動。
研究團隊使用的核心技術叫做"擴散模型",這是目前最先進的視頻生成技術之一。擴散模型的工作方式就像是從一團噪聲中逐漸"雕刻"出清晰的視頻,每一步都讓畫面變得更加清晰和合理。研究人員發現,當他們在第一幀中添加一個明顯的紅色圓點時,擴散模型會自然地讓這個圓點跟隨著物體移動,因為這樣的運動模式更符合AI從訓練數據中學到的物理規律。
但是這里有一個挑戰:AI有時會"忘記"這個人工添加的紅點,因為在真實世界的視頻中,很少有物體表面會有這樣明顯的紅色標記。這就像一個經驗豐富的廚師,當你要求他做一道從未見過的奇怪菜肴時,他可能會本能地按照傳統做法來處理。為了解決這個問題,研究團隊想出了一個聰明的"負面提示"技術。
負面提示的工作原理就像是告訴AI:"不要生成看起來像原始視頻的內容"。具體來說,研究人員同時向AI展示兩個版本的第一幀:一個帶有紅色標記的版本,一個沒有標記的原始版本。然后他們告訴AI:"朝著第一個版本的方向生成,但要遠離第二個版本"。這種對比指導確保了紅色標記不會消失,而是會持續跟隨物體移動。
整個過程使用了一種叫做"SDEdit"的技術,這個技術的作用就像是給一張已經畫好的畫重新上色。研究人員不是從零開始生成視頻,而是在原始視頻的基礎上添加一定程度的"噪聲",然后讓AI重新"清理"這些噪聲。在清理過程中,AI會保持視頻的基本結構,但會讓新添加的紅色標記自然地融入到物體的運動中。
這種方法的巧妙之處在于它利用了AI的"想象力"。當AI看到一個物體表面有紅色標記時,它會自然地推理這個標記應該如何隨著物體移動。就像當你看到一輛汽車車頂有一個明顯的標志時,你知道這個標志會隨著汽車一起行駛,即使汽車轉彎或者被其他車輛暫時遮擋。
二、讓紅點"粘"在物體上的技術挑戰
雖然基本概念聽起來簡單,但要讓這個方法真正有效,研究團隊需要解決許多技術難題。第一個挑戰是如何確保紅色標記真的"粘"在物體上,而不是飄在空中或者粘在背景上。
研究人員發現,視頻生成AI有時會把紅色標記理解為鏡頭上的污點,就像你手機攝像頭上的灰塵一樣,標記會保持在畫面的固定位置而不跟隨物體移動。為了避免這種情況,他們需要精心調整AI的生成參數,確保標記被理解為物體表面的一部分。
另一個挑戰是處理對稱性問題。當追蹤人體這樣具有對稱結構的物體時,AI有時會把標記從右手"跳"到左手,或者從右腳"跳"到左腳。這種現象就像你在鏡子中看自己時,有時會分不清哪個是左手哪個是右手。研究團隊通過改進標記的設計和AI的引導方式,大大減少了這種錯誤。
最困難的挑戰是處理遮擋問題。當被追蹤的物體被其他物體擋住時,AI需要"記住"物體的位置,并在物體重新出現時繼續追蹤。這就像你在擁擠的人群中跟蹤一個朋友,即使他暫時被人群遮擋,你也需要預測他會從哪里重新出現。
為了提高追蹤的準確性,研究團隊開發了兩個重要的改進技術。第一個是"顏色重平衡",這個技術會預先處理視頻,減少背景中的紅色成分,確保紅色標記成為畫面中最顯眼的紅色元素。這就像在一個房間里關掉所有的紅色燈光,只留下你想要找的那個紅色物體發光。
第二個改進是"粗到細的精細化"技術。這個過程分為兩個步驟:首先使用基本方法獲得一個大致的追蹤軌跡,然后使用AI的"修復"功能對軌跡附近的區域進行精細調整。這種方法就像先用粗筆畫出草圖,然后用細筆描繪細節。在第二步中,AI只被允許修改紅色標記周圍的小區域,而保持視頻的其余部分不變。
研究團隊還開發了一個智能的追蹤算法來提取紅色標記的位置。這個算法不是簡單地尋找紅色像素,而是使用了更復雜的策略。它會在前一幀標記位置的附近搜索紅色像素,如果發現標記被遮擋了,就會逐漸擴大搜索范圍直到重新找到標記。找到標記后,算法會計算附近所有紅色像素的平均位置,得到一個更穩定和準確的中心點。
這種追蹤方法的一個獨特優勢是它能夠處理長時間的遮擋。傳統的追蹤方法往往在物體被遮擋幾秒鐘后就會失效,但這種基于視頻生成的方法能夠利用AI對物體運動的深層理解,即使在長時間遮擋后也能成功恢復追蹤。
三、與傳統方法的較量:意外的發現
為了驗證這種新方法的有效性,研究團隊在標準的視頻追蹤測試數據集上進行了大量實驗。他們選擇了TAP-Vid基準測試,這是一個專門用來評估點追蹤算法的權威數據集,包含了各種復雜場景的視頻。
實驗結果令人驚訝。在不需要任何專門訓練的情況下,這種"零樣本"方法的表現竟然超過了所有其他零樣本追蹤方法,甚至在某些指標上接近了那些需要大量訓練數據的專業追蹤算法。具體來說,在TAP-Vid DAVIS數據集上,他們的方法達到了42.21的平均Jaccard分數,大幅超過了之前最好的零樣本方法(29.68分)。
更令人印象深刻的是,這種方法在處理遮擋方面表現尤為出色。傳統的追蹤方法往往在物體被遮擋后就會丟失目標,但基于視頻生成的方法在遮擋準確性上達到了82.90%,不僅超過了其他零樣本方法,甚至超過了一些需要專門訓練的自監督方法。
研究團隊測試了多個不同的視頻生成模型,包括Wan2.1(有13億和140億參數兩個版本)、Wan2.2和CogVideoX。他們發現,更強大的視頻生成模型確實能夠帶來更好的追蹤性能。這個發現驗證了他們的核心假設:視頻生成質量和追蹤能力之間存在直接關系。
有趣的是,研究人員還發現視頻分辨率對追蹤效果有重要影響。當他們使用高分辨率視頻時,追蹤精度顯著提高。這是因為高分辨率視頻為AI提供了更多細節信息,使其能夠更準確地理解和預測物體運動。
研究團隊還進行了詳細的消除實驗,系統性地移除方法中的各個組件來驗證它們的重要性。結果顯示,負面提示技術是最關鍵的組件——如果沒有這個技術,紅色標記往往在幾幀之后就會消失。顏色重平衡技術也很重要,特別是在處理包含很多紅色元素的場景時。精細化步驟則能夠進一步提高追蹤精度,特別是在物體運動復雜的情況下。
令人意外的是,標記的顏色選擇對結果有一定影響,但不是決定性的。雖然紅色標記效果最好,但藍色標記也能取得不錯的結果。這表明這種方法具有一定的通用性,不完全依賴于特定的顏色選擇。
然而,這種方法也有一些局限性。在某些合成視頻(如計算機圖形生成的場景)上,效果不如在真實視頻上那么好。這可能是因為用于訓練視頻生成AI的數據主要來自真實世界的視頻,對合成場景的理解相對較弱。另外,當物體具有高度對稱性時,追蹤有時會在對稱部位之間"跳躍"。
四、計算成本與實際應用的平衡
雖然這種方法在準確性上表現出色,但它也面臨著實際應用中的挑戰。最主要的問題是計算成本:為每個追蹤點生成一個完整的視頻需要相當多的計算資源和時間。
根據研究團隊的測試,使用13億參數的Wan2.1模型追蹤一個點大約需要7分鐘,而使用140億參數的更大模型則需要30分鐘。對于CogVideoX模型,處理時間約為20分鐘。這些時間都是在高端GPU上的測試結果,對于普通用戶來說,時間可能會更長。
這種計算開銷主要來自于視頻生成過程的復雜性。現代視頻生成AI需要進行多次迭代來逐步優化每一幀,每次迭代都涉及大量的矩陣運算。相比之下,傳統的追蹤算法通常能夠實時運行,每秒處理幾十幀視頻。
然而,研究團隊指出,這種方法的價值不在于立即取代現有的追蹤系統,而在于證明了視頻生成AI具有內在的追蹤能力。這個發現為未來的研究開辟了新的方向。例如,研究人員可以開發專門的"蒸餾"技術,將這種基于生成的追蹤能力轉移到更快速的專用追蹤網絡中。
另一個可能的改進方向是開發更高效的生成方法。目前的方法需要50個去噪步驟來生成視頻,但研究人員正在探索只需要一兩個步驟的快速生成方法。如果這些技術成熟,基于生成的追蹤方法就可能達到實時應用的要求。
研究團隊還探索了同時追蹤多個點的可能性。理論上,可以在第一幀中放置多個不同顏色的標記,讓AI同時追蹤多個目標。初步實驗表明這是可行的,但需要更仔細的顏色選擇和沖突處理策略。
對于資源有限的應用場景,研究人員建議可以采用混合策略:使用這種生成方法來處理最困難的追蹤場景(如長時間遮擋),而在其他情況下使用傳統的快速追蹤方法。這樣可以在保持整體效率的同時,顯著提高困難場景下的追蹤準確性。
五、技術局限與未來改進空間
盡管這項研究取得了顯著成果,但研究團隊也誠實地指出了方法的局限性。最明顯的問題是對于某些類型的視頻,特別是計算機生成的合成視頻,這種方法的效果不夠理想。
在合成視頻中,物體的運動模式和外觀可能與AI在真實視頻上學到的經驗有所不同。例如,在游戲視頻中,角色的動作可能過于夸張或不符合物理規律,這會讓AI感到"困惑",導致追蹤失敗。研究團隊發現,在TAP-Vid Kubric(一個合成視頻數據集)上的表現明顯低于在真實視頻上的表現。
另一個挑戰是邊界歧義問題。當追蹤點非常接近物體邊緣時,AI有時會把標記"粘"到背景上而不是物體上。這種情況就像你試圖在一個球的邊緣貼標簽,標簽可能會粘到桌面上而不是球上。
對稱性混淆也是一個持續的問題。雖然研究團隊已經通過各種技術減少了這種情況,但在處理高度對稱的物體(如人體的左右手)時,標記仍然可能在對稱部位之間跳躍。
研究人員還觀察到,在某些情況下,AI會將紅色標記理解為與物體表面無關的元素,比如相機鏡頭上的污點或環境中的反射光。這會導致標記保持在畫面的固定位置而不跟隨物體移動。
為了解決這些問題,研究團隊提出了幾個可能的改進方向。首先是改進標記設計:不僅僅使用簡單的紅色圓點,而是設計更復雜的標記模式,讓AI更容易理解它們屬于物體表面。例如,可以使用具有紋理的標記,或者在標記周圍添加陰影效果。
其次是開發更智能的引導策略。目前的負面提示技術雖然有效,但比較粗糙。研究人員正在探索更精細的引導方法,能夠更準確地控制AI的生成行為。
第三個方向是結合多種模態的信息。除了視覺信息,還可以利用音頻、深度信息或運動傳感器數據來輔助追蹤。這樣的多模態方法可能會更加魯棒和準確。
研究團隊還建議開發專門針對合成視頻優化的模型。通過在更多樣化的視頻數據上訓練,包括各種風格的動畫和游戲視頻,AI可能會獲得更好的泛化能力。
六、對未來AI發展的深遠影響
這項研究的意義遠遠超出了視頻追蹤本身。它揭示了一個重要的原理:為一個任務訓練的AI系統往往具有執行相關任務的潛在能力,即使它從未被明確地訓練過這些任務。
這種現象在AI領域被稱為"涌現能力"。就像一個學會了畫畫的人自然也會具備一定的色彩搭配能力一樣,學會了生成視頻的AI也自然獲得了理解和預測物體運動的能力。這個發現為我們重新思考AI的能力邊界提供了新的視角。
在實際應用方面,這種技術可能會帶來多個領域的創新。在電影制作中,它可以用來自動追蹤演員或道具的移動,減少后期制作的工作量。在體育分析中,它可以幫助自動追蹤球員或球的運動軌跡,為戰術分析提供數據支持。
在安防監控領域,這種技術可能會帶來新的突破。傳統的監控系統往往在目標被遮擋或離開畫面后就會丟失追蹤,但基于生成的方法可能能夠更好地處理這些困難場景。當然,這也需要解決計算效率的問題。
在醫學影像分析中,這種技術可能有助于追蹤器官或病變的變化。例如,在心臟超聲檢查中,可以自動追蹤心臟壁的運動,幫助醫生診斷心臟功能異常。
更廣泛地說,這項研究展示了"提示工程"在視覺任務中的巨大潛力。就像在自然語言處理中,精心設計的文本提示可以讓AI執行各種任務一樣,精心設計的視覺提示也可能讓視覺AI執行意想不到的任務。
這個發現也為AI研究的發展方向提供了啟發。與其總是從零開始訓練專門的AI系統,研究人員可能可以更多地探索如何通過巧妙的提示或引導方法來激發現有AI系統的潛在能力。這種方法不僅更加高效,也可能發現AI的新能力。
從更深層的角度來看,這項研究表明AI對世界的理解可能比我們想象的更加深入和統一。生成和理解、創造和分析,這些在人類看來不同的認知活動,在AI的內部表示中可能有著深層的聯系。
說到底,這項來自密歇根大學的研究為我們打開了一扇新的窗戶。它讓我們看到,AI的能力邊界遠比我們想象的更加模糊和廣闊。一個被訓練來生成視頻的AI,竟然能夠理解和追蹤物體的運動,這種跨任務的能力遷移暗示著AI正在發展出更加通用和靈活的智能。
雖然這種方法目前還面臨著計算效率和適用范圍的限制,但它開辟的研究方向可能會在未來幾年內帶來重大突破。當我們學會更好地與AI"對話",通過恰當的提示來激發它們的潛在能力時,可能會發現更多令人驚訝的應用。這不僅會改變我們使用AI的方式,也會改變我們對智能本質的理解。
對于普通人來說,這項研究提醒我們,AI的發展正在以我們難以預料的方式進行。那些看似專門為某個特定任務設計的AI系統,可能隱藏著執行其他任務的巨大潛力。隨著研究人員繼續探索這些隱藏的能力,我們可能會看到AI在各個領域的應用出現意想不到的突破。
有興趣深入了解這項研究技術細節的讀者,可以通過論文編號arXiv:2510.11715v1查詢完整的學術論文,其中包含了詳細的實驗數據和技術實現細節。
Q&A
Q1:點提示追蹤是什么技術?
A:點提示追蹤是密歇根大學研究團隊開發的一種新型視頻追蹤技術。它的工作原理是在視頻第一幀的目標位置放置一個紅色圓點標記,然后讓視頻生成AI重新生成整個視頻,AI會自動讓紅點跟隨物體移動,從而實現追蹤效果。
Q2:這種方法比傳統追蹤算法有什么優勢?
A:最大優勢是處理遮擋問題的能力特別強。傳統追蹤方法在物體被遮擋后往往會丟失目標,但這種基于視頻生成的方法能利用AI對物體運動的深層理解,即使在長時間遮擋后也能成功恢復追蹤。而且它不需要專門訓練,是真正的"零樣本"方法。
Q3:這種追蹤方法有什么局限性?
A:主要問題是計算成本很高,追蹤一個點需要7-30分鐘不等,遠比傳統方法慢。另外,在計算機合成視頻上效果不夠理想,處理高度對稱物體時可能出現標記跳躍問題,而且在物體邊緣附近追蹤時容易出現歧義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.