<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Salesforce團隊破解長視頻理解難題:讓AI像人類一樣觀察視頻

      0
      分享至


      這項由Salesforce AI Research的王子陽和周洪露等研究人員,以及北卡羅來納大學教堂山分校的研究團隊共同完成的研究,發(fā)表于2025年12月的arXiv預(yù)印本平臺(論文編號:arXiv:2512.05774v1)。對于那些希望深入了解技術(shù)細節(jié)的讀者,可以通過這個編號在學術(shù)數(shù)據(jù)庫中找到完整的研究論文。

      當你在看一部兩小時的電影時,你的大腦并不會逐幀分析每個畫面。相反,你會根據(jù)劇情需要,有選擇地關(guān)注關(guān)鍵場景,跳過無關(guān)內(nèi)容,然后在腦海中拼湊出完整的故事線。這種"主動觀察"的能力,正是人類理解長視頻的秘訣。

      然而,目前的人工智能在處理長視頻時,就像一個強迫癥患者,必須把每一幀都仔細看一遍,結(jié)果不僅耗費大量計算資源,還容易在海量信息中迷失關(guān)鍵線索。設(shè)想你讓AI回答"視頻中德國女性在哪個時刻出現(xiàn)"這樣的問題,傳統(tǒng)方法會讓AI把整個視頻從頭到尾掃描一遍,生成大量文字描述,然后再從這些描述中尋找答案。這就像讓人背誦整本字典來回答一個簡單的詞匯問題一樣低效。

      研究團隊意識到,真正的突破在于讓AI學會像人類一樣"主動觀察"。他們開發(fā)了一個叫做"主動視頻感知"(Active Video Perception,簡稱AVP)的框架,教會AI如何有目標地觀察視頻,而不是被動地處理所有信息。

      這個創(chuàng)新的核心在于將長視頻理解轉(zhuǎn)化為一個"探索游戲"。就像一個偵探在調(diào)查案件時,會根據(jù)線索決定下一步該去哪里調(diào)查,該尋找什么證據(jù)一樣,AVP讓AI成為了一個視頻偵探。當面臨一個問題時,AI不再盲目搜索,而是制定觀察計劃,執(zhí)行有針對性的觀察,然后評估收集到的證據(jù)是否足夠回答問題。

      研究團隊在五個不同的長視頻理解基準測試上驗證了這個方法的效果。結(jié)果令人印象深刻:AVP不僅在準確性上超越了現(xiàn)有最好的方法5.7%,更重要的是,它只需要現(xiàn)有方法18.4%的推理時間和12.4%的輸入數(shù)據(jù)量。這意味著AI可以用更少的資源做出更好的判斷,就像一個經(jīng)驗豐富的醫(yī)生只需要幾個關(guān)鍵癥狀就能做出準確診斷,而不需要進行所有可能的檢查。

      一、從被動接收到主動探索的轉(zhuǎn)變

      傳統(tǒng)的AI視頻理解方法就像一個勤勉但缺乏策略的學生。當老師給出一道關(guān)于課本某個章節(jié)的問題時,這個學生會把整本教科書從第一頁開始逐字逐句地抄寫下來,然后再從這堆筆記中尋找答案。雖然最終可能找到正確答案,但這個過程既耗時又低效。

      現(xiàn)有的智能視頻分析系統(tǒng)基本都采用這種"先全盤描述,再搜索答案"的策略。它們會使用專門的"視頻描述器"將視頻的每個片段都轉(zhuǎn)換成文字描述,形成一個龐大的"字幕數(shù)據(jù)庫",然后在這個數(shù)據(jù)庫中搜索與問題相關(guān)的信息。這種方法存在兩個根本性問題。

      第一個問題是計算成本過高。當處理一個小時長的視頻時,系統(tǒng)需要為每個時間段生成詳細的文字描述,無論這些內(nèi)容是否與最終的問題相關(guān)。這就像讓人為整座圖書館的每本書寫摘要,只為了回答一個關(guān)于特定主題的簡單問題。大量的計算資源被浪費在處理無關(guān)信息上。

      第二個問題是信息精度損失。當復雜的視覺信息被壓縮成簡單的文字描述時,許多細微但重要的細節(jié)會丟失。比如,一個物體的確切位置、動作的精確時機、表情的微妙變化等,這些信息在轉(zhuǎn)換過程中很容易被簡化或忽略。這就像通過電話傳話游戲傳遞消息,每次轉(zhuǎn)述都會損失一些原始信息的準確性。

      研究團隊從人類的視覺認知過程中獲得了靈感。當人們觀看長視頻時,他們的注意力會根據(jù)當前的目標和興趣動態(tài)調(diào)整。如果你想知道電影中某個角色何時首次出現(xiàn),你的眼睛和大腦會自動跳過無關(guān)的場景,專注于尋找那個角色的身影。一旦找到,你可能會更仔細地觀察那個片段,確認細節(jié),然后停止進一步的搜索。

      這種"主動感知"的理論在認知科學領(lǐng)域已經(jīng)被廣泛研究。它的核心觀點是:一個智能系統(tǒng)應(yīng)該知道自己為什么要觀察,應(yīng)該選擇觀察什么,并且能夠決定何時、何地以及如何進行觀察。換句話說,感知不應(yīng)該是一個被動的信息接收過程,而應(yīng)該是一個主動的、有目標導向的探索活動。

      基于這個理念,研究團隊重新定義了長視頻理解任務(wù)。他們不再把視頻看作一個需要完全處理的信息源,而是將其視為一個可以交互探索的環(huán)境。在這個環(huán)境中,AI系統(tǒng)扮演著一個主動的探索者角色,它會根據(jù)問題的要求,有選擇性地"訪問"視頻的不同部分,收集相關(guān)證據(jù),并持續(xù)評估這些證據(jù)是否足以回答問題。

      這種轉(zhuǎn)變的意義遠不止提高效率那么簡單。它代表了AI視頻理解從"暴力窮舉"向"智能推理"的根本性轉(zhuǎn)變。就像從用放大鏡逐寸搜索整個房間,轉(zhuǎn)向根據(jù)線索有針對性地檢查特定區(qū)域一樣,這種方法更接近人類解決問題的自然方式。

      二、三步循環(huán):計劃-觀察-反思的智能探索

      AVP框架的核心是一個精心設(shè)計的三步循環(huán)過程,就像一個經(jīng)驗豐富的私家偵探破案的標準流程。每當接到一個新案件(問題)時,偵探不會盲目地四處搜尋,而是會遵循一個系統(tǒng)化的調(diào)查方法:首先制定調(diào)查計劃,然后執(zhí)行實地觀察,最后評估收集到的證據(jù)是否足夠破案。

      第一步是"計劃制定"階段。當系統(tǒng)接收到一個關(guān)于視頻的問題時,規(guī)劃器就像一個資深偵探在案件初期制定調(diào)查策略一樣工作。它需要回答三個關(guān)鍵問題:應(yīng)該尋找什么樣的證據(jù)("尋找目標"),應(yīng)該在視頻的哪個時間段進行搜索("搜索范圍"),以及應(yīng)該用什么樣的精度進行觀察("觀察策略")。

      對于"尋找目標",規(guī)劃器會根據(jù)問題的性質(zhì)生成一個簡潔明確的觀察指令。比如,如果問題是"教練什么時候進入房間",規(guī)劃器可能會生成"定位教練進入的時刻"這樣的指令。如果是更復雜的多步推理問題,規(guī)劃器會專注于當前輪次最需要解決的子問題,將復雜任務(wù)分解為可管理的小步驟。

      對于"搜索范圍",規(guī)劃器會智能地確定目標時間段。如果問題中明確提到了時間信息,比如"在1:00-1:30之間",規(guī)劃器會直接使用這個時間窗口。如果問題包含模糊的時間描述,比如"開場階段"或"結(jié)尾部分",規(guī)劃器會將其轉(zhuǎn)換為具體的時間范圍。當完全沒有時間線索時,規(guī)劃器會選擇以較低的精度快速掃描整個視頻,先獲得大致的方向再進行精細搜索。

      對于"觀察策略",規(guī)劃器會根據(jù)所需證據(jù)的復雜程度確定觀察的精細度。這包括每秒采樣多少幀(幀率設(shè)置)以及使用什么樣的空間分辨率。如果只需要粗略定位某個事件,規(guī)劃器可能選擇低幀率和低分辨率的快速掃描。如果需要捕捉細微的動作或?qū)ο蠹毠?jié),它會提高采樣密度以確保不遺漏重要信息。

      第二步是"目標觀察"階段。觀察器接收到規(guī)劃器制定的計劃后,就像一個專業(yè)攝影師按照拍攝方案執(zhí)行任務(wù)一樣,對視頻進行有針對性的分析。與傳統(tǒng)方法不同,觀察器不會產(chǎn)生冗長的自由形式描述,而是生成結(jié)構(gòu)化的、帶時間戳的證據(jù)記錄。

      這些證據(jù)記錄的格式非常標準化,每條記錄都包含一個時間區(qū)間和對該區(qū)間內(nèi)相關(guān)事件的簡潔描述。比如,對于"尋找教練進入時刻"的任務(wù),觀察器可能會生成類似"[2:15-2:18]: 一位穿著藍色夾克的中年男性從左側(cè)門口進入房間,手持戰(zhàn)術(shù)板"這樣的記錄。這種結(jié)構(gòu)化的記錄方式既保持了時間精確性,又避免了無關(guān)信息的干擾。

      更重要的是,系統(tǒng)維護著一個累積的證據(jù)列表,每輪觀察都會向這個列表中添加新的證據(jù)。這就像偵探在案件調(diào)查過程中不斷補充案件檔案一樣,確保之前收集的所有有價值信息都被保留和利用。這種累積機制使得系統(tǒng)能夠在多輪觀察中建立起越來越完整的"證據(jù)鏈條"。

      第三步是"證據(jù)反思"階段。反思器的作用就像法庭上的法官,需要評估現(xiàn)有證據(jù)是否足以支撐一個確鑿的結(jié)論。它會仔細審查累積的證據(jù)列表,判斷這些證據(jù)是否能夠充分回答原始問題。

      反思器會產(chǎn)生兩個關(guān)鍵輸出:一個置信度分數(shù)和一個詳細的判斷理由。置信度分數(shù)量化了證據(jù)的充分程度,從0到1之間取值。判斷理由則說明了為什么認為證據(jù)充分或不充分。如果置信度超過預(yù)設(shè)的閾值,反思器會從判斷理由中提取最終答案并結(jié)束整個過程。如果置信度不夠,它會明確指出還缺少什么信息,為下一輪觀察提供具體的指導。

      當需要進行下一輪觀察時,系統(tǒng)會更新歷史記錄,將當前輪次的計劃、觀察結(jié)果和反思結(jié)論都添加到運行歷史中。這個歷史記錄為規(guī)劃器提供了寶貴的上下文信息,使其能夠基于已有發(fā)現(xiàn)制定更精準的下一步計劃。比如,如果前一輪在某個時間段沒有找到目標事件,規(guī)劃器可能會調(diào)整搜索范圍或改變觀察精度。

      這個循環(huán)過程會一直持續(xù),直到反思器確認證據(jù)足夠充分,或者達到預(yù)設(shè)的最大觀察輪數(shù)限制。通過這種迭代的方式,系統(tǒng)能夠逐步縮小搜索范圍,提高證據(jù)質(zhì)量,最終達到既高效又準確的視頻理解效果。

      三、實戰(zhàn)驗證:五大基準測試的全面勝出

      為了驗證AVP框架的實際效果,研究團隊選擇了五個在學術(shù)界廣泛認可的長視頻理解基準測試,這些測試就像不同類型的"考試科目",全面評估AI系統(tǒng)在各種視頻理解任務(wù)上的能力。

      第一個測試是MINERVA,這是一個專門設(shè)計來挑戰(zhàn)復雜視頻推理能力的數(shù)據(jù)集。它包含1515個精心設(shè)計的問題,平均每個視頻長達12分鐘。這些問題往往需要跨越視頻的多個時間段尋找線索,然后進行邏輯推理才能得出答案。比如,系統(tǒng)可能需要先找到某個角色在視頻開頭說過的話,然后結(jié)合視頻中段的行為,最后根據(jù)結(jié)尾的結(jié)果來判斷因果關(guān)系。這類似于讓AI閱讀一本懸疑小說,不僅要記住各個章節(jié)的細節(jié),還要理解它們之間的邏輯關(guān)聯(lián)。

      第二個測試是LVBench,專門針對超長視頻設(shè)計,包含103個每個長達1小時的視頻和1549個多選擇題。這個測試的挑戰(zhàn)在于視頻的極端長度,就像讓AI觀看完整的電影然后回答關(guān)于劇情細節(jié)的問題。在如此長的時間跨度內(nèi),有用的信息往往分散在各個角落,需要系統(tǒng)具備強大的長期記憶和信息檢索能力。

      第三個測試是MLVU,這是一個多任務(wù)長視頻理解基準,包含2175個平均時長超過15分鐘的視頻問答樣本。它的特點是任務(wù)類型多樣化,既有簡單的事實性問題,也有復雜的推理性問題,全面測試系統(tǒng)的各項能力。

      第四個測試是Video-MME,它是一個從短視頻到長視頻的綜合評估基準,包含2700個樣本,其中長視頻部分的平均時長為41分鐘。這個測試既考察感知能力(能否正確識別視頻中的對象和事件),也考察推理能力(能否理解事件之間的關(guān)系和因果邏輯)。

      第五個測試是LongVideoBench,專注于需要長期上下文理解的推理問題,包含1337個視頻推理問題,其中長視頻部分包含533個時長在15-60分鐘之間的樣本。這個測試特別強調(diào)引用推理能力,即系統(tǒng)需要準確定位和引用視頻中的特定片段來支撐其答案。

      在所有這些測試中,AVP都表現(xiàn)出色。與目前最先進的通用多模態(tài)大型語言模型相比,AVP使用Gemini-2.5-Pro作為基礎(chǔ)模型時,在所有測試中都取得了最高分數(shù)。更令人印象深刻的是,即使使用輕量級的Gemini-2.5-Flash模型,AVP的表現(xiàn)仍然超越了其基礎(chǔ)模型4.4%的平均準確率。

      在與其他智能視頻分析框架的比較中,AVP的優(yōu)勢更加明顯。研究團隊將AVP與六個最新的智能視頻推理系統(tǒng)進行了對比,包括VideoAgent、VideoTree、SiLVR、VideoLucy、LVAgent和DeepVideoDiscovery等。結(jié)果顯示,AVP在所有基準測試中都達到了最佳或接近最佳的性能。特別值得注意的是,與最近發(fā)布的VideoLucy和DeepVideoDiscovery方法相比,AVP分別取得了10.5%和5.7%的平均準確率提升。

      更重要的是效率方面的突破。研究團隊專門對AVP和目前表現(xiàn)最好的DeepVideoDiscovery方法進行了詳細的效率對比分析。結(jié)果顯示,DeepVideoDiscovery處理一個視頻平均需要790.5秒,并且需要處理107萬個輸入數(shù)據(jù)單元。其中,僅僅是生成視頻描述這一個步驟就消耗了637.2秒和大約90萬個數(shù)據(jù)單元。

      相比之下,AVP完全跳過了這個耗時的描述生成過程,直接進行有針對性的推理。結(jié)果,AVP平均只需要145.3秒就能完成同樣的任務(wù),速度提升了5.44倍。同時,它只需要處理13.25萬個輸入數(shù)據(jù)單元,僅為對比方法的12.4%。這就像原來需要寫一本書來回答一個問題,現(xiàn)在只需要寫幾頁紙就夠了,不僅節(jié)省了大量時間和資源,答案質(zhì)量還更高。

      這些實驗結(jié)果清楚地表明,主動感知的策略不僅在理論上更合理,在實際應(yīng)用中也確實能夠?qū)崿F(xiàn)效率和準確性的雙重提升。通過讓AI系統(tǒng)學會"思考后再觀察",而不是"觀察完再思考",可以顯著改善長視頻理解的整體性能。

      四、深入剖析:成功要素的系統(tǒng)分析

      為了更好地理解AVP為什么能夠取得如此顯著的性能提升,研究團隊進行了一系列精細的分析實驗,就像醫(yī)生在確診病因后還要弄清楚每種藥物的具體作用機制一樣。

      首先,研究團隊驗證了AVP框架中每個組件的貢獻。他們設(shè)計了一個逐步添加組件的實驗,從最簡單的直接觀察開始,逐步加入規(guī)劃器和反思器,觀察性能如何變化。結(jié)果顯示,僅使用觀察器的基礎(chǔ)版本在MINERVA和LVBench上分別得到60.8%和67.4%的準確率。當加入規(guī)劃器后,性能顯著提升到63.9%和72.6%,這證明了有目標的觀察策略比隨機觀察更有效。再加入反思器后,性能進一步提升到65.6%和74.8%,這表明迭代評估和改進對于復雜推理任務(wù)的重要性。

      這個結(jié)果就像驗證了一個團隊協(xié)作的效果。如果只有一個人埋頭觀察(純觀察器),效果有限;如果有一個策劃者指導觀察方向(加入規(guī)劃器),效果會明顯改善;如果再有一個評估者來判斷工作質(zhì)量并指導改進(加入反思器),整個團隊的效果就會達到最佳狀態(tài)。

      接下來,研究團隊測試了不同模型組合對性能的影響。他們使用Gemini-2.5系列的不同版本(Flash和Pro)來分別擔任規(guī)劃器、觀察器和反思器的角色,就像在一個樂隊中嘗試不同樂手的組合一樣。實驗發(fā)現(xiàn),所有組件都使用更強大模型時效果最好,但不同任務(wù)對不同組件的敏感度不同。

      對于需要復雜多步推理的MINERVA任務(wù),規(guī)劃器和反思器的模型強度影響更大,因為這些組件需要進行策略思考和邏輯評估。而對于包含超長視頻的LVBench任務(wù),觀察器的模型強度更為關(guān)鍵,因為它需要在龐大的時間跨度內(nèi)準確定位和理解信息。這就像不同類型的工作需要不同的專業(yè)技能一樣。

      研究團隊還測試了觀察輪次數(shù)量對性能的影響。他們發(fā)現(xiàn),從一輪觀察增加到三輪觀察,性能會穩(wěn)步提升,但超過三輪后,改善就變得微乎其微了。這個發(fā)現(xiàn)很有實際意義,說明AVP能夠在較少的迭代中達到良好效果,不會因為過度循環(huán)而浪費計算資源。這類似于學習過程中的規(guī)律:前幾次復習效果明顯,但過度復習的邊際收益會遞減。

      另一個重要發(fā)現(xiàn)是證據(jù)結(jié)構(gòu)化的價值。研究團隊比較了結(jié)構(gòu)化證據(jù)記錄和傳統(tǒng)的自由文本描述,發(fā)現(xiàn)結(jié)構(gòu)化的時間戳證據(jù)格式能夠帶來2-3%的性能提升。這看似微小的改進實際上非常重要,因為它證明了有組織的信息比雜亂的信息更有價值,就像整理好的筆記比散亂的草稿更容易復習和使用。

      研究團隊還測試了不同的置信度閾值對系統(tǒng)行為的影響。他們發(fā)現(xiàn),設(shè)置適中的置信度閾值(0.7左右)能夠平衡答案的準確性和計算效率。過低的閾值會導致系統(tǒng)過早停止觀察,可能錯過重要信息;過高的閾值則會導致不必要的額外觀察輪次,浪費計算資源而不會顯著改善結(jié)果。

      特別有趣的是,研究團隊還分析了AVP在不同類型問題上的表現(xiàn)差異。對于事實性問題(如"誰出現(xiàn)在視頻中"),AVP的效率提升更為顯著,因為這類問題的答案相對明確,系統(tǒng)可以快速定位相關(guān)證據(jù)。對于需要復雜推理的問題(如"為什么會發(fā)生某件事"),雖然效率提升相對較小,但準確性的改善更為明顯,這表明迭代觀察和反思對于深層理解的重要性。

      最后,研究團隊還驗證了AVP在不同強度基礎(chǔ)模型上的可擴展性。他們測試了從輕量級的Qwen3-VL-8B到強大的Gemini-2.5-Pro等不同模型,發(fā)現(xiàn)AVP的改進效果在所有模型上都很明顯。這意味著主動觀察的策略是一個通用性很強的改進方法,不依賴于特定的模型架構(gòu),可以隨著底層技術(shù)的進步而持續(xù)受益。

      這些深入分析不僅驗證了AVP設(shè)計的合理性,也為未來的改進指明了方向。它們表明,通過精心設(shè)計的主動觀察策略,AI系統(tǒng)確實可以實現(xiàn)更智能、更高效的視頻理解,而不是簡單地依靠更大的模型或更多的計算資源。

      五、真實案例:從理論到實踐的生動展示

      為了讓讀者更直觀地理解AVP是如何工作的,研究團隊提供了幾個詳細的案例分析,就像醫(yī)學教科書中的典型病例一樣,這些案例清晰地展示了整個系統(tǒng)的運行過程。

      第一個案例是一個關(guān)于空間定位的精確問題。問題是:"在德國女性被解說員介紹的片段中,墓碑紀念碑最初在屏幕上的哪個位置可以看到?"這個問題需要系統(tǒng)不僅要找到特定的時間點,還要準確描述空間位置信息。

      在第一輪觀察中,AVP的規(guī)劃器制定了一個寬泛的搜索策略:以低幀率(0.5幀每秒)和低空間分辨率掃描整個視頻,尋找德國女性被介紹的場景。這就像先用廣角鏡頭快速瀏覽,尋找大致的目標區(qū)域。觀察器執(zhí)行后發(fā)現(xiàn)了相關(guān)片段[1:00-1:10],并記錄下"解說員介紹德國夫婦,廣角鏡頭顯示牧場,可以看到墓碑紀念碑"。

      但是,當反思器評估這個證據(jù)時,它給出了0.3的低置信度分數(shù),判斷理由是"沒有直接線索表明墓碑紀念碑的位置"。這說明雖然找到了相關(guān)場景,但觀察精度不夠,無法回答關(guān)于具體位置的問題。

      基于這個反饋,規(guī)劃器在第二輪制定了更精細的觀察計劃:專門針對[1:00-1:10]這個時間段,提高幀率到2幀每秒,使用中等空間分辨率進行詳細觀察。這就像用放大鏡仔細檢查之前發(fā)現(xiàn)的重點區(qū)域。

      第二輪觀察的結(jié)果令人滿意。觀察器詳細記錄道:"[1:04-1:09]:墓碑紀念碑作為一個小型圓錐形結(jié)構(gòu)出現(xiàn)在遠處山丘上,位于屏幕的左上角背景中。德國夫婦站在中景位置。"

      反思器評估這個新證據(jù)后,置信度提升到0.7,判斷理由是:"一個小型圓錐形石質(zhì)紀念碑在遠距離的山丘上可見。這個紀念碑位于屏幕的左上角象限,在背景中。答案是D(左上角背景)。"由于置信度達到閾值,系統(tǒng)停止進一步觀察并輸出最終答案。

      這個案例完美展示了AVP的"由粗到細"的觀察策略。系統(tǒng)首先快速定位大致區(qū)域,然后根據(jù)需要提高觀察精度,最終獲得準確的細節(jié)信息。

      第二個案例展示了AVP處理復雜數(shù)值計算問題的能力。問題是:"將09:58時間戳顯示的紙張上的所有毫米總數(shù)相加,再加上視頻中路易斯安那松蛇幼體的平均長度,總共有多少毫米?"這是一個需要多步驟信息收集和數(shù)值計算的復合問題。

      第一輪觀察中,規(guī)劃器聚焦于特定時間戳09:58附近,使用中等精度觀察紙張上的數(shù)據(jù)。觀察器成功讀取了紙張上列出的七個測量值:96.74、93.37、93.45、98.24、99.53、115.67和96.41毫米,總計693.41毫米。

      但反思器意識到還缺少關(guān)鍵信息,置信度只有0.3,理由是"需要關(guān)于路易斯安那松蛇幼體平均長度的額外信息"。

      第二輪觀察中,規(guī)劃器改變策略,以低幀率掃描整個視頻來尋找關(guān)于蛇類長度的信息。觀察器在[17:47-17:50]時間段發(fā)現(xiàn)解說員提到"路易斯安那松蛇通常長度在4到5英尺之間"。

      反思器將兩輪觀察的信息整合,進行了準確的計算:將693.41毫米(紙張總數(shù))分別與4英尺(1219.2毫米)和5英尺(1524毫米)相加,得出總范圍是1912.61到2217.41毫米,對應(yīng)選項D。

      這個案例展示了AVP處理需要信息整合和數(shù)值推理的復雜問題的能力。系統(tǒng)不僅能夠從不同來源收集信息,還能進行邏輯推理和數(shù)值計算。

      研究團隊也誠實地展示了一個失敗案例,說明AVP的局限性。在一個關(guān)于籃球比賽中三分球計數(shù)的問題中,系統(tǒng)選擇了粗略的觀察策略(0.5幀每秒),結(jié)果遺漏了一個發(fā)生在00:20的三分球,導致最終計數(shù)錯誤。

      這個失敗案例揭示了一個重要的權(quán)衡:為了提高效率,系統(tǒng)有時會選擇較低的觀察精度,但這可能導致短暫或局部事件被遺漏。雖然AVP的整體策略是有效的,但在處理需要捕捉短暫關(guān)鍵事件的問題時,仍然需要進一步的優(yōu)化。

      這些真實案例不僅展示了AVP的能力,也坦誠地承認了其局限性,為未來的改進提供了明確的方向。它們證明了主動觀察策略在大多數(shù)情況下都是有效的,但也提醒我們需要根據(jù)具體任務(wù)特點來調(diào)整觀察策略。

      六、技術(shù)細節(jié):讓復雜系統(tǒng)變得可操作

      雖然AVP的核心理念相對簡單,但要讓它在實際中有效運行,需要解決許多技術(shù)細節(jié)問題,就像設(shè)計一輛汽車不僅需要懂得基本的機械原理,還需要處理無數(shù)的工程細節(jié)一樣。

      在模型選擇方面,研究團隊選擇了Google的Gemini-2.5-Pro作為主要的AI引擎。這個選擇很有講究,因為不同的AI模型就像不同專長的專家,有些擅長理解語言,有些擅長分析圖像,而Gemini-2.5-Pro在處理多媒體內(nèi)容方面表現(xiàn)優(yōu)異。為了確保實驗的公平性,團隊將輸入數(shù)據(jù)量限制在12.8萬個標準單位以內(nèi),這就像給所有參賽者設(shè)定相同的材料限制一樣。

      在視頻處理的技術(shù)參數(shù)設(shè)置上,研究團隊需要在質(zhì)量和效率之間找到最佳平衡點。他們采用了Gemini的標準媒體分辨率設(shè)置,提供低、中、高三個等級選擇。低分辨率模式每幀只需要66個數(shù)據(jù)單位,而中分辨率需要258個單位。這就像照相機的畫質(zhì)設(shè)置一樣,高畫質(zhì)意味著更多細節(jié),但也需要更多存儲空間和處理時間。

      系統(tǒng)的停止條件設(shè)置也很關(guān)鍵。研究團隊將最大觀察輪數(shù)設(shè)定為3輪,置信度閾值設(shè)為0.7。這些參數(shù)是通過大量實驗調(diào)試得出的最佳值,就像烹飪中需要掌握合適的火候和時間一樣。太少的觀察輪數(shù)可能收集不到足夠信息,太多則會浪費資源;置信度閾值太低會導致匆忙下結(jié)論,太高則可能永遠無法滿足停止條件。

      為了讓AVP能夠準確理解用戶問題并執(zhí)行觀察計劃,研究團隊設(shè)計了詳細的指令模板。這些模板就像給AI助手編寫的工作手冊,告訴它在不同情況下應(yīng)該如何行動。

      對于規(guī)劃器,指令模板會教它如何解析問題中的時間信息。如果問題明確提到"07:15-07:18"這樣的時間范圍,對于事實性問題,系統(tǒng)會精確使用這個時間窗口;對于需要推理的問題,系統(tǒng)會在前后各加15-30秒的緩沖時間,以捕獲相關(guān)上下文。如果問題只提到單個時間點如"在02:15",系統(tǒng)會為事實性問題創(chuàng)建1秒的觀察窗口,為推理性問題創(chuàng)建30秒的上下文窗口。

      當問題中沒有明確時間信息時,系統(tǒng)會使用啟發(fā)式規(guī)則。"開頭"或"開始"對應(yīng)前30秒,"結(jié)尾"或"結(jié)束"對應(yīng)最后30秒,"大約某時間"則在該時間點前后各加15秒。如果完全沒有時間線索,系統(tǒng)會進行低精度的全視頻掃描作為起點。

      對于觀察器,指令模板強調(diào)產(chǎn)生結(jié)構(gòu)化、帶時間戳的證據(jù)記錄。系統(tǒng)被明確告知要避免冗長的描述,而是專注于與問題直接相關(guān)的關(guān)鍵信息。時間戳會被規(guī)范化為整數(shù)秒,確保精確性和一致性。

      對于反思器,指令模板教它如何評估證據(jù)充分性。它需要產(chǎn)生0到1之間的置信度分數(shù)和詳細的判斷理由。如果證據(jù)充分,判斷理由應(yīng)包含直接答案;如果不充分,則應(yīng)明確指出缺失的信息類型,為下一輪觀察提供指導。

      在實際應(yīng)用中,這些技術(shù)細節(jié)的精心設(shè)計確保了系統(tǒng)的穩(wěn)定性和可靠性。研究團隊還進行了大量的邊界情況測試,確保系統(tǒng)在面臨各種異常輸入時都能合理處理。

      比如,當視頻時長超出模型的處理能力時,系統(tǒng)會自動調(diào)整采樣策略,確保在限制范圍內(nèi)獲得最有代表性的內(nèi)容。當多個時間段同時需要觀察時,系統(tǒng)會智能地安排觀察順序和資源分配。

      這些看似微小的技術(shù)細節(jié)實際上對系統(tǒng)性能有著重大影響。正是通過對每個環(huán)節(jié)的精心設(shè)計和調(diào)優(yōu),AVP才能在保持高準確性的同時顯著提高效率,實現(xiàn)從理論創(chuàng)新到實用系統(tǒng)的成功轉(zhuǎn)化。

      七、影響與展望:開啟智能視頻理解新時代

      AVP的成功不僅僅是一個技術(shù)突破,它更代表了AI系統(tǒng)設(shè)計思維的根本性轉(zhuǎn)變。這種從"被動處理"到"主動探索"的轉(zhuǎn)變,可能會影響整個人工智能領(lǐng)域的發(fā)展方向。

      在實際應(yīng)用場景中,這項技術(shù)的潛在價值是巨大的。考慮安防監(jiān)控系統(tǒng),傳統(tǒng)方法需要對所有監(jiān)控視頻進行全面分析,消耗大量計算資源。而采用AVP的思路,系統(tǒng)可以根據(jù)具體的安全事件查詢,有針對性地搜索相關(guān)時間段和區(qū)域,大大提高響應(yīng)速度和準確性。

      在內(nèi)容創(chuàng)作和媒體行業(yè),AVP可以幫助編輯快速從長時間的原始素材中找到特定場景或情節(jié),顯著提高后期制作的效率。體育賽事分析也是一個重要應(yīng)用領(lǐng)域,系統(tǒng)可以根據(jù)教練或分析師的具體問題,快速定位比賽中的關(guān)鍵時刻,而不需要觀看整場比賽的錄像。

      教育領(lǐng)域同樣可以受益于這項技術(shù)。在線教育平臺可以使用AVP來幫助學生快速找到課程視頻中與特定問題相關(guān)的片段,提供更個性化的學習體驗。醫(yī)學培訓中,學生可以通過詢問特定的臨床問題來學習手術(shù)視頻中的關(guān)鍵步驟。

      更深層的意義在于,AVP展示了一種新的AI系統(tǒng)設(shè)計范式。傳統(tǒng)的AI系統(tǒng)往往采用"一次性處理"的模式,即收集所有可能的信息,然后嘗試從中得出結(jié)論。而AVP展示的"迭代探索"模式更接近人類的認知過程,通過不斷的假設(shè)、驗證、調(diào)整來逐步逼近正確答案。

      這種范式的轉(zhuǎn)變可能會影響其他AI應(yīng)用領(lǐng)域。在自然語言處理中,系統(tǒng)可以學會根據(jù)對話的發(fā)展動態(tài)調(diào)整其理解策略。在機器人領(lǐng)域,這種主動感知的思想可以幫助機器人更有效地探索和理解環(huán)境。在醫(yī)學診斷中,AI系統(tǒng)可以學會根據(jù)已有癥狀有針對性地詢問或檢查,而不是進行所有可能的檢測。

      當然,AVP也存在一些局限性需要在未來的研究中解決。首先是對短暫關(guān)鍵事件的捕獲問題。如案例分析中所示,當重要信息只在很短的時間內(nèi)出現(xiàn)時,粗粒度的觀察策略可能會遺漏這些信息。未來的研究可能需要開發(fā)更智能的觀察策略選擇機制。

      其次是實時處理的挑戰(zhàn)。目前的AVP主要針對離線視頻分析設(shè)計,對于需要實時響應(yīng)的應(yīng)用場景,如何在保持準確性的同時滿足時間約束,仍然是一個需要解決的問題。

      另一個重要的發(fā)展方向是將AVP的思想擴展到其他感知模態(tài)。目前的系統(tǒng)主要處理視覺信息,但同樣的主動探索原理可以應(yīng)用于音頻分析、文本理解,甚至多模態(tài)融合任務(wù)中。

      從更宏觀的角度看,AVP代表了AI系統(tǒng)從"暴力計算"向"智能推理"的進化。這種進化不僅提高了效率,更重要的是讓AI系統(tǒng)的行為更加可解釋和可控。當系統(tǒng)明確地表達它在尋找什么、為什么尋找、以及找到了什么時,人類用戶更容易理解和信任系統(tǒng)的決策過程。

      隨著計算資源成本的不斷上升和環(huán)境保護意識的增強,高效的AI算法變得越來越重要。AVP展示的"少即是多"的哲學,即通過智能策略而非更大規(guī)模的計算來實現(xiàn)更好的性能,可能代表了未來AI發(fā)展的重要方向。

      這項研究也為AI的民主化開辟了新的可能性。通過大幅減少計算需求,AVP使得先進的視頻理解能力能夠在資源有限的設(shè)備上運行,讓更多的用戶和應(yīng)用場景受益于AI技術(shù)的進步。

      最終,AVP不僅僅是一個技術(shù)創(chuàng)新,它更是對"什么是智能"這個根本問題的新思考。真正的智能不在于處理更多的信息,而在于知道什么時候需要什么樣的信息,以及如何高效地獲取這些信息。這種洞察可能會指導未來許多AI系統(tǒng)的設(shè)計和發(fā)展。

      說到底,這項由Salesforce AI Research和北卡羅來納大學團隊共同完成的研究,為我們展示了一個令人興奮的未來:AI系統(tǒng)不再是簡單的信息處理器,而是能夠像人類一樣思考、觀察和學習的智能伙伴。雖然我們距離這個目標還有很長的路要走,但AVP已經(jīng)為我們指明了前進的方向。對于想要了解這項技術(shù)完整細節(jié)的讀者,可以通過論文編號arXiv:2512.05774v1在學術(shù)數(shù)據(jù)庫中找到原始研究報告。

      Q&A

      Q1:AVP主動視頻感知框架是什么?

      A:AVP是Salesforce研發(fā)的智能視頻分析系統(tǒng),讓AI像人類一樣有選擇地觀看視頻。它采用"計劃-觀察-反思"的三步循環(huán),根據(jù)問題需要有針對性地分析視頻片段,而不是盲目處理所有內(nèi)容,從而大幅提高效率和準確性。

      Q2:AVP比傳統(tǒng)視頻分析方法好在哪里?

      A:傳統(tǒng)方法需要為整個視頻生成詳細描述再搜索答案,而AVP直接針對問題觀察相關(guān)片段。實驗顯示,AVP準確率比最好的傳統(tǒng)方法高5.7%,但只需要18.4%的處理時間和12.4%的數(shù)據(jù)量,效率提升超過5倍。

      Q3:AVP技術(shù)能用在哪些實際場景中?

      A:AVP可以廣泛應(yīng)用于安防監(jiān)控快速定位可疑事件、影視制作從長素材中找特定鏡頭、體育分析定位關(guān)鍵比賽時刻、在線教育幫學生找課程重點片段等。任何需要從長視頻中快速準確找到特定信息的場景都能受益。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      “新疆棉”事件5年后,那個丑態(tài)百出的“反華妖女”,如今怎樣了

      “新疆棉”事件5年后,那個丑態(tài)百出的“反華妖女”,如今怎樣了

      博覽歷史
      2025-09-10 20:25:07
      不同品牌奧司他韋售價差70倍

      不同品牌奧司他韋售價差70倍

      大象新聞
      2025-12-12 21:57:01
      香港神秘男子花600萬港幣求購5套大埔火災(zāi)房,稱不在乎破壞程度及死亡事件!港府:災(zāi)前入住才能獲補助和安置

      香港神秘男子花600萬港幣求購5套大埔火災(zāi)房,稱不在乎破壞程度及死亡事件!港府:災(zāi)前入住才能獲補助和安置

      澳門月刊
      2025-12-12 09:28:45
      五月天經(jīng)紀人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

      五月天經(jīng)紀人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

      老范談史
      2025-12-10 19:22:28
      2026養(yǎng)老金調(diào)整信號落地,不按工齡漲么,答案在這幾個關(guān)鍵信號里

      2026養(yǎng)老金調(diào)整信號落地,不按工齡漲么,答案在這幾個關(guān)鍵信號里

      陳博世財經(jīng)
      2025-12-12 14:21:46
      增設(shè)兩個車站,佛穗莞城際鐵路新進展

      增設(shè)兩個車站,佛穗莞城際鐵路新進展

      南方都市報
      2025-12-09 11:22:08
      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      等風來育兒聯(lián)盟
      2025-08-01 12:21:35
      全紅嬋擔心的事還是發(fā)生,老家別墅剛封頂,爸媽就走上大衣哥老路

      全紅嬋擔心的事還是發(fā)生,老家別墅剛封頂,爸媽就走上大衣哥老路

      以茶帶書
      2025-11-21 12:08:09
      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開打

      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開打

      郝小小看體育
      2025-12-13 05:21:07
      放棄中國國籍投靠日本,結(jié)果日本不收中國不要,成為夾縫中的黑戶

      放棄中國國籍投靠日本,結(jié)果日本不收中國不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      樊振東與小朱大夢的友情,真摯而暖心

      樊振東與小朱大夢的友情,真摯而暖心

      眼界看視野
      2025-12-12 20:58:53
      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬 貝林跌至1.6億

      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬 貝林跌至1.6億

      風過鄉(xiāng)
      2025-12-12 20:54:43
      曼聯(lián)冬窗簽中場計劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒戲

      曼聯(lián)冬窗簽中場計劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒戲

      羅米的曼聯(lián)博客
      2025-12-13 11:02:12
      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語被意外錄下,后者打斷談話

      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語被意外錄下,后者打斷談話

      環(huán)球網(wǎng)資訊
      2025-12-12 10:54:53
      女孩曬出已故父親合影,沒想到卻是網(wǎng)友先繃不住了:這不是……

      女孩曬出已故父親合影,沒想到卻是網(wǎng)友先繃不住了:這不是……

      譚老師地理大課堂
      2025-12-11 22:20:25
      一年兩次分紅股息率5%,股價從94元跌到35元,市盈率僅7倍

      一年兩次分紅股息率5%,股價從94元跌到35元,市盈率僅7倍

      投資觀
      2025-12-13 07:10:03
      外賣時代將被終結(jié)?一個全新行業(yè)正悄悄取代外賣,你準備好了嗎?

      外賣時代將被終結(jié)?一個全新行業(yè)正悄悄取代外賣,你準備好了嗎?

      貓叔東山再起
      2025-12-10 10:05:04
      在國安局維修電臺18年,退役前夜發(fā)現(xiàn)一臺廢機有神秘信號!

      在國安局維修電臺18年,退役前夜發(fā)現(xiàn)一臺廢機有神秘信號!

      千秋文化
      2025-12-08 10:53:53
      說說大V九邊為何如此感嘆“《芳華》又火了”

      說說大V九邊為何如此感嘆“《芳華》又火了”

      人格志
      2025-12-06 00:06:19
      每天這樣跪趴10分鐘,內(nèi)分泌正常了,肩頸腰背都不痛了!

      每天這樣跪趴10分鐘,內(nèi)分泌正常了,肩頸腰背都不痛了!

      瑜伽解剖學
      2025-11-26 16:19:27
      2025-12-13 12:04:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      6531文章數(shù) 542關(guān)注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態(tài)

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      保劍鋒方回應(yīng)爭議,否認出軌贈送香水

      財經(jīng)要聞

      鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

      汽車要聞

      表面風平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

      態(tài)度原創(chuàng)

      數(shù)碼
      時尚
      房產(chǎn)
      手機
      公開課

      數(shù)碼要聞

      華碩預(yù)熱新一代Zenbook DUO雙屏本,雙電池設(shè)計將亮相CES 2026

      導演們,該有危機意識了!野生創(chuàng)作正在崛起

      房產(chǎn)要聞

      每日狂增1300+企業(yè)!封關(guān)在即,海南徹底爆發(fā)!

      手機要聞

      三星Galaxy S26 Ultra已入網(wǎng):驍龍雞血版+60W快充,售價或破萬

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 一区二区三区毛VⅤ| 亚洲成亚洲成网| 日本特黄特色aaa大片免费| 人人妻人人做人人爽夜欢视频| 91丨九色丨人妻丨白浆| 保定市| 中文字幕无码不卡一区二区三区| 国产97在线 | 免费| 久久婷婷五月天| 扎囊县| 少妇伦子伦精品无吗| 色噜噜狠狠色综合av| 日韩精品人妻中文字幕有码| 国产黄色在线| 亚洲国产欧美在线成人| 午夜性无码专区| 亚洲永久一区二区三区在线| 国产女人18毛片18精品| 无毒无码不卡| 国产精品成人一区二区三区视频| 1024你懂的国产精品| 51国产在线| 人人做人人爽人人爱| 亚洲国产成人久久综合电影 | 亚洲情综合五月天| 久久av高潮av| 中文在线成人| 亚洲 自拍 另类小说综合图区 | 亚洲成a无码| 五十路丰满中年熟女中出| 黄页网址大全免费观看| 中文字幕熟妇人| 亚洲?无码?人妻| 久久国产精品-国产精品| 国产精品无遮挡猛进猛出| 日韩性色| 在线观看国产午夜福利片| 精品久久久久久无码中文字幕一区| 国产免费无遮挡吸奶头视频| 超碰人妻97| 97人妻人人揉人人躁人人|