![]()
新智元報道
編輯:LRST
【新智元導讀】現有的多模態模型往往被困在「視頻」的孤島里——它們只能回答視頻內的問題。但在真實世界中,人類解決問題往往是「看視頻找線索 -> 上網搜證 -> 綜合推理」。為了填補這一空白,來自QuantaAlpha、蘭州大學、香港科技大學(廣州)、北京大學等機構的研究者聯合推出了首個視頻深度研究(Video Deep Research)評測基準VideoDR。
在傳統的視頻問答(VideoQA)中,答案通常就在視頻里。
然而,真正的智能Video Agent應該具備Deep Research的能力。
試想這樣一個場景:你看到視頻中博物館的一個展品,想知道「該博物館推薦的展品中,距離這個展品最近的那個,其注冊編號是多少?」
這不僅僅需要理解視頻(識別展品、定位位置),還需要跳出視頻,去博物館官網查找地圖、推薦列表和編號信息。
![]()
論文鏈接:https://arxiv.org/abs/2601.06943
代碼鏈接:https://github.com/QuantaAlpha/VideoDR-Benchmark
VideoDR (Video Deep Research) 正是為此而生,它定義了一個全新的任務范式:
多幀視覺線索:從多個視頻幀中準確識別連續的關鍵信息進行推理。
交互式網絡搜索:在瀏覽器環境中進行交互,執行多跳深度搜索。
多跳推理驗證:結合視頻線索和網絡證據,提供可驗證的事實性答案。
![]()
為了保證評測的含金量,VideoDR并沒有采用自動化生成,而是進行了嚴格的人工標注與質檢。
![]()
雙重依賴性測試:剔除了那些「只看視頻就能答」或「只搜文字就能答」的樣本,確保模型必須結合兩者能力。
六大領域覆蓋:涵蓋日常生活、經濟、科技、文化、歷史、地理。
![]()
Workflow vs. Agentic
研究人員對比了兩種主流范式:
Workflow(工作流模式): 將視頻轉化為結構化文本線索,再進行搜索推理。
Agentic(代理模式): 模型直接端到端處理視頻和搜索,自主決定何時搜索、何時思考。
評測模型:
閉源模型: GPT-5.2, GPT-4o, Gemini-3-pro-preview
開源模型: Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 4.5
核心發現與洞察
誰是目前的最強王者?
Gemini-3-pro-preview和GPT-5.2處于第一梯隊,準確率達到了69%-76%左右,顯著領先于其他模型。
![]()
Agentic 模式一定更強嗎?
答案是:不一定。
雖然 Agentic 模式更靈活,但在長視頻或高難度任務中,模型容易出現目標漂移(Goal Drift)。
Workflow 的優勢: 顯式的中間文本充當了「外部記憶」,防止模型在漫長的搜索鏈路中忘記最初視頻里的視覺細節。
Agentic 的短板: 一旦初始的視覺感知出現偏差,且無法回看視頻,錯誤的搜索路徑會被不斷放大。
長視頻是「照妖鏡」
在長視頻場景下,模型保持長期一致性(Long-horizon Consistency)的能力成為瓶頸。
強如Gemini-3在Agentic模式下能利用長上下文獲得提升,而部分開源模型在長視頻下性能反而大幅下降。
![]()
![]()
總結
VideoDR將視頻理解的戰場從封閉測試集延伸到了無限的開放網絡。
評測結果深刻揭示了「端到端」并非萬能藥:在面對長鏈路搜索時,模型往往會陷入「記憶衰退」的困境。
未來的視頻 Agent 只有在保持視覺線索的長程一致性上取得突破,才能真正勝任真實世界的復雜調研任務。
參考資料:
https://arxiv.org/abs/2601.06943
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.