![]()
本文第一作者朱子瑞為新加坡國立大學四年級博士生,本科畢業于清華大學,研究方向為多模態大模型和后訓練優化。通訊作者為 TikTok 內容智能負責人 Kanchan Sarkar、Meta楊振恒博士(相關工作完成于其在 TikTok 任職期間)以及新加坡國立大學校長青年教授尤洋老師。
文章速覽
長視頻會使 MLLM 的視覺 token 規模快速增長,但推理階段的計算與上下文預算有限,難以對全量幀進行處理。
現有關鍵幀方案通常還需先用 CLIP/BLIP 等視覺編碼器全視頻逐幀預掃描,即使最終只保留少量幀,前置計算成本依然很高。
本文提出FOCUS:將關鍵幀選擇建模為組合純探索(CPE)多臂賭博機,以自適應的 “探索 — 利用” 策略在無需遍歷全幀的前提下先鎖定高價值時間段,再在段內精挑關鍵幀。
- 無需訓練、即插即用:可直接接入現有 MLLM(如 GPT-4o 或 Qwen)的推理流程,不依賴特定模型結構與訓練方式。
- 效果更強:在>20 分鐘的長視頻 VQA benchmark 設定下,FOCUS 選幀相較均勻抽幀可帶來11.9%的性能提升。
- 成本更低:不依賴降采樣等預過濾手段,平均只需觀察 <2% 的幀即可達到上述收益,顯著降低推理計算開銷。
![]()
- 論文標題:FOCUS: Efficient Keyframe Selection for Long Video Understanding
- 論文鏈接:https://arxiv.org/abs/2510.27280
- 代碼倉庫:https://github.com/NUS-HPC-AI-Lab/FOCUS
背景:長視頻理解為什么難?
長視頻理解是多模態大模型(MLLM)中最為困難的問題之一。一段小時級、30fps 的標準視頻往往包含十萬量級以上的幀數。
對于主流 MLLM 而言,無論是先將視頻幀編碼為視覺 token、還是進一步進行跨模態交互建模,計算與上下文開銷都會隨幀數快速增長:“全量幀輸入” 在絕大多數真實推理場景中并不現實。
因此,“挑選關鍵幀” 幾乎是所有長視頻系統的必經步驟。最常見的均勻抽幀(降采樣)雖然能控成本,卻容易錯過集中在短片段中的決定性證據,導致模型在核心信息缺失的情況下 “盲答”。
現有關鍵幀方法大致分為兩類:一類是training-based,訓練輕量選擇器從全量幀中挑子集,但面臨標注困難、組合爆炸帶來的訓練與工程成本,以及對下游模型結構 / 訓練方式的依賴;另一類是training-free的檢索式方案,用 CLIP、BLIP 等編碼器計算 “幀 — 文本” 相關性再選幀。
后者雖免訓練,卻往往需要先對全視頻逐幀預編碼,面對小時級視頻時單視頻計算開銷仍可能達到約FLOPs 量級,難以部署。
因此,我們需要一種更高效的選幀方式:在不犧牲準確性的前提下,避免對全視頻逐幀預掃,降低推理代價,用盡可能少的觀測幀數快速定位與 query 相關的高價值片段,真正滿足現實系統的效率與可用性要求。
方法:FOCUS 的兩階段探索 - 利用
基于上述動機,本文提出FOCUS,一個無需訓練、可即插即用的關鍵幀選擇算法。FOCUS 的核心思想是:將 “在預算內找到最有用的幀” 視為一個組合探索問題 ——算法不必先看完整視頻再做選擇,而是可以通過少量試探性采樣(探索)逐步縮小候選范圍,再將預算集中到最有價值的區域(利用)。
![]()
具體而言,FOCUS 將關鍵幀選擇建模為組合純探索(CPE)的多臂賭博機問題,并采用兩階段的 coarse-to-fine 策略:
第一階段:定位高價值時間段(粗粒度探索)。
我們把長視頻切分為若干時間段,將每個時間段視作一個 “臂”。FOCUS 在有限預算下,對不同時間段進行自適應抽樣:對 “可能與 query 更相關” 的時間段分配更多采樣,對明顯無關的時間段快速減少采樣。通過維護每個時間段的估計收益與不確定性(置信界),算法可以在不遍歷全視頻的情況下,把注意力收斂到少量候選高價值時間段。
第二階段:在段內精挑關鍵幀(細粒度利用)。
當候選時間段被鎖定后,FOCUS 在這些時間段內部進一步選擇幀:同樣通過 “少量試探 + 置信驅動” 的方式,把幀預算集中到最相關的畫面上,輸出最終關鍵幀集合供下游 MLLM 推理。
![]()
FOCUS 的效率優勢使其可以作為一個前置模塊,直接插入現有 MLLM 推理 pipeline,在不同模型、不同任務上復用。
實驗:即插即用的長視頻理解利器
為了驗證 FOCUS 的通用性與有效性,作者在四個公開視頻問答(Video QA)基準上進行了評測,并選擇了四種常用的 MLLM 作為下游推理模型,包括GPT-4o、Qwen2-VL、LLaVA-OV、LLaVA-Video等。
![]()
![]()
作者進一步地將 FOCUS 與目前最有代表性的關鍵幀選擇方法進行了對比。
![]()
結果表明:在長視頻場景(例如>20 分鐘的設定)下,FOCUS 相比均勻抽幀帶來最高 11.9%的性能提升。同時,FOCUS 在不依賴降采樣等預過濾手段的情況下,平均僅需觀察<2%的幀即可達到上述收益,顯著降低了關鍵幀選擇與推理階段的總體計算開銷。
分析:高效定位視頻關鍵信息
1. 可視化:FOCUS 能更精準地找到與 query 相關的證據片段
作者對若干典型樣例進行可視化分析:在長視頻中,FOCUS 通過兩階段探索快速將注意力收斂到少量高價值片段,再在片段內部挑出證據幀,使得輸入給 MLLM 的幀更 “信息密集”,從而提升回答質量。
![]()
2. 效率提升:相比全幀預掃的選幀范式,FOCUS 的端到端開銷更可控
FOCUS 的效率優勢在于:它的選擇過程本身就是省幀的,能夠在探索階段動態跳過大量無關區域,避免將計算預算花在 “無用的全量預掃” 上,相對于基線方法大大降低推理開銷。
![]()
同時 FOCUS 提供了清晰的預算控制接口:當系統更關注性能時,可以適當增加探索預算;當系統更關注吞吐 / 延遲時,可以通過調整超參數收緊預算。
![]()
總結
長視頻理解的核心難點在于:視覺 token 隨幀數快速膨脹,均勻抽幀又容易漏掉關鍵證據;而現有關鍵幀方法存在著訓練代價高、依賴模型結構的問題,或者雖免訓練仍需全幀預編碼,難以滿足真實系統的效率要求。
FOCUS 將選幀建模為組合純探索,通過兩階段 “探索 — 利用” 在不遍歷全幀的情況下定位與 query 相關的高價值片段;平均僅觀察 <2% 幀即可在長視頻設定下帶來最高 +11.9% 的準確率提升。它可作為即插即用的推理組件,為 MLLM 長視頻應用提供更可控的成本與表現。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.