網易首頁 > 網易號 > 正文申請入駐

FOCUS 關鍵幀提取：長視頻理解能力提升11.9%，只需采樣<2% 幀

2026-02-28 14:36:23　來源: 機器之心Pro

河北舉報

分享至

本文第一作者朱子瑞為新加坡國立大學四年級博士生，本科畢業于清華大學，研究方向為多模態大模型和后訓練優化。通訊作者為 TikTok 內容智能負責人 Kanchan Sarkar、Meta楊振恒博士（相關工作完成于其在 TikTok 任職期間）以及新加坡國立大學校長青年教授尤洋老師。

文章速覽

長視頻會使 MLLM 的視覺 token 規模快速增長，但推理階段的計算與上下文預算有限，難以對全量幀進行處理。

現有關鍵幀方案通常還需先用 CLIP/BLIP 等視覺編碼器全視頻逐幀預掃描，即使最終只保留少量幀，前置計算成本依然很高。

本文提出FOCUS：將關鍵幀選擇建模為組合純探索（CPE）多臂賭博機，以自適應的 “探索 — 利用” 策略在無需遍歷全幀的前提下先鎖定高價值時間段，再在段內精挑關鍵幀。

無需訓練、即插即用：可直接接入現有 MLLM（如 GPT-4o 或 Qwen）的推理流程，不依賴特定模型結構與訓練方式。
效果更強：在>20 分鐘的長視頻 VQA benchmark 設定下，FOCUS 選幀相較均勻抽幀可帶來11.9%的性能提升。
成本更低：不依賴降采樣等預過濾手段，平均只需觀察 <2% 的幀即可達到上述收益，顯著降低推理計算開銷。

論文標題：FOCUS: Efficient Keyframe Selection for Long Video Understanding
論文鏈接：https://arxiv.org/abs/2510.27280
代碼倉庫：https://github.com/NUS-HPC-AI-Lab/FOCUS

背景：長視頻理解為什么難？

長視頻理解是多模態大模型（MLLM）中最為困難的問題之一。一段小時級、30fps 的標準視頻往往包含十萬量級以上的幀數。

對于主流 MLLM 而言，無論是先將視頻幀編碼為視覺 token、還是進一步進行跨模態交互建模，計算與上下文開銷都會隨幀數快速增長：“全量幀輸入” 在絕大多數真實推理場景中并不現實。

因此，“挑選關鍵幀” 幾乎是所有長視頻系統的必經步驟。最常見的均勻抽幀（降采樣）雖然能控成本，卻容易錯過集中在短片段中的決定性證據，導致模型在核心信息缺失的情況下 “盲答”。

現有關鍵幀方法大致分為兩類：一類是training-based，訓練輕量選擇器從全量幀中挑子集，但面臨標注困難、組合爆炸帶來的訓練與工程成本，以及對下游模型結構 / 訓練方式的依賴；另一類是training-free的檢索式方案，用 CLIP、BLIP 等編碼器計算 “幀 — 文本” 相關性再選幀。

后者雖免訓練，卻往往需要先對全視頻逐幀預編碼，面對小時級視頻時單視頻計算開銷仍可能達到約FLOPs 量級，難以部署。

因此，我們需要一種更高效的選幀方式：在不犧牲準確性的前提下，避免對全視頻逐幀預掃，降低推理代價，用盡可能少的觀測幀數快速定位與 query 相關的高價值片段，真正滿足現實系統的效率與可用性要求。

方法：FOCUS 的兩階段探索 - 利用

基于上述動機，本文提出FOCUS，一個無需訓練、可即插即用的關鍵幀選擇算法。FOCUS 的核心思想是：將 “在預算內找到最有用的幀” 視為一個組合探索問題 ——算法不必先看完整視頻再做選擇，而是可以通過少量試探性采樣（探索）逐步縮小候選范圍，再將預算集中到最有價值的區域（利用）。

具體而言，FOCUS 將關鍵幀選擇建模為組合純探索（CPE）的多臂賭博機問題，并采用兩階段的 coarse-to-fine 策略：

第一階段：定位高價值時間段（粗粒度探索）。

我們把長視頻切分為若干時間段，將每個時間段視作一個 “臂”。FOCUS 在有限預算下，對不同時間段進行自適應抽樣：對 “可能與 query 更相關” 的時間段分配更多采樣，對明顯無關的時間段快速減少采樣。通過維護每個時間段的估計收益與不確定性（置信界），算法可以在不遍歷全視頻的情況下，把注意力收斂到少量候選高價值時間段。

第二階段：在段內精挑關鍵幀（細粒度利用）。

當候選時間段被鎖定后，FOCUS 在這些時間段內部進一步選擇幀：同樣通過 “少量試探 + 置信驅動” 的方式，把幀預算集中到最相關的畫面上，輸出最終關鍵幀集合供下游 MLLM 推理。

FOCUS 的效率優勢使其可以作為一個前置模塊，直接插入現有 MLLM 推理 pipeline，在不同模型、不同任務上復用。

實驗：即插即用的長視頻理解利器

為了驗證 FOCUS 的通用性與有效性，作者在四個公開視頻問答（Video QA）基準上進行了評測，并選擇了四種常用的 MLLM 作為下游推理模型，包括GPT-4o、Qwen2-VL、LLaVA-OV、LLaVA-Video等。

作者進一步地將 FOCUS 與目前最有代表性的關鍵幀選擇方法進行了對比。

結果表明：在長視頻場景（例如>20 分鐘的設定）下，FOCUS 相比均勻抽幀帶來最高 11.9%的性能提升。同時，FOCUS 在不依賴降采樣等預過濾手段的情況下，平均僅需觀察<2%的幀即可達到上述收益，顯著降低了關鍵幀選擇與推理階段的總體計算開銷。

分析：高效定位視頻關鍵信息

1. 可視化：FOCUS 能更精準地找到與 query 相關的證據片段

作者對若干典型樣例進行可視化分析：在長視頻中，FOCUS 通過兩階段探索快速將注意力收斂到少量高價值片段，再在片段內部挑出證據幀，使得輸入給 MLLM 的幀更 “信息密集”，從而提升回答質量。

2. 效率提升：相比全幀預掃的選幀范式，FOCUS 的端到端開銷更可控

FOCUS 的效率優勢在于：它的選擇過程本身就是省幀的，能夠在探索階段動態跳過大量無關區域，避免將計算預算花在 “無用的全量預掃” 上，相對于基線方法大大降低推理開銷。

同時 FOCUS 提供了清晰的預算控制接口：當系統更關注性能時，可以適當增加探索預算；當系統更關注吞吐 / 延遲時，可以通過調整超參數收緊預算。

總結

長視頻理解的核心難點在于：視覺 token 隨幀數快速膨脹，均勻抽幀又容易漏掉關鍵證據；而現有關鍵幀方法存在著訓練代價高、依賴模型結構的問題，或者雖免訓練仍需全幀預編碼，難以滿足真實系統的效率要求。

FOCUS 將選幀建模為組合純探索，通過兩階段 “探索 — 利用” 在不遍歷全幀的情況下定位與 query 相關的高價值片段；平均僅觀察 <2% 幀即可在長視頻設定下帶來最高 +11.9% 的準確率提升。它可作為即插即用的推理組件，為 MLLM 長視頻應用提供更可控的成本與表現。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.