<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      FOCUS 關鍵幀提取:長視頻理解能力提升11.9%,只需采樣<2% 幀

      0
      分享至



      本文第一作者朱子瑞為新加坡國立大學四年級博士生,本科畢業于清華大學,研究方向為多模態大模型和后訓練優化。通訊作者為 TikTok 內容智能負責人 Kanchan Sarkar、Meta楊振恒博士(相關工作完成于其在 TikTok 任職期間)以及新加坡國立大學校長青年教授尤洋老師。

      文章速覽

      長視頻會使 MLLM 的視覺 token 規模快速增長,但推理階段的計算與上下文預算有限,難以對全量幀進行處理。

      現有關鍵幀方案通常還需先用 CLIP/BLIP 等視覺編碼器全視頻逐幀預掃描,即使最終只保留少量幀,前置計算成本依然很高。

      本文提出FOCUS:將關鍵幀選擇建模為組合純探索(CPE)多臂賭博機,以自適應的 “探索 — 利用” 策略在無需遍歷全幀的前提下先鎖定高價值時間段,再在段內精挑關鍵幀。

      • 無需訓練、即插即用:可直接接入現有 MLLM(如 GPT-4o 或 Qwen)的推理流程,不依賴特定模型結構與訓練方式。

      • 效果更強:在>20 分鐘的長視頻 VQA benchmark 設定下,FOCUS 選幀相較均勻抽幀可帶來11.9%的性能提升。

      • 成本更低:不依賴降采樣等預過濾手段,平均只需觀察 <2% 的幀即可達到上述收益,顯著降低推理計算開銷。



      • 論文標題:FOCUS: Efficient Keyframe Selection for Long Video Understanding
      • 論文鏈接:https://arxiv.org/abs/2510.27280
      • 代碼倉庫:https://github.com/NUS-HPC-AI-Lab/FOCUS

      背景:長視頻理解為什么難?

      長視頻理解是多模態大模型(MLLM)中最為困難的問題之一。一段小時級、30fps 的標準視頻往往包含十萬量級以上的幀數。

      對于主流 MLLM 而言,無論是先將視頻幀編碼為視覺 token、還是進一步進行跨模態交互建模,計算與上下文開銷都會隨幀數快速增長:“全量幀輸入” 在絕大多數真實推理場景中并不現實。

      因此,“挑選關鍵幀” 幾乎是所有長視頻系統的必經步驟。最常見的均勻抽幀(降采樣)雖然能控成本,卻容易錯過集中在短片段中的決定性證據,導致模型在核心信息缺失的情況下 “盲答”。

      現有關鍵幀方法大致分為兩類:一類是training-based,訓練輕量選擇器從全量幀中挑子集,但面臨標注困難、組合爆炸帶來的訓練與工程成本,以及對下游模型結構 / 訓練方式的依賴;另一類是training-free的檢索式方案,用 CLIP、BLIP 等編碼器計算 “幀 — 文本” 相關性再選幀。

      后者雖免訓練,卻往往需要先對全視頻逐幀預編碼,面對小時級視頻時單視頻計算開銷仍可能達到約FLOPs 量級,難以部署。

      因此,我們需要一種更高效的選幀方式:在不犧牲準確性的前提下,避免對全視頻逐幀預掃,降低推理代價,用盡可能少的觀測幀數快速定位與 query 相關的高價值片段,真正滿足現實系統的效率與可用性要求。

      方法:FOCUS 的兩階段探索 - 利用

      基于上述動機,本文提出FOCUS,一個無需訓練、可即插即用的關鍵幀選擇算法。FOCUS 的核心思想是:將 “在預算內找到最有用的幀” 視為一個組合探索問題 ——算法不必先看完整視頻再做選擇,而是可以通過少量試探性采樣(探索)逐步縮小候選范圍,再將預算集中到最有價值的區域(利用)。



      具體而言,FOCUS 將關鍵幀選擇建模為組合純探索(CPE)的多臂賭博機問題,并采用兩階段的 coarse-to-fine 策略:

      第一階段:定位高價值時間段(粗粒度探索)。

      我們把長視頻切分為若干時間段,將每個時間段視作一個 “臂”。FOCUS 在有限預算下,對不同時間段進行自適應抽樣:對 “可能與 query 更相關” 的時間段分配更多采樣,對明顯無關的時間段快速減少采樣。通過維護每個時間段的估計收益與不確定性(置信界),算法可以在不遍歷全視頻的情況下,把注意力收斂到少量候選高價值時間段。

      第二階段:在段內精挑關鍵幀(細粒度利用)。

      當候選時間段被鎖定后,FOCUS 在這些時間段內部進一步選擇幀:同樣通過 “少量試探 + 置信驅動” 的方式,把幀預算集中到最相關的畫面上,輸出最終關鍵幀集合供下游 MLLM 推理。



      FOCUS 的效率優勢使其可以作為一個前置模塊,直接插入現有 MLLM 推理 pipeline,在不同模型、不同任務上復用。

      實驗:即插即用的長視頻理解利器

      為了驗證 FOCUS 的通用性與有效性,作者在四個公開視頻問答(Video QA)基準上進行了評測,并選擇了四種常用的 MLLM 作為下游推理模型,包括GPT-4o、Qwen2-VL、LLaVA-OV、LLaVA-Video等。





      作者進一步地將 FOCUS 與目前最有代表性的關鍵幀選擇方法進行了對比。



      結果表明:在長視頻場景(例如>20 分鐘的設定)下,FOCUS 相比均勻抽幀帶來最高 11.9%的性能提升。同時,FOCUS 在不依賴降采樣等預過濾手段的情況下,平均僅需觀察<2%的幀即可達到上述收益,顯著降低了關鍵幀選擇與推理階段的總體計算開銷。

      分析:高效定位視頻關鍵信息

      1. 可視化:FOCUS 能更精準地找到與 query 相關的證據片段

      作者對若干典型樣例進行可視化分析:在長視頻中,FOCUS 通過兩階段探索快速將注意力收斂到少量高價值片段,再在片段內部挑出證據幀,使得輸入給 MLLM 的幀更 “信息密集”,從而提升回答質量。



      2. 效率提升:相比全幀預掃的選幀范式,FOCUS 的端到端開銷更可控

      FOCUS 的效率優勢在于:它的選擇過程本身就是省幀的,能夠在探索階段動態跳過大量無關區域,避免將計算預算花在 “無用的全量預掃” 上,相對于基線方法大大降低推理開銷。



      同時 FOCUS 提供了清晰的預算控制接口:當系統更關注性能時,可以適當增加探索預算;當系統更關注吞吐 / 延遲時,可以通過調整超參數收緊預算。



      總結

      長視頻理解的核心難點在于:視覺 token 隨幀數快速膨脹,均勻抽幀又容易漏掉關鍵證據;而現有關鍵幀方法存在著訓練代價高、依賴模型結構的問題,或者雖免訓練仍需全幀預編碼,難以滿足真實系統的效率要求。

      FOCUS 將選幀建模為組合純探索,通過兩階段 “探索 — 利用” 在不遍歷全幀的情況下定位與 query 相關的高價值片段;平均僅觀察 <2% 幀即可在長視頻設定下帶來最高 +11.9% 的準確率提升。它可作為即插即用的推理組件,為 MLLM 長視頻應用提供更可控的成本與表現。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小米應召回37萬輛SU7,震驚全網!

      小米應召回37萬輛SU7,震驚全網!

      新零售參考Pro
      2026-02-27 17:10:09
      原來早已不是中國籍?事業巔峰遠赴美國,被老外“玩膩”晚年回國

      原來早已不是中國籍?事業巔峰遠赴美國,被老外“玩膩”晚年回國

      往史過眼云煙
      2026-02-27 23:04:59
      浙江體彩人化身“急救天使”,馬路救傷傳遞公益溫情

      浙江體彩人化身“急救天使”,馬路救傷傳遞公益溫情

      錢潮廣角鏡
      2026-02-28 09:26:41
      臺灣地區一對母女在日本遭惡意沖撞,女童母親發文稱撞人行為不可原諒,但跟風拍照打卡是錯誤決定;多國網友譴責撞人者暴力行為

      臺灣地區一對母女在日本遭惡意沖撞,女童母親發文稱撞人行為不可原諒,但跟風拍照打卡是錯誤決定;多國網友譴責撞人者暴力行為

      瀟湘晨報
      2026-02-28 12:34:41
      美國航母行動了!伊朗:準備“毀滅性”報復行動

      美國航母行動了!伊朗:準備“毀滅性”報復行動

      浙江之聲
      2026-02-28 15:43:21
      中國大橋再添世界之最!廣西蒼容潯江大橋正式通車

      中國大橋再添世界之最!廣西蒼容潯江大橋正式通車

      環球網資訊
      2026-02-28 12:33:21
      重要賽事!2月28晚上19:30,中央5套CCTV5、CCTV5+直播節目表

      重要賽事!2月28晚上19:30,中央5套CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2026-02-28 07:29:56
      汪小菲喜得三胎僅2天,荒唐事接連發生,馬筱梅或走上大S的老路

      汪小菲喜得三胎僅2天,荒唐事接連發生,馬筱梅或走上大S的老路

      攬星河的筆記
      2026-02-26 19:35:46
      卓榮泰下令各行政單位禁止給李貞秀資料,名醫:韓國瑜應有所動作

      卓榮泰下令各行政單位禁止給李貞秀資料,名醫:韓國瑜應有所動作

      海峽導報社
      2026-02-28 11:02:11
      全美熱搜第一!約基奇與多爾特爆發沖突 后者驅逐遭集體炮轟動作太臟

      全美熱搜第一!約基奇與多爾特爆發沖突 后者驅逐遭集體炮轟動作太臟

      銜春信
      2026-02-28 13:17:20
      女兒替父請假兩小時被開除后續:女兒發聲曝更多惡行,評論區淪陷

      女兒替父請假兩小時被開除后續:女兒發聲曝更多惡行,評論區淪陷

      奇思妙想生活家
      2026-02-27 20:18:32
      朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

      朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

      阿胡
      2024-04-30 11:48:45
      太遺憾!林詩棟苦戰六局不敵小勒布倫,無緣四強的同時遭遇四連敗

      太遺憾!林詩棟苦戰六局不敵小勒布倫,無緣四強的同時遭遇四連敗

      楊哥乒乓
      2026-02-28 14:21:16
      大利空來襲!科技巨頭、中國資產等跳水大跌,下周A股要涼涼了嗎

      大利空來襲!科技巨頭、中國資產等跳水大跌,下周A股要涼涼了嗎

      風風順
      2026-02-28 13:49:39
      “媽,這個我拿走了啊!” 大學生返校后:家只剩承重墻了……

      “媽,這個我拿走了啊!” 大學生返校后:家只剩承重墻了……

      中國日報
      2026-02-28 12:10:32
      帝都兩套房加600萬現金,準備48歲提前退休旅居養老,卻被大三的兒子勸退

      帝都兩套房加600萬現金,準備48歲提前退休旅居養老,卻被大三的兒子勸退

      吃貨的分享
      2026-02-28 09:08:46
      央視曝光3場“空中硬仗”:別再吹裝備了,真正讓對手怕的是這個

      央視曝光3場“空中硬仗”:別再吹裝備了,真正讓對手怕的是這個

      云天之巔明
      2026-02-23 20:05:44
      1.5T!五菱官宣:新車正式亮相

      1.5T!五菱官宣:新車正式亮相

      高科技愛好者
      2026-02-27 23:07:22
      吳宜澤:無法理解江俊的打球方式,希望我再次專注比賽并爭取奪冠

      吳宜澤:無法理解江俊的打球方式,希望我再次專注比賽并爭取奪冠

      世界體壇觀察家
      2026-02-28 08:43:10
      汪小菲開直播,回應玥兒和箖箖上學問題,吐槽汪寶兒心眼太多了

      汪小菲開直播,回應玥兒和箖箖上學問題,吐槽汪寶兒心眼太多了

      阿訊說天下
      2026-02-28 13:56:11
      2026-02-28 16:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12382文章數 142573關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      最高領袖辦公室附近遭襲 媒體:伊朗領導體系仍具韌性

      頭條要聞

      最高領袖辦公室附近遭襲 媒體:伊朗領導體系仍具韌性

      體育要聞

      球隊主力全報銷?頂風擺爛演都不演了

      娛樂要聞

      疑似王一博被爆私密聊天記錄

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      游戲
      時尚
      本地
      數碼
      教育

      《無主之地4》新DLC發布 新強敵與超珍戰利品登場

      被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質!

      本地新聞

      津南好·四時總相宜

      數碼要聞

      海信RGB-Mini LED電視UX 2026款3月5日發布

      教育要聞

      中考真題,計算-3×5×(-7)

      無障礙瀏覽 進入關懷版