<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      記得住、答得快、用得省:HERMES 流式視頻理解實時響應提速10倍

      0
      分享至



      復旦大學、上海創智學院與新加坡國立大學聯合提出HERMES,一個面向流式視頻理解的免訓練 (training-free)框架。它將 KV Cache 重新建模為層次化記憶系統,在用戶提問到來時無需額外檢索或輔助計算,就能直接復用緩存進行回答。

      在多項流式與離線視頻基準上的實驗表明,HERMES 在相較均勻采樣減少 68% 視頻 token的情況下,仍能取得可比甚至更優的理解性能;在流式數據集上最高帶來11.4%的增益, 并實現最高10倍 (10×)的首個 token 生成時間 (TTFT) 加速。

      在現實世界中,人類理解視頻流并不是把所有畫面一股腦 “存下來” 再慢慢分析。看一場直播、盯一段監控、觀察一臺正在運轉的機器人時,我們會自然地把剛發生的內容保留在注意力前沿,同時把更早但更關鍵的線索壓縮進長期記憶里。等到有人發問時,我們往往可以立刻回答,而不需要重新把整段過程回放一遍。

      然而,現有多模態大語言模型在離線視頻理解上已經取得了顯著進展,一旦進入流式視頻場景,卻常常陷入三難困境:既要保持理解性能穩定,又要做到實時響應,還要把 GPU 顯存開銷壓在可部署范圍內。已有方法中,一部分會把歷史視頻內容轉存到外部 CPU、磁盤或數據庫中,等用戶提問時再額外檢索和重建上下文;另一部分雖然嘗試直接壓縮緩存,卻往往缺乏細粒度管理和可解釋性。

      現在,這個問題有了一個更優雅的答案。研究團隊提出HERMES(KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding,ACL-2026),不再把 KV Cache 視作一個被動的中間產物,而是把它看作視頻流理解中的層次化記憶系統。在這一視角下,緩存不僅可以被壓縮,更可以被 “管理”。目前,該工作已被 ACL 2026 主會錄用。



      • 論文標題:HERMES:KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding
      • 論文地址: https://arxiv.org/pdf/2601.14724
      • 代碼地址: https://github.com/haowei-freesky/HERMES
      • 項目主頁: https://hermes-streaming.github.io/

      從離線理解到流式理解:

      為什么這個問題這么難?

      傳統離線視頻理解默認 “視頻已經完整給出”,模型可以在統一采樣后一次性編碼、一次性回答。但流式視頻完全不同:未來幀未知,用戶問題未知,視頻時長也可能持續增長。這意味著模型無法提前知道哪些片段最重要,也不能把每一幀都永遠保存在 GPU 中。

      過去的方法大多在兩條路之間搖擺:

      依賴外部記憶。把歷史視頻內容以文本描述 (caption)、視覺特征塊 (patch) 或 KV 狀態形式轉移到 CPU、磁盤或數據庫里,等提問時再檢索回來。這類方法的主要問題是延遲高,而且會引入額外計算鏈路。

      直接復用內部緩存。把 KV Cache 當作模型內部記憶來使用,理論上更適合低延遲場景;但如果沒有精細的保留與淘汰機制,緩存很快就會被不斷增長的視頻流擠爆,或者在壓縮過程中丟失真正關鍵的信息。

      換句話說,流式視頻理解真正缺的,不只是 “更小的緩存”,而是一套更接近人類記憶組織方式的緩存管理機制。



      圖 1:HERMES 概念圖。左側展示了其將 KV Cache 視作層次化記憶系統的整體框架;右側則展示了不同層的注意力偏好與效率測試結果。

      HERMES:把 KV Cache 變成分層視頻記憶

      HERMES 最有啟發性的地方,在于它不是從工程經驗出發硬做壓縮,而是先通過注意力機制分析,去觀察不同解碼層到底更偏好什么樣的視頻信息。研究團隊發現,在流式輸入下,不同層實際上天然呈現出不同的 “記憶分工”。

      一個關鍵洞察:不同層,關注的是不同粒度的信息

      研究發現,淺層、中層和深層對視頻 token 的偏好并不相同:

      淺層像感官記憶。它們對最新到來的幀有明顯的近期偏好 (recency bias),更關心 “剛剛發生了什么”。

      中層像工作記憶。它們會在近期信息和更早的語義信息之間做平衡,承擔承上啟下的過渡作用。

      深層像長期記憶。它們不再單純偏向最近幀,而是會周期性地鎖定一些幀級 “錨點” token,用來保留更長時間跨度上的關鍵語義。



      圖 2:不同層對流式視頻 token 的注意力偏好。淺層更關注最近 token,深層更傾向于捕捉具有節奏性的幀級錨點,中層則承擔過渡作用。

      這意味著,KV Cache 并不是一個 “各層同質” 的存儲池,而天然更像一個由感官記憶、工作記憶和長期記憶組成的層次化系統。HERMES 正是基于這一點,重新設計了流式視頻緩存的保留策略。

      方法三件套:分層管理、跨層平滑、位置重索引



      圖 3:HERMES 方法總覽圖。包括 “分層 KV Cache 管理”、“跨層記憶平滑” 和 “位置重索引” 三大關鍵組件。

      圍繞 “KV Cache 是層次化記憶” 這一核心認識,HERMES 構建了三大關鍵組件:

      1. 分層 KV Cache 管理(Hierarchical KV Cache Management)

      HERMES 不再對所有層采用統一的淘汰策略,而是按層分配不同保留邏輯。淺層主要按時間新近性保留 token;深層則更多依據對用戶查詢的注意力重要性來保留幀級錨點;中層通過對 “新近性” 和 “注意力分數” 做插值,在二者之間取得平衡。

      2. 跨層記憶平滑(Cross-Layer Memory Smoothing)

      如果每一層都獨立淘汰 token,就容易出現不同層在同一緩存位置上 “記的不是同一個東西” 的問題。HERMES 通過從深層向淺層傳播重要性信號,對跨層記憶進行平滑,讓多層緩存之間保持更一致的視覺記憶結構。

      3. 位置重索引(Position Re-Indexing)

      隨著流式輸入不斷累積,token 的位置索引會越來越大,最終逼近模型支持的上限,影響生成質量。HERMES 通過位置重索引,把保留下來的 token 重新映射到連續位置區間中;在流式任務上使用更省算力的惰性重索引 (lazy re-indexing),在離線長視頻評測上則使用更穩定的即時重索引 (eager re-indexing)。

      這三步結合起來,讓 HERMES 能在不依賴額外訓練、不需要查詢時外部檢索的前提下,直接復用一份緊湊而有效的緩存,支撐實時視頻問答。

      實驗結果:HERMES 不只是更快,

      還在多個基準上更穩更準

      主結果:在流式視頻基準上顯著領先 training-free 基線

      研究團隊在StreamingBench、OVO-Bench、RVS-Ego、RVS-Movie等多個流式視頻任務上進行了系統評估。結果顯示,HERMES 不僅超過了對應的基礎模型,也普遍優于現有 training-free 的 offline-to-online 方法。

      以Qwen2.5-VL-7B為例,在僅使用4K video tokens的情況下,HERMES 在 StreamingBench 上達到79.44%,相較基座模型的73.31%提升6.13個點;在綜合平均指標上達到59.21%,相比基座模型的52.28%提升6.93個點。基于Qwen2.5-VL-32B的 HERMES 版本則進一步將綜合平均表現提升到64.82%。



      圖 4:StreamingBench 與 OVO-Bench 上的主結果。HERMES 在眾多 offline-to-online 方案中表現突出,并在不同底座模型上均能穩定提升。

      在開放式流式問答任務上,HERMES 同樣展現出更細粒度的時序與空間理解能力,在RVS-Ego和RVS-Movie上相較基礎模型最高可提升11.4%,說明其優勢不僅體現在多選題上,也體現在更接近真實使用場景的開放問答中。

      效率優勢:查詢到來時 “實時開口”

      如果說準確率證明了 HERMES “記得住”,那么效率實驗證明了它 “答得快”。由于 HERMES 在用戶提問到來時不需要額外檢索或輔助計算,它可以直接在現有緩存上完成回答,這一點對流式交互尤為關鍵。

      在基于LLaVA-OV-7B、4K-token memory budget的測試中,HERMES 在不同輸入幀數下都保持了穩定的顯存占用與極低的 TTFT。論文顯示,在16、64、256幀輸入下,其 TTFT 分別約為27 ms、29 ms、28 ms;在256 幀設置下,相比此前的 SOTA 方法StreamingTOM,HERMES 實現了約10×的 TTFT 加速。



      圖 5:效率對比結果。隨著輸入幀數增加,HERMES 仍能保持穩定的 GPU 顯存占用和極低的 Time To First Token (TTFT)。

      更重要的是,這種速度優勢不是靠犧牲緩存上限換來的。HERMES 在固定緊湊顯存預算下持續工作,避免了隨視頻流增長而不斷抬升的顯存壓力,更適合真實部署中的長期在線場景。

      更少 token,不代表更差理解

      HERMES 的另一個重要意義在于,它證明了流式視頻理解并不一定依賴 “保存盡可能多的幀”。論文指出,相比均勻采樣方案,HERMES 最多可減少68%的視頻 token,但依然能在多個流式和離線基準上保持競爭力。

      在離線視頻任務上,HERMES 并沒有因為面向流式場景設計而犧牲泛化性。以LLaVA-OV-7B為基座時,HERMES 在Egoschema和VideoMME上分別達到 60.29% 和 49.22%,高于基座模型;在MVBench上則取得與基座相當的結果。這說明它不僅適用于持續在線的視頻流,也具備向更廣泛長視頻理解任務遷移的能力。



      圖 6:不同 memory budget 下的性能變化。實驗表明,HERMES 在約 4K memory budget 左右已經能在流式與離線任務間取得較好平衡。

      從消融實驗可以看到,HERMES 的提升并非來自單一技巧,而是來自一整套協同設計:分層緩存管理決定 “留什么”,跨層記憶平滑解決 “不同層是否記一致”,位置重索引保證 “長流式輸入下還能穩定生成”。這些模塊共同構成了它的性能與效率優勢。


      為什么 HERMES 值得關注?

      HERMES 的價值,不只是又一個在榜單上更高分的方法,更在于它為流式視頻理解提供了一種更自然的系統設計思路。

      它更接近真實部署需求。對于視頻助手、機器人、智能安防、車載系統等場景來說,用戶不會等待模型重新檢索長上下文再開始作答。HERMES 把 “實時響應” 放在架構設計的中心位置,這一點非常關鍵。

      它給出了更有解釋性的緩存視角。很多緩存壓縮方法是經驗性的,而 HERMES 先做機制分析,再據此設計記憶管理規則,使 “為什么保留這些 token” 這件事變得更清楚。

      它是training-free、plug-and-play的。 論文在 LLaVA-OV 與 Qwen2.5-VL 等不同基礎模型上驗證了 HERMES 的通用性,說明它不是與某個單獨模型強綁定的工程 patch,而更像一種可遷移的流式理解范式。

      未來展望:讓視頻大模型真正走向持續在線

      HERMES 所回答的,不只是 “如何壓縮 KV Cache”,而是 “如何讓視頻大模型以更像記憶系統的方式持續工作”。從這個角度看,它為下一代流式多模態智能體提供了一個很重要的方向:模型不必在每次回答前重新回看全部歷史,而是應該學會像人一樣,保留最新感知、提煉關鍵錨點、壓縮長期經驗,并在需要時迅速調用。

      我們可以預期,這種思路會在更多實時視頻場景中釋放價值,例如長時監控理解、第一視角視頻助手、機器人持續感知、在線教育分析以及人機實時協作等。隨著流式視頻應用不斷增多,像 HERMES 這樣兼顧準確性、低延遲與低顯存開銷的方法,很可能成為視頻大模型從 “能看視頻” 邁向 “能持續在線理解視頻” 的關鍵一步。

      作者簡介:

      第一作者為復旦大學一年級博士生張浩威和南京大學本科生楊樞棟;合作者包括新加坡國立大學 See-Kiong Ng 教授;通訊作者為復旦大學計算與智能創新學院青年研究員傅金蘭與邱錫鵬教授。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      李亞鵬復婚登上熱搜,前妻海哈金喜回應:我們都是夏夏的父母,不會不聯系和尷尬,我們都很好,謝謝大家關心

      李亞鵬復婚登上熱搜,前妻海哈金喜回應:我們都是夏夏的父母,不會不聯系和尷尬,我們都很好,謝謝大家關心

      臺州交通廣播
      2026-04-24 19:02:38
      打起來了,以色列本土被炸,內塔尼亞胡或被逮捕?特朗普態度轉變

      打起來了,以色列本土被炸,內塔尼亞胡或被逮捕?特朗普態度轉變

      志宏教授
      2026-04-26 00:52:22
      CBA常規賽全部結束,賀西寧一共拿了824分,那么胡明軒和張寧呢

      CBA常規賽全部結束,賀西寧一共拿了824分,那么胡明軒和張寧呢

      羅納爾說個球
      2026-04-25 19:10:27
      A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

      A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

      云鵬敘事
      2026-04-26 00:00:07
      雨雨雨!暴跌10℃!江蘇最新天氣預測!

      雨雨雨!暴跌10℃!江蘇最新天氣預測!

      江南晚報
      2026-04-26 03:00:28
      遼寧艦,山東艦,四川艦齊聚南海,德專家:殲35殲15與攻擊21協同

      遼寧艦,山東艦,四川艦齊聚南海,德專家:殲35殲15與攻擊21協同

      混沌錄
      2026-04-23 16:50:23
      五一前后屬兔人躲不過的劫,究竟是啥?

      五一前后屬兔人躲不過的劫,究竟是啥?

      愛下廚的阿釃
      2026-04-25 04:09:42
      哈弗茨和埃澤先后因傷離場,阿森納一戰折損兩員大將

      哈弗茨和埃澤先后因傷離場,阿森納一戰折損兩員大將

      懂球帝
      2026-04-26 03:32:06
      圣馬克西曼:對手已無欲無求卻比我們更有斗志,這不正常

      圣馬克西曼:對手已無欲無求卻比我們更有斗志,這不正常

      懂球帝
      2026-04-25 07:10:48
      7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

      7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

      阿庫財經
      2026-04-25 12:50:08
      男乒在倫敦團體世乒賽上被淪落為最弱團隊,這個賬該算在誰頭上?

      男乒在倫敦團體世乒賽上被淪落為最弱團隊,這個賬該算在誰頭上?

      鴻印百合
      2026-04-24 21:24:43
      教育異化:是培育未來還是摧毀希望?

      教育異化:是培育未來還是摧毀希望?

      烽火瞭望者
      2026-04-25 13:38:25
      女人能活多久,看乳房就知?乳房有這3個異常,長壽無望?

      女人能活多久,看乳房就知?乳房有這3個異常,長壽無望?

      醫學科普匯
      2026-04-07 19:55:08
      周美青身邊人爆猛料!蕭旭岑沉冤得雪,邱毅一語戳破藍營內斗真相

      周美青身邊人爆猛料!蕭旭岑沉冤得雪,邱毅一語戳破藍營內斗真相

      老鵜愛說事
      2026-04-25 01:15:19
      賀州滅門案:妹妹為錢殺害姐姐一家四口,落網后提出一個無恥請求

      賀州滅門案:妹妹為錢殺害姐姐一家四口,落網后提出一個無恥請求

      南書房
      2026-04-24 21:25:03
      廣州番禺一小區車庫流浪貓被軋死 街道辦回應:將建長效機制

      廣州番禺一小區車庫流浪貓被軋死 街道辦回應:將建長效機制

      新快報新聞
      2026-04-25 20:04:15
      娛樂圈“模范夫妻”人設崩塌,家暴、蕩婦羞辱、孕期聊騷,占全了

      娛樂圈“模范夫妻”人設崩塌,家暴、蕩婦羞辱、孕期聊騷,占全了

      庭小娛
      2026-04-25 19:15:03
      黑尾醬,徹底消失了?

      黑尾醬,徹底消失了?

      生如稗草
      2026-03-15 08:48:11
      鏈家悄悄上線新功能,買房賣房都坐不住了

      鏈家悄悄上線新功能,買房賣房都坐不住了

      大川東山再起
      2026-04-25 23:06:28
      盧旺達:從軍事到經濟,全盤抄中國作業,經濟起飛,暴打鄰國

      盧旺達:從軍事到經濟,全盤抄中國作業,經濟起飛,暴打鄰國

      牛牛叨史
      2025-07-03 01:14:51
      2026-04-26 05:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142636關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4發布!黃仁勛預言的"災難"降臨

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      頭條要聞

      媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      游戲
      藝術
      本地
      公開課
      軍事航空

      金發美少女魔王和我是鄰居!新游首曝美女角色太吸睛

      藝術要聞

      最適合作為抖音總部的大樓,它在福建莆田!

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99精品偷自拍| 五月丁香在线视频| 亚洲精品成人a?v久久| 青青草原国产精品啪啪视频 | 亚洲成熟女人毛毛耸耸多| 中文字幕日韩有码| 国产午夜福利一区二区三区| 绝顶高潮videos合集| 国产熟妇精品高潮一区二区三区| 亚洲熟妇少妇任你躁在线观看无码 | 精品少妇爆乳无码aⅴ区| 久久无码高潮喷水| 一本加勒比hezyo无码人妻| 曰本无码人妻丰满熟妇5g影院| 桐柏县| 亚洲熟妇国产熟妇肥婆| 亚洲色诱| 亚洲17p| 精品人妻| 国产综合色网| 国产一区二区三区精品综合| 欧美freesex黑人又粗又大| 欧美va免费高清在线观看| 色噜噜狠狠色综合成人网| 性人久久久久| 久久av老司机精品网站导航| 热re99久久精品国产99热| 美女秘密91| 久久精品国产99精品国产2021| 日韩成人A级毛片| 色亚洲无码| 人妻丰满熟妇av无码区波多野| 人妻在线网站| 亚洲AV日韩AV激情亚洲| 日韩精品人妻一区二区中文八零| 国产福利酱国产一区二区| 亚洲欧美色综合影院| 久久综合干| 777爽死你无码免费看一二区| 久久亚洲精品成人无码网站| AV人摸人人人澡人人超碰妓女|