<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      記得住、答得快、用得省:HERMES 流式視頻理解實時響應提速10倍

      0
      分享至



      復旦大學、上海創智學院與新加坡國立大學聯合提出HERMES,一個面向流式視頻理解的免訓練 (training-free)框架。它將 KV Cache 重新建模為層次化記憶系統,在用戶提問到來時無需額外檢索或輔助計算,就能直接復用緩存進行回答。

      在多項流式與離線視頻基準上的實驗表明,HERMES 在相較均勻采樣減少 68% 視頻 token的情況下,仍能取得可比甚至更優的理解性能;在流式數據集上最高帶來11.4%的增益, 并實現最高10倍 (10×)的首個 token 生成時間 (TTFT) 加速。

      在現實世界中,人類理解視頻流并不是把所有畫面一股腦 “存下來” 再慢慢分析。看一場直播、盯一段監控、觀察一臺正在運轉的機器人時,我們會自然地把剛發生的內容保留在注意力前沿,同時把更早但更關鍵的線索壓縮進長期記憶里。等到有人發問時,我們往往可以立刻回答,而不需要重新把整段過程回放一遍。

      然而,現有多模態大語言模型在離線視頻理解上已經取得了顯著進展,一旦進入流式視頻場景,卻常常陷入三難困境:既要保持理解性能穩定,又要做到實時響應,還要把 GPU 顯存開銷壓在可部署范圍內。已有方法中,一部分會把歷史視頻內容轉存到外部 CPU、磁盤或數據庫中,等用戶提問時再額外檢索和重建上下文;另一部分雖然嘗試直接壓縮緩存,卻往往缺乏細粒度管理和可解釋性。

      現在,這個問題有了一個更優雅的答案。研究團隊提出HERMES(KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding,ACL-2026),不再把 KV Cache 視作一個被動的中間產物,而是把它看作視頻流理解中的層次化記憶系統。在這一視角下,緩存不僅可以被壓縮,更可以被 “管理”。目前,該工作已被 ACL 2026 主會錄用。



      • 論文標題:HERMES:KV Cache as HiERarchical Memory for Efficient Streaming Video Understanding
      • 論文地址: https://arxiv.org/pdf/2601.14724
      • 代碼地址: https://github.com/haowei-freesky/HERMES
      • 項目主頁: https://hermes-streaming.github.io/

      從離線理解到流式理解:

      為什么這個問題這么難?

      傳統離線視頻理解默認 “視頻已經完整給出”,模型可以在統一采樣后一次性編碼、一次性回答。但流式視頻完全不同:未來幀未知,用戶問題未知,視頻時長也可能持續增長。這意味著模型無法提前知道哪些片段最重要,也不能把每一幀都永遠保存在 GPU 中。

      過去的方法大多在兩條路之間搖擺:

      依賴外部記憶。把歷史視頻內容以文本描述 (caption)、視覺特征塊 (patch) 或 KV 狀態形式轉移到 CPU、磁盤或數據庫里,等提問時再檢索回來。這類方法的主要問題是延遲高,而且會引入額外計算鏈路。

      直接復用內部緩存。把 KV Cache 當作模型內部記憶來使用,理論上更適合低延遲場景;但如果沒有精細的保留與淘汰機制,緩存很快就會被不斷增長的視頻流擠爆,或者在壓縮過程中丟失真正關鍵的信息。

      換句話說,流式視頻理解真正缺的,不只是 “更小的緩存”,而是一套更接近人類記憶組織方式的緩存管理機制。



      圖 1:HERMES 概念圖。左側展示了其將 KV Cache 視作層次化記憶系統的整體框架;右側則展示了不同層的注意力偏好與效率測試結果。

      HERMES:把 KV Cache 變成分層視頻記憶

      HERMES 最有啟發性的地方,在于它不是從工程經驗出發硬做壓縮,而是先通過注意力機制分析,去觀察不同解碼層到底更偏好什么樣的視頻信息。研究團隊發現,在流式輸入下,不同層實際上天然呈現出不同的 “記憶分工”。

      一個關鍵洞察:不同層,關注的是不同粒度的信息

      研究發現,淺層、中層和深層對視頻 token 的偏好并不相同:

      淺層像感官記憶。它們對最新到來的幀有明顯的近期偏好 (recency bias),更關心 “剛剛發生了什么”。

      中層像工作記憶。它們會在近期信息和更早的語義信息之間做平衡,承擔承上啟下的過渡作用。

      深層像長期記憶。它們不再單純偏向最近幀,而是會周期性地鎖定一些幀級 “錨點” token,用來保留更長時間跨度上的關鍵語義。



      圖 2:不同層對流式視頻 token 的注意力偏好。淺層更關注最近 token,深層更傾向于捕捉具有節奏性的幀級錨點,中層則承擔過渡作用。

      這意味著,KV Cache 并不是一個 “各層同質” 的存儲池,而天然更像一個由感官記憶、工作記憶和長期記憶組成的層次化系統。HERMES 正是基于這一點,重新設計了流式視頻緩存的保留策略。

      方法三件套:分層管理、跨層平滑、位置重索引



      圖 3:HERMES 方法總覽圖。包括 “分層 KV Cache 管理”、“跨層記憶平滑” 和 “位置重索引” 三大關鍵組件。

      圍繞 “KV Cache 是層次化記憶” 這一核心認識,HERMES 構建了三大關鍵組件:

      1. 分層 KV Cache 管理(Hierarchical KV Cache Management)

      HERMES 不再對所有層采用統一的淘汰策略,而是按層分配不同保留邏輯。淺層主要按時間新近性保留 token;深層則更多依據對用戶查詢的注意力重要性來保留幀級錨點;中層通過對 “新近性” 和 “注意力分數” 做插值,在二者之間取得平衡。

      2. 跨層記憶平滑(Cross-Layer Memory Smoothing)

      如果每一層都獨立淘汰 token,就容易出現不同層在同一緩存位置上 “記的不是同一個東西” 的問題。HERMES 通過從深層向淺層傳播重要性信號,對跨層記憶進行平滑,讓多層緩存之間保持更一致的視覺記憶結構。

      3. 位置重索引(Position Re-Indexing)

      隨著流式輸入不斷累積,token 的位置索引會越來越大,最終逼近模型支持的上限,影響生成質量。HERMES 通過位置重索引,把保留下來的 token 重新映射到連續位置區間中;在流式任務上使用更省算力的惰性重索引 (lazy re-indexing),在離線長視頻評測上則使用更穩定的即時重索引 (eager re-indexing)。

      這三步結合起來,讓 HERMES 能在不依賴額外訓練、不需要查詢時外部檢索的前提下,直接復用一份緊湊而有效的緩存,支撐實時視頻問答。

      實驗結果:HERMES 不只是更快,

      還在多個基準上更穩更準

      主結果:在流式視頻基準上顯著領先 training-free 基線

      研究團隊在StreamingBench、OVO-Bench、RVS-Ego、RVS-Movie等多個流式視頻任務上進行了系統評估。結果顯示,HERMES 不僅超過了對應的基礎模型,也普遍優于現有 training-free 的 offline-to-online 方法。

      以Qwen2.5-VL-7B為例,在僅使用4K video tokens的情況下,HERMES 在 StreamingBench 上達到79.44%,相較基座模型的73.31%提升6.13個點;在綜合平均指標上達到59.21%,相比基座模型的52.28%提升6.93個點。基于Qwen2.5-VL-32B的 HERMES 版本則進一步將綜合平均表現提升到64.82%。



      圖 4:StreamingBench 與 OVO-Bench 上的主結果。HERMES 在眾多 offline-to-online 方案中表現突出,并在不同底座模型上均能穩定提升。

      在開放式流式問答任務上,HERMES 同樣展現出更細粒度的時序與空間理解能力,在RVS-Ego和RVS-Movie上相較基礎模型最高可提升11.4%,說明其優勢不僅體現在多選題上,也體現在更接近真實使用場景的開放問答中。

      效率優勢:查詢到來時 “實時開口”

      如果說準確率證明了 HERMES “記得住”,那么效率實驗證明了它 “答得快”。由于 HERMES 在用戶提問到來時不需要額外檢索或輔助計算,它可以直接在現有緩存上完成回答,這一點對流式交互尤為關鍵。

      在基于LLaVA-OV-7B、4K-token memory budget的測試中,HERMES 在不同輸入幀數下都保持了穩定的顯存占用與極低的 TTFT。論文顯示,在16、64、256幀輸入下,其 TTFT 分別約為27 ms、29 ms、28 ms;在256 幀設置下,相比此前的 SOTA 方法StreamingTOM,HERMES 實現了約10×的 TTFT 加速。



      圖 5:效率對比結果。隨著輸入幀數增加,HERMES 仍能保持穩定的 GPU 顯存占用和極低的 Time To First Token (TTFT)。

      更重要的是,這種速度優勢不是靠犧牲緩存上限換來的。HERMES 在固定緊湊顯存預算下持續工作,避免了隨視頻流增長而不斷抬升的顯存壓力,更適合真實部署中的長期在線場景。

      更少 token,不代表更差理解

      HERMES 的另一個重要意義在于,它證明了流式視頻理解并不一定依賴 “保存盡可能多的幀”。論文指出,相比均勻采樣方案,HERMES 最多可減少68%的視頻 token,但依然能在多個流式和離線基準上保持競爭力。

      在離線視頻任務上,HERMES 并沒有因為面向流式場景設計而犧牲泛化性。以LLaVA-OV-7B為基座時,HERMES 在Egoschema和VideoMME上分別達到 60.29% 和 49.22%,高于基座模型;在MVBench上則取得與基座相當的結果。這說明它不僅適用于持續在線的視頻流,也具備向更廣泛長視頻理解任務遷移的能力。



      圖 6:不同 memory budget 下的性能變化。實驗表明,HERMES 在約 4K memory budget 左右已經能在流式與離線任務間取得較好平衡。

      從消融實驗可以看到,HERMES 的提升并非來自單一技巧,而是來自一整套協同設計:分層緩存管理決定 “留什么”,跨層記憶平滑解決 “不同層是否記一致”,位置重索引保證 “長流式輸入下還能穩定生成”。這些模塊共同構成了它的性能與效率優勢。


      為什么 HERMES 值得關注?

      HERMES 的價值,不只是又一個在榜單上更高分的方法,更在于它為流式視頻理解提供了一種更自然的系統設計思路。

      它更接近真實部署需求。對于視頻助手、機器人、智能安防、車載系統等場景來說,用戶不會等待模型重新檢索長上下文再開始作答。HERMES 把 “實時響應” 放在架構設計的中心位置,這一點非常關鍵。

      它給出了更有解釋性的緩存視角。很多緩存壓縮方法是經驗性的,而 HERMES 先做機制分析,再據此設計記憶管理規則,使 “為什么保留這些 token” 這件事變得更清楚。

      它是training-free、plug-and-play的。 論文在 LLaVA-OV 與 Qwen2.5-VL 等不同基礎模型上驗證了 HERMES 的通用性,說明它不是與某個單獨模型強綁定的工程 patch,而更像一種可遷移的流式理解范式。

      未來展望:讓視頻大模型真正走向持續在線

      HERMES 所回答的,不只是 “如何壓縮 KV Cache”,而是 “如何讓視頻大模型以更像記憶系統的方式持續工作”。從這個角度看,它為下一代流式多模態智能體提供了一個很重要的方向:模型不必在每次回答前重新回看全部歷史,而是應該學會像人一樣,保留最新感知、提煉關鍵錨點、壓縮長期經驗,并在需要時迅速調用。

      我們可以預期,這種思路會在更多實時視頻場景中釋放價值,例如長時監控理解、第一視角視頻助手、機器人持續感知、在線教育分析以及人機實時協作等。隨著流式視頻應用不斷增多,像 HERMES 這樣兼顧準確性、低延遲與低顯存開銷的方法,很可能成為視頻大模型從 “能看視頻” 邁向 “能持續在線理解視頻” 的關鍵一步。

      作者簡介:

      第一作者為復旦大學一年級博士生張浩威和南京大學本科生楊樞棟;合作者包括新加坡國立大學 See-Kiong Ng 教授;通訊作者為復旦大學計算與智能創新學院青年研究員傅金蘭與邱錫鵬教授。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美媒稱,革命衛隊總司令瓦希迪成為美軍最新打擊目標

      美媒稱,革命衛隊總司令瓦希迪成為美軍最新打擊目標

      山河路口
      2026-04-24 13:23:02
      DeepSeek-V4:華為昇騰適配、性價比王者、最新底層技術

      DeepSeek-V4:華為昇騰適配、性價比王者、最新底層技術

      AI科技評論
      2026-04-24 14:16:25
      粗糙的萬金油,24歲離開國米,29歲踢意乙,33歲混意丙

      粗糙的萬金油,24歲離開國米,29歲踢意乙,33歲混意丙

      95帕爾馬
      2026-04-25 11:47:59
      黑絲+小高跟鞋+緊身連衣裙,微胖得女生穿起來有一種特別的韻味

      黑絲+小高跟鞋+緊身連衣裙,微胖得女生穿起來有一種特別的韻味

      牛彈琴123456
      2026-04-12 15:19:11
      為何要建?誰將受益?一文讀懂廣深第二高鐵戰略意義

      為何要建?誰將受益?一文讀懂廣深第二高鐵戰略意義

      南方都市報
      2026-04-24 22:37:07
      小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

      小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

      人間煙火記事本
      2026-04-25 06:25:08
      噩耗傳來,影響中美的大佬突然逝世,川普派人來華,中方送上大禮

      噩耗傳來,影響中美的大佬突然逝世,川普派人來華,中方送上大禮

      起喜電影
      2026-04-24 18:35:17
      為了擺脫“右派”家屬身份,她果斷離婚并嫁給恩師,令人唏噓!

      為了擺脫“右派”家屬身份,她果斷離婚并嫁給恩師,令人唏噓!

      鶴羽說個事
      2026-04-17 22:54:53
      菲律賓局勢有變,副總統逃往海外,小馬科斯冒險,解放軍開始堵門

      菲律賓局勢有變,副總統逃往海外,小馬科斯冒險,解放軍開始堵門

      夢史
      2026-04-25 11:14:45
      男子30年前被扣押2859克黃金申請退賠,遼寧營口警方:正研究,將盡快答復

      男子30年前被扣押2859克黃金申請退賠,遼寧營口警方:正研究,將盡快答復

      澎湃新聞
      2026-04-24 21:04:32
      惡犬蔣孝先西安事變被捕殺,張學良說是天意,老蔣給仇人4萬大洋

      惡犬蔣孝先西安事變被捕殺,張學良說是天意,老蔣給仇人4萬大洋

      黑句本
      2026-04-19 15:32:03
      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      王治郅和二婚妻子近照,亮相名人堂,為他生2娃,依舊美麗動人

      大西體育
      2026-04-24 21:59:33
      急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

      急得滿頭大汗的印度,終于買到了尿素,但是和他們想的大不一樣!

      達文西看世界
      2026-04-25 11:40:56
      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      阿訊說天下
      2026-04-18 11:52:55
      喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結局讓所有人都傻眼

      喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結局讓所有人都傻眼

      小娛樂悠悠
      2026-04-16 13:32:37
      賣了80多座萬達廣場,還欠6000億!萬達的債為啥永遠還不完?

      賣了80多座萬達廣場,還欠6000億!萬達的債為啥永遠還不完?

      科學發掘
      2026-04-17 00:52:53
      CBA官宣常規賽8大獎候選:胡金秋領銜MVP 徐昕領銜最具進步獎

      CBA官宣常規賽8大獎候選:胡金秋領銜MVP 徐昕領銜最具進步獎

      醉臥浮生
      2026-04-25 11:39:05
      網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

      網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

      阿郎娛樂
      2026-04-23 15:28:38
      國乒返程北京:蒯曼艷壓群芳,陳熠短發太驚艷,孫穎莎走VIP通道

      國乒返程北京:蒯曼艷壓群芳,陳熠短發太驚艷,孫穎莎走VIP通道

      觀察鑒娛
      2026-04-25 10:45:26
      印度下最后通牒,要求中方必須賣尿素,中國:抱歉,沒有義務

      印度下最后通牒,要求中方必須賣尿素,中國:抱歉,沒有義務

      涵豆說娛
      2026-04-24 12:10:09
      2026-04-25 12:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142636關注度
      往期回顧 全部

      科技要聞

      Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規劃為商業用地

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規劃為商業用地

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      別高估英偉達,別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      時尚
      家居
      旅游
      藝術
      教育

      朱珠到底為什么接這部劇?

      家居要聞

      自然肌理 溫潤美學

      旅游要聞

      滬六合作:一片茶葉 撐起上海人的“后花園”

      藝術要聞

      廈門新地標奠基!美圖立方視覺藝術中心,OPEN設計

      教育要聞

      農村學生迎來“好消息”!教育部新規:取消戶籍限制,9月起執行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 长子县| 天堂无码| 国产成人精品久久一区二区三区| 四虎三级在线视频播放| 中文无码热在线视频| 老司机精品福利在线资源| 国产无码VA| 夜夜高潮夜夜爽国产伦精品| 国产精品免费AⅤ片在线观看| 仙游县| 国产又色又爽又黄的免费软件| 狠狠人妻久久久久久综合蜜桃| 亚洲19p| 亚洲人成网站色www| 国产精品一亚洲AV日韩AV欧| 欧洲亚洲av| 国产一区二区亚洲一区二区三区 | 亚洲国产精品美女久久久久| 亚洲av永久无码天堂影院| 国产区精品系列在线观看| 性夜夜春夜夜爽夜夜免费视频 | 精品欧美一区二区三区久久久 | 内地老太婆内射内地小矮人内射| 国产suv精品一区二区| 黑人无码视频| 95在线一区| 超碰人人在线| 亚洲成人中出| 国产高清精品在线91| 欧美高清大屁股xxxxx| 日本一区二区精品色超碰| 少妇极品熟妇人妻| 91色色| 国产成人av在线影院| 亚洲精品色午夜无码专区日韩| 项城市| 欧美性色黄大片| 久色88| xx性欧美肥妇精品久久久久久| 精品黑人一区二区三区国语馆| 日韩欧无码一区二区三区免费不卡|