<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      輕量高效,即插即用:Video-RAG為長視頻理解帶來新范式

      0
      分享至



      盡管視覺語言模型(LVLMs)在圖像與短視頻理解中已取得顯著進展,但在處理長時序、復雜語義的視頻內容時仍面臨巨大挑戰 —— 上下文長度限制、跨模態對齊困難、計算成本高昂等問題制約著其實際應用。針對這一難題,廈門大學、羅切斯特大學與南京大學聯合提出了一種輕量高效、無需微調的創新框架 ——Video-RAG。該研究已被機器學習頂級會議 NeurIPS 2025 接收,為長視頻理解任務提供了全新的解決思路。



      • 項目主頁:https://video-rag.github.io/
      • 論文鏈接:https://arxiv.org/abs/2411.13093
      • 開源代碼:https://github.com/Leon1207/Video-RAG-master

      挑戰:現有方法為何難以勝任?

      當前主流方案主要分為兩類:

      • 擴展上下文法(如 LongVA):依賴大規模長視頻 - 文本配對數據進行微調,訓練成本高且數據稀缺;
      • 智能體驅動法(如 VideoAgent):通過任務分解與外部代理決策增強推理,但頻繁調用 GPT-4o 等商業 API 導致開銷巨大。

      更重要的是,兩種方法在長時間跨度下的視覺 - 語義對齊上表現有限,往往犧牲效率換取精度,難以兼顧實用性與可擴展性。



      創新:用 “檢索” 打通視覺與語言的橋梁

      Video-RAG 提出一種低資源消耗、高語義對齊的新路徑 —— 多模態輔助文本檢索增強生成(Retrieval-Augmented Generation, RAG),不依賴模型微調,也不需昂貴的商業大模型支持。其核心思想是:從視頻中提取與視覺內容強對齊的文本線索,按需檢索并注入現有 LVLM 輸入流中,實現精準引導與語義增強。

      具體流程如下:

      1. 查詢解耦(Query Decoupling)

      將用戶問題自動拆解為多個檢索請求(JSON 格式),指導系統從不同模態數據庫中查找相關信息,LVLM 此階段僅處理文本,不接觸視頻幀,大幅降低初期計算負擔。

      2. 多模態輔助文本構建與檢索

      利用開源工具構建三大語義對齊數據庫:

      • OCR 文本庫:使用 EasyOCR 提取幀內文字,結合 Contriever 編碼 + FAISS 向量索引,支持快速檢索;
      • 語音轉錄庫(ASR):通過 Whisper 模型提取音頻內容并嵌入存儲;
      • 對象語義庫(DET):采用 APE 模型檢測關鍵幀中的物體及其空間關系,經場景圖預處理生成結構化描述文本。

      這些文本不僅與畫面同步,還具備明確語義標簽,有效緩解傳統采樣幀缺乏上下文關聯的問題。

      3. 信息融合與響應生成

      將檢索到的相關文本片段、原始問題與少量關鍵視頻幀共同輸入現有的 LVLM(如 LLaMA-VID、Qwen-VL 等),由模型完成最終推理輸出。整個過程無需微調、即插即用,顯著降低部署門檻與計算開銷。



      可以發現,在經過檢索之后,LVLM 可以將更多的注意力集中到對應的關鍵視覺信息上,減少模態鴻溝:



      優勢:輕量、高效、性能卓越

      • 即插即用:兼容任意開源 LVLM,無需修改模型架構或重新訓練。
      • 資源友好:在 Video-MME 基準測試中,平均每問僅增加約 2000 token,遠低于主流 Agent 方法的通信與計算開銷。
      • 性能領先:當與一個 72B 參數規模的開源 LVLM 結合時,Video-RAG 在多個長視頻理解基準上超越 GPT-4o 和 Gemini 1.5 等商業閉源模型,展現出驚人的競爭力。





      成果與意義

      Video-RAG 的成功驗證了一個重要方向:通過高質量、視覺對齊的輔助文本引入外部知識,可以在不改變模型的前提下,突破上下文窗口瓶頸,顯著提升跨模態理解能力。它不僅解決了長視頻理解中的 “幻覺” 與 “注意力分散” 問題,更構建了一套低成本、高可擴展的技術范式,適用于教育、安防、醫療影像分析等多種現實場景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小瓦格納重傷!嘗試空接遭對手犯規摔倒 左腿無法承重被攙扶離場

      小瓦格納重傷!嘗試空接遭對手犯規摔倒 左腿無法承重被攙扶離場

      羅說NBA
      2025-12-08 06:29:46
      38歲王子文越來越放的開,穿黑色透視連衣裙,個子不高卻很有料!

      38歲王子文越來越放的開,穿黑色透視連衣裙,個子不高卻很有料!

      農村娛樂光哥
      2025-12-07 12:05:33
      被謝賢養了12年,用青春換來兩千萬的coco,已經走上了另一條道路

      被謝賢養了12年,用青春換來兩千萬的coco,已經走上了另一條道路

      墨印齋
      2025-12-04 19:46:02
      名場面!梅西心甘情愿給德保羅提鞋松鞋帶引熱議,球迷:王的溫柔

      名場面!梅西心甘情愿給德保羅提鞋松鞋帶引熱議,球迷:王的溫柔

      側身凌空斬
      2025-12-08 09:53:50
      獵鷹9號技術全球開源?俄宇航員在SpaceX訓練時偷拍發動機被遣返

      獵鷹9號技術全球開源?俄宇航員在SpaceX訓練時偷拍發動機被遣返

      科普大世界
      2025-12-06 16:40:09
      美國慌了!這位中國女科學家,讓東風-17成為反導系統的噩夢

      美國慌了!這位中國女科學家,讓東風-17成為反導系統的噩夢

      宅家伍菇涼
      2025-12-08 09:00:04
      當世界坍塌時,我們該指望誰?英國,這個“攪屎棍”的文明擔當

      當世界坍塌時,我們該指望誰?英國,這個“攪屎棍”的文明擔當

      蘇格拉高
      2025-12-04 18:17:28
      妻子韓雯雯回應“朱孝天被退出F4”:他為合體月瘦30斤,我看到很揪心;網上謾罵挺傷人,現在也不想爭什么

      妻子韓雯雯回應“朱孝天被退出F4”:他為合體月瘦30斤,我看到很揪心;網上謾罵挺傷人,現在也不想爭什么

      大象新聞
      2025-12-08 00:18:07
      國家隊低調布局:這5只科技股或成明年主線,概念炒作請讓道

      國家隊低調布局:這5只科技股或成明年主線,概念炒作請讓道

      慧眼看世界哈哈
      2025-12-08 07:05:03
      真的沒想到,劉亦菲這一刀下去,給整個娛樂圈整不會了

      真的沒想到,劉亦菲這一刀下去,給整個娛樂圈整不會了

      小娛樂悠悠
      2025-12-06 11:33:37
      毛阿敏的2002-2004年:39歲突嫁金融大佬,行業教科書級關系切割

      毛阿敏的2002-2004年:39歲突嫁金融大佬,行業教科書級關系切割

      道術意義
      2025-12-08 09:51:21
      日本右翼一語驚人:若中國核彈造成日本幾百萬人死亡,那剩下~~~

      日本右翼一語驚人:若中國核彈造成日本幾百萬人死亡,那剩下~~~

      魔都姐姐雜談
      2025-12-07 06:29:53
      楊振寧走后1個月,翁帆搬離別墅,穿帆布鞋吃食堂,帶走34箱東西

      楊振寧走后1個月,翁帆搬離別墅,穿帆布鞋吃食堂,帶走34箱東西

      禾寒敘
      2025-11-28 19:07:41
      人民日報怒轉!杭州師大通報出爐:名單造假實錘,但是沒貪污!

      人民日報怒轉!杭州師大通報出爐:名單造假實錘,但是沒貪污!

      金哥說新能源車
      2025-12-08 09:57:15
      職稱公示58人48個假名,連夜下架遮丑,黑料越挖越多,網友質疑!

      職稱公示58人48個假名,連夜下架遮丑,黑料越挖越多,網友質疑!

      你食不食油餅
      2025-12-07 06:00:09
      100多艘中國軍艦出動,幾十年來頭一回,外媒擔心有大事發生

      100多艘中國軍艦出動,幾十年來頭一回,外媒擔心有大事發生

      井普椿的獨白
      2025-12-06 17:11:20
      圍標串標!四川九洲光電科技股份有限公司被暫停全軍采購資格

      圍標串標!四川九洲光電科技股份有限公司被暫停全軍采購資格

      齊魯壹點
      2025-12-08 06:53:38
      文言文封神的十大千古名篇,你能背幾篇?最后一篇此生必背之

      文言文封神的十大千古名篇,你能背幾篇?最后一篇此生必背之

      長風文史
      2025-12-07 16:55:18
      學歷開始崩盤了

      學歷開始崩盤了

      微微熱評
      2025-12-07 00:30:02
      戴口罩!已抵達杭州

      戴口罩!已抵達杭州

      都市快報橙柿互動
      2025-12-08 11:42:32
      2025-12-08 13:27:04
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      媒體:臺日竟然還想夾擊解放軍 笑話

      頭條要聞

      媒體:臺日竟然還想夾擊解放軍 笑話

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      教育
      旅游
      手機
      本地
      公開課

      教育要聞

      慈母多敗兒,到底是誰的錯

      旅游要聞

      北京市發布11月旅行社投訴量前十名單

      手機要聞

      iPhone 18系列確認測試屏下Face ID:首發小號靈動島

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 麻豆成人精品国产免费| 日韩丝袜亚洲国产欧美一区| 西丰县| jlzz大jlzz大全免费| 免费观看添你到高潮视频| 另类无码| www欧美在线观看| www.91自拍| 亚洲综合另类| 精品无码人妻一区二区三区| 中文字幕人妻熟女人妻a片| A在线视频| 婷婷综合亚洲| 久久久久欧美精品| 香蕉av777xxx色综合一区| 国产手机在线αⅴ片无码观看 | 2021亚洲va在线va天堂va国产 | 久久午夜夜伦鲁鲁片免费无码| 亚州成人小说| 色综合久| 国产精品无码av在线播放| 免费视频爱爱太爽了| 亚欧美国产色| 新兴县| 无码少妇a片一区二区三区 | 精品三级在线| 欧美色欧美亚洲另类二区| 国产女人和拘做受视频免费| jizzjizz黄色| 538在线精品| 成人无码视频| 久久精品国产69国产精品亚洲| 国产欧美一区二区三区免费视频| 色婷婷Av| 国产精品自拍中文字幕| 亚洲色Www永久网站| 色婷婷?av| 伊人在线视频| 亚洲一区精品伊人久久| 无码高潮少妇毛多水多水| 一女被多男玩喷潮视频|