<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      CVPR2026 | Streamo:讓大模型變成實時流式交互助手

      0
      分享至



      當視頻大模型在 MVBench、VideoMME 等離線基準上越跑越高分,真實交互場景卻卡在兩個硬問題:如何處理無界的視頻流、如何讓模型在動態的視頻流中決定回答時機。

      近期,香港浸會大學聯合騰訊優圖實驗室提出Streamo,其核心創新在于:將‘何時回答’變成模型要預測的 token,通過端到端訓練框架把離線視頻模型直接轉化為實時流視頻助手。Streamo 能夠處理真實場景的視頻流,支持實時的多指令交互,實現實時解說、動作理解、事件定位、實時問答等不同任務,讓 streaming video assistant 真正走向可用。



      • 論文標題:Streaming Video Instruction Tuning
      • 論文主頁:https://jiaerxia.github.io/Streamo/
      • 論文鏈接:https://github.com/maifoundations/Streamo

      1. 問題分析

      為什么視頻大模型目前還無法成為一個實時的交互助手?雖然視頻大語言模型近年來取得了令人矚目的進展 ——Qwen2-VL、LLaVA-Video 等模型在視頻理解、問答、描述等任務上屢創新高。然而,關鍵的卡點在于這些模型是基于完整視頻片段的離線場景設計的,而真實世界的交互需求往往是 "邊看邊說" 的實時流式場景。

      離線視頻理解范式假設在推理前可以獲取完整視頻,模型由此能在全局審視后再輸出答案,因此在視頻描述、視頻問答等任務中表現突出。然而,真實世界的流式場景并不滿足這一前提。

      視頻流本質上是無界的,模型無法 “看到未來”,只能基于當前幀及時做出判斷;又因實時性要求,不能等視頻播放結束才給出結果,必須在關鍵事件發生的當下響應。同時,用戶指令可能隨時到來,模型需要持續監聽并在合適的時機觸發響應。更復雜的是,不同應用對響應粒度的要求并不一致:有的任務需要幀級的即時敘述,有的則更適合在完整事件結束后再做總結與描述。

      現有方法通常通過拆分決策模塊來適配流式場景:先由一個模塊判斷 “是否應該響應”,再調用離線模型生成內容。但這種方案存在明顯缺陷:決策模塊如果過于輕量,就難以理解復雜指令和跨時間的上下文依賴;如果設計得過于龐大,又會拉高推理延遲,削弱流式交互所需的實時性。更關鍵的是,決策與生成彼此分離,使模型很難在持續變化的輸入中形成連貫、及時的響應。

      Streamo 的核心洞察在于:決策與生成不應被拆開,而應統一到同一個端到端框架中,讓模型直接學會“什么時候該說話,以及該說什么”。

      2. Streamo:

      端到端的決策響應統一架構





      通過這種方式,Streamo 將“是否響應”與“生成什么內容”統一到同一個 next-token prediction 過程中。也就是說,模型在預測下一個 token 時,不再只是生成文本內容,同時也在完成響應時機的判斷。這樣一來,決策和生成共享同一語義空間,模型能夠在連續變化的視頻內容中聯合建模時序線索、任務目標與語言輸出,從而更自然地學習 “何時該立即回應、何時應繼續等待”。

      同時,這一設計并不需要額外引入獨立的決策頭或外部控制器,而是直接將三種狀態 token 融入標準的自回歸訓練框架中。這樣既保留了與現有監督微調范式的兼容性,也使訓練和推理流程更加簡潔高效,便于直接復用現有基礎設施進行并行訓練和部署。

      3. Streamo-Instruct-465K

      訓練流式助手的核心挑戰在于:不同任務對應不同的響應節奏—— 有的需要秒級實時輸出,有的則應等待事件結束后再總結。這意味著訓練數據不僅要提供內容監督,還要給出清晰、一致的時間邊界,告訴模型什么時候該沉默、什么時候該等待、什么時候該回答。

      為此,研究者構建了Streamo-Instruct-465K。該數據集包含約 46.5 萬條指令樣本,來源于 135,875 段視頻,整合了 ActivityNet、YouCook2、QVHighlight 等多個公開數據源,并在統一協議下重新標注。標注過程采用多階段自動化流程,結合 Qwen2.5-VL-72B、GLM-4.5 等大模型生成候選描述,再通過一致性過濾與后處理,盡可能保證時間邊界準確、文本表達連貫。

      在任務設置上,Streamo-Instruct-465K 具有多任務、多粒度的特點。同一段視頻可以被標注為不同形式的流式任務,包括實時旁白(Real-time Narration)、事件字幕(Event Caption)、動作字幕(Action Caption)、事件時序定位(Event Grounding)以及時變問答(Time-sensitive QA)。這些任務覆蓋了從連續解說到事件總結、從動作級描述到在線定位和動態問答等不同場景。

      更重要的是,所有任務都被統一到同一種時間監督框架中:每一輪標注不僅包含文本輸出,還明確對應模型當下應處于沉默、等待還是回答狀態。這樣一來,模型學習的就不只是 “說什么”,還包括 “何時說”,從而具備適應不同流式任務的響應能力。

      多任務數據標注演示:

      對于同一段視頻,標注可以隨任務目標呈現不同形式:在實時旁白中,模型需要跟隨畫面持續輸出;在事件字幕中,則只在關鍵事件結束后給出總結;在時變問答中,答案會隨著視頻進展不斷更新。對應地,每個時間點都會標注模型應保持沉默、繼續等待,還是立即響應。

      4. 實驗結果

      在 OVO-Bench 上,Streamo-7B (2fps) 以57.86%的平均性能超越 Dispider13.83個百分點。在三大能力維度上全面領先:實時感知能力達到67.44%(相對 Dispider 的 54.55% 提升+12.89%);回溯追蹤能力達到49.18%(相對 Dispider 的 36.06% 提升+13.12%);前向響應能力達到56.96%(相對 Dispider 的 34.72% 提升+22.24%)。同時,Streamo 在1fps 訓練的模型可直接在 2fps 下評估,性能提升4.66%, 展現出強大的泛化能力。



      Streamo-Instruct vs 現有數據

      Streamo 的性能提升不僅來自訓練框架,也高度依賴于高質量的訓練數據。與廣泛使用的 ET-Instruct-164K 相比,Streamo-Instruct在 OVO-Bench 上的整體性能提升了11.79%,在關鍵的前向主動響應任務上提升了7.1%,并且避免了混合離線數據(如 LLaVA-Video)所帶來的 “在線能力退化” 問題。

      實驗進一步揭示了一個重要現象:直接混合離線數據可能會削弱模型的在線能力。例如,ET-Instruct 與 LLaVA-Video 結合后,雖然實時感知能力有所提升,但前向響應表現反而下降。這表明,離線監督范式與流式學習目標之間存在一定沖突。相比之下,Streamo-Instruct 通過專門設計的流式標注與統一的時間監督,有效避免了這一問題。

      5. 結論

      實現真正的實時多模態助手(直播理解、智能駕駛提醒、安防巡檢、運動教學等),最難的往往不是 "答對",而是在合適的時間點做合適的輸出。Streamo 不僅解決了當前視頻大模型的關鍵瓶頸,提供了一個可復用的技術路線來將靜態感知模型轉換為動態交互智能體,同時提供了一個統一時間標注的大規模流視頻指令數據,推動流視頻理解的發展。

      6. Demo


      https://mp.weixin.qq.com/s/Q28azqwk-PtsXoep2i0_0Q

      該 demo 展示了流視頻模型在連續視頻輸入下的實時理解與響應能力。模型能夠隨畫面進展動態決定何時沉默、何時等待、何時回答,在保證時效性的同時提升響應的準確性與連貫性。對于尚無明確答案的問題,模型會等待更多信息后再作答;對于答案隨時間變化的問題,模型能夠持續更新輸出;同時,它還支持基于歷史視頻內容的回溯式問答。

      作者介紹:

      本文第一作者為香港浸會大學計算機系博士生夏佳爾,主要研究方向為多模態大模型,包括多模態思考,流視頻理解與交互,以第一作者在CVPR,ICCV,AAAI等頂級會議發表多篇文章。導師為香港浸會大學計算機系周鍇陽助理教授。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2場17分,再中5記三分!火箭老射手重回輪換,烏度卡一招盤活2陣

      2場17分,再中5記三分!火箭老射手重回輪換,烏度卡一招盤活2陣

      熊哥愛籃球
      2026-03-23 19:42:18
      阿里:裁員超66000人!

      阿里:裁員超66000人!

      最通信
      2026-03-23 19:59:41
      太陽120-98大勝猛龍!三小將搶戲布克,這天賦簡直不講武德

      太陽120-98大勝猛龍!三小將搶戲布克,這天賦簡直不講武德

      仰臥撐FTUer
      2026-03-23 18:52:06
      高盛:油價上行風險下 中國電動汽車等行業出口需求或在未來升溫

      高盛:油價上行風險下 中國電動汽車等行業出口需求或在未來升溫

      財聯社
      2026-03-23 18:42:17
      男子4s店蹭飯260頓后續:被熟人認出,本人發聲喊冤,妻子被威脅

      男子4s店蹭飯260頓后續:被熟人認出,本人發聲喊冤,妻子被威脅

      奇思妙想草葉君
      2026-03-20 22:45:31
      上海德云社開業三天被舉報,只因社門口放了一大蒜形狀的咖啡杯子

      上海德云社開業三天被舉報,只因社門口放了一大蒜形狀的咖啡杯子

      蜜桔娛樂
      2026-03-21 09:37:34
      羽壇名將李宗偉:36歲患癌喉嚨全爛,花近1000萬續命,如今怎樣了

      羽壇名將李宗偉:36歲患癌喉嚨全爛,花近1000萬續命,如今怎樣了

      米果說識
      2026-03-23 11:35:11
      熱刺0-3慘敗!主帥突聞噩耗缺席發布會,5戰0勝保級太難

      熱刺0-3慘敗!主帥突聞噩耗缺席發布會,5戰0勝保級太難

      仰臥撐FTUer
      2026-03-23 18:52:06
      一場戰爭徹底把中國打醒!美軍作戰最毒的是什么?中國用30年看清

      一場戰爭徹底把中國打醒!美軍作戰最毒的是什么?中國用30年看清

      卷史
      2026-03-21 17:04:43
      原成都外援提莫-萊切特為荷丙球隊出場,他此前曾宣布退役

      原成都外援提莫-萊切特為荷丙球隊出場,他此前曾宣布退役

      懂球帝
      2026-03-23 15:32:05
      李鵬晚年親口澄清身世:說我是周總理養子?這話其實不準確

      李鵬晚年親口澄清身世:說我是周總理養子?這話其實不準確

      老杉說歷史
      2026-03-21 16:56:05
      現貨黃金失守4110美元/盎司,日內跌8.65%

      現貨黃金失守4110美元/盎司,日內跌8.65%

      每日經濟新聞
      2026-03-23 15:31:19
      慧妍雅集晚宴歷代港姐云集 朱玲玲高貴現身 楊思琦“胸”戰陳茵媺 亞姐林寶玉“踩場”

      慧妍雅集晚宴歷代港姐云集 朱玲玲高貴現身 楊思琦“胸”戰陳茵媺 亞姐林寶玉“踩場”

      TVB資訊臺
      2026-03-22 21:11:24
      從“水貨”到真香!國安“新比埃拉”,踢出了久違的頂級中場靈性

      從“水貨”到真香!國安“新比埃拉”,踢出了久違的頂級中場靈性

      體壇鑒春秋
      2026-03-23 16:43:43
      “F-35被擊中”,伊朗上空到底發生了什么?

      “F-35被擊中”,伊朗上空到底發生了什么?

      上觀新聞
      2026-03-23 07:56:03
      為紀錄而生!梅西再進任意球獨享歷史第二,超越儒儒尼奧時間問題

      為紀錄而生!梅西再進任意球獨享歷史第二,超越儒儒尼奧時間問題

      月下小生2018
      2026-03-23 17:39:16
      真挺嚇人的,韋德在日本游玩期間坐船時險遭橋梁“爆頭”

      真挺嚇人的,韋德在日本游玩期間坐船時險遭橋梁“爆頭”

      懂球帝
      2026-03-23 13:56:07
      34分鐘1.5萬臺!小米新車又爆火,但雷軍卻變了

      34分鐘1.5萬臺!小米新車又爆火,但雷軍卻變了

      象視汽車
      2026-03-21 07:00:05
      三個省級黨委領導班子調整

      三個省級黨委領導班子調整

      吉刻新聞
      2026-03-22 13:08:34
      5月1日起北京福建等地電動車后座可坐16周歲以下未成年 家長接娃方便了

      5月1日起北京福建等地電動車后座可坐16周歲以下未成年 家長接娃方便了

      閃電新聞
      2026-03-23 11:45:22
      2026-03-23 20:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12576文章數 142591關注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      民警在派出所猥褻女孩獲刑兩年九個月 當地政法委回應

      頭條要聞

      民警在派出所猥褻女孩獲刑兩年九個月 當地政法委回應

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      劉燁47歲生日,安娜曬全家福為其慶生

      財經要聞

      市場見底了嗎?誰在拋售?機構火線解讀

      汽車要聞

      "拒絕"豪車稅 新款Panamera盡享版99.8萬元起精準入局

      態度原創

      房產
      游戲
      數碼
      藝術
      家居

      房產要聞

      440億!海南又一城城更計劃曝光!TOP10房企巨頭突然殺入!

      索尼確認PS主機將搭載AI幀生成技術 或隨PS6亮相?

      數碼要聞

      創維自然光顯示技術:電視久看再也不累

      藝術要聞

      如此美妙的光影,安靜而溫暖,真令人折服!

      家居要聞

      智慧生活 奢享家居

      無障礙瀏覽 進入關懷版