<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      音頻-視覺全模態的未來預測,FutureOmni給出了首份答卷

      0
      分享至



      復旦大學、上海創智學院與新加坡國立大學聯合推出首個全模態未來預測評測基準 FutureOmni,要求模型從音頻 - 視覺線索中預測未來事件,實現跨模態因果和時間推理。包含919個視頻和1,034個多選題問答對,在13 個全模態模型和7 個純視頻模型上的評估顯示,當前系統在預測未來事件方面存在顯著困難,最佳準確率僅為 64.8%。

      在日常生活中,人類不僅能理解「發生了什么」,更重要的是能夠預測「將會發生什么」。看到烏云密布、聽到雷聲漸近,我們會主動關窗收衣;看到老師眉頭緊皺,反復強調某個知識點(聽),我們知道接下來可能會有提問;看到球員起跳的動作和聽到觀眾的驚呼,我們能夠預判這是一個精彩的扣籃。

      然而,現有的多模態大語言模型(MLLMs)雖然在全方位感知方面展現出強大的能力,但它們從音頻 - 視覺線索中預測未來事件的能力仍然很大程度上未被探索。現有的音視頻模態基準主要關注回顧性理解 ? 「視頻中發生了什么」,而非前瞻性預測 ? 「接下來會發生什么」。

      現在,這一空白終于被填補了!復旦大學、上海創智學院與新加坡國立大學聯合發布FutureOmni,不僅重新定義了多模態模型的「未來預測」評測范式,更通過精心設計的全模態因果推理任務,首次系統評估模型通過「融合視覺觀察與聽覺線索」來「預測未來」的能力。



      • 論文標題:FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs
      • 論文地址: https://arxiv.org/pdf/2601.13836
      • 代碼地址: https://github.com/OpenMOSS/FutureOmni
      • 數據集地址: https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni
      • 項目主頁: https://openmoss.github.io/FutureOmni

      評測范式革命:從回顧理解到未來預測



      圖 1:FutureOmni 數據示例。模型需要基于給定的前提事件(premise event),從多個選項中選擇最可能的未來事件(future event)。

      當前主流的 MLLMs 評測基準存在兩大局限:(1)現有基準大多關注「發生了什么」,要求模型描述、理解或分析已經發生的事件,無法評估模型預測未來事件的能力。(2)現有方法嚴重依賴于視覺信息,即便使用音頻,也往往作為輔助信息,未能充分挖掘音頻 - 視覺之間的因果關系對預測未來事件的關鍵作用。

      這意味著,過去的多模態模型是一個擅長「事后分析」的觀察者,而非一個能未卜先知的智能伙伴。

      FutureOmni 提出的全模態未來預測(omni-modal future forecasting)新范式,旨在徹底改變這一現狀。它要求模型能像人類一樣,主動融合音頻對話、環境聲音和視覺觀察,從多模態上下文中推斷出未來最可能發生的事件。

      從回顧到預測: 不再是回答「視頻中發生了什么」,而是預測「接下來最可能發生什么」。

      從單模態到全模態: 同時理解音頻中的語義信息(如語音內容、說話人身份、情感傾向)、環境聲音(如門鈴、警報、音樂)以及視覺觀察(畫面中的物體狀態和人物關系)的因果關系。

      這不再是簡單的視頻理解,而是讓模型具備了真正的未來預測能力。它就像一個貼心的智能助手,能夠從一段對話、一個動作和周圍的環境中讀懂「潛臺詞」,預測未來最可能的發展。

      FutureOmni 數據集:為「未來預測認知」量身打造的大規模評測基準



      圖 2:FutureOmni 評測結果。評估了 13 個全模態模型和 7 個視頻模型。

      研究團隊構建了FutureOmni? 首個大規模全模態未來預測評測基準,包含基于音頻 - 視覺因果關系、日常序列、主題蒙太奇的未來事件預測任務。

      海量規模與豐富多樣性



      圖 3:FutureOmni 數據統計分布。

      • 919個視頻,1,034個多選題問答對
      • 8個主要領域:教育、緊急情況、監控、日常生活、紀錄片、電影、游戲、卡通
      • 100% 原創視頻率,確保零污染,所有視頻均為首次收集
      • 3 種音頻類型:語音(Speech)、聲音(Sound)、音樂(Music)

      八大視頻領域:精心設計的「預測考題」



      圖 4:FutureOmni 數據構建流程。

      為確保數據的真實性與高質量,研究團隊采用三階段流程:

      • 階段一:視頻收集與篩選。從多個來源收集原始視頻,確保 100% 原創,避免數據污染。
      • 階段二:因果對構建。使用 LLM 輔助識別具有明確因果關系的視頻片段,生成高質量的前提 - 結論對。
      • 階段三:問題生成與審核。人工和大模型審核質量,確保每個問題都測試模型的未來預測能力。

      實驗結果:當前模型在「預測未來」上仍面臨巨大挑戰

      研究團隊在13 個全模態模型和7 個視頻模型上進行了廣泛評估,揭示了當前系統在未來預測任務上的顯著不足。

      整體性能:SOTA 模型依然不合格



      圖 5:FutureOmni 評測結果。

      結論:即便是最強的 Gemini 3 Flash,準確率也僅為64.8%。開源最強模型 Qwen3-Omni 表現不及格,僅為53.05%。視覺大模型 GPT-4o 也只達到49.70%。這表明,現有的多模態大模型在面對復雜的全模態未來預測任務時,距離人類水平仍有不小差距。

      細粒度分析:語音場景最具挑戰性



      圖 6:不同音頻類型(語音、聲音、音樂)對模型性能的影響。

      結果顯示: -語音場景最具挑戰性,模型表現普遍較低(最佳模型 Gemini 3 Flash 僅 60.52%) -音樂場景相對容易,模型表現較好(Gemini 3 Flash 達到 68.31%) -聲音場景處于中等難度(Gemini 3 Flash 達到 67.13%)



      圖 7:不同視頻時長對模型性能的影響。

      模態消融研究:音頻信息至關重要



      圖 8:模態消融實驗結果。評估不同模態組合對性能的影響。

      關鍵發現:

      • 音頻 + 視頻的組合顯著優于單獨使用視頻。
      • 音頻信息對于未來預測至關重要,缺失音頻會導致性能大幅下降。
      • 跨模態融合能力是成功預測未來的關鍵。

      這證明了 FutureOmni 設計的合理性:未來預測需要同時理解音頻和視覺信息之間的因果關系。

      OFF 訓練策略:讓模型真正「學會預測未來」

      為了緩解當前模型的局限性,研究團隊提出了全模態未來預測(OFF)策略,并精心策劃了一個7K 樣本的指令微調數據集。

      核心思想

      OFF 策略的核心在于:通過專門的未來預測訓練,讓模型不僅提升未來預測能力,還增強通用感知能力。這與傳統的視頻理解訓練不同,它要求模型學習音頻 - 視覺之間的因果關系,并利用這些關系預測未來事件。

      訓練效果:顯著提升未來預測和通用能力



      圖 9:使用 OFF 策略訓練后,模型在不同音頻類型上的性能提升。



      圖 10:使用 OFF 策略訓練后,模型在不同視頻類別上的性能提升。



      圖 11: OFF 策略在通用能力基準上的泛化效果。證明未來預測訓練不僅提升了預測能力,還增強了模型的通用感知能力。

      關鍵發現:在FutureOmni和流行的音頻 - 視覺(如 WorldSense、DailyOmni)以及純視頻(如 Video-MME)基準上的評估表明,OFF策略顯著提升了未來預測和通用感知能力。

      關鍵幀差異分析



      圖 12: 關鍵幀選擇對未來預測的影響分析。

      研究團隊利用注意力可視化技術進一步分析OFF泛化的原因,發現該策略顯著增強了模型在深層網絡中對關鍵關鍵幀的聚焦能力。 如圖所示,與基線相比,OFF 模型(藍線)在網絡的深層表現出大幅提升的注意力分數差值。這意味著模型學會鎖定包含未來事件線索的關鍵時刻,即使在最終輸出層之前仍能保持對關鍵信息的高度關注。

      未來展望:讓 AI 真正「未卜先知」

      FutureOmni 為多模態大語言模型的未來預測能力提供了首個系統性評估基準。我們期待:

      1. 更多模型參與,希望更多研究團隊在 FutureOmni 上評估他們的模型,共同推動多模態場景下未來預測能力的發展。
      2. 方法改進,基于研究團隊的發現,開發更強大的未來預測方法,特別是針對語音場景和跨模態因果推理的改進。
      3. 應用拓展,將未來預測能力應用到實際場景中,如智能助手、自動駕駛、機器人等,讓 AI 真正具備「未卜先知」的能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      當年舉報畢福劍的張清,落得何種結局?

      當年舉報畢福劍的張清,落得何種結局?

      深度報
      2026-01-22 23:29:58
      退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢力大也沒用

      退臟衣女記者社死!囂張丟了鐵飯碗,商家硬剛到底,勢力大也沒用

      離離言幾許
      2026-01-26 10:48:59
      太原一國企董事長上門毆打他人被行拘3天:本人拒絕回應,官方稱已知情

      太原一國企董事長上門毆打他人被行拘3天:本人拒絕回應,官方稱已知情

      大風新聞
      2026-01-26 12:48:15
      女明星被實名舉報“插足婚姻”!

      女明星被實名舉報“插足婚姻”!

      新動察
      2026-01-26 10:45:00
      “家里東西被移動過!”女子查看路由器記錄發現……真相令人毛骨悚然!

      “家里東西被移動過!”女子查看路由器記錄發現……真相令人毛骨悚然!

      深圳晚報
      2026-01-26 12:16:04
      為什么漢朝皇帝稱為“帝”,而唐宋皇帝卻叫“宗”,今天才弄明白

      為什么漢朝皇帝稱為“帝”,而唐宋皇帝卻叫“宗”,今天才弄明白

      銘記歷史呀
      2026-01-10 13:10:16
      烏拉圭總統奧爾西將訪華

      烏拉圭總統奧爾西將訪華

      界面新聞
      2026-01-26 15:04:55
      賬戶里突然多了20萬!女子10年前買的10萬元白銀被徹底遺忘 現在市值接近32萬元

      賬戶里突然多了20萬!女子10年前買的10萬元白銀被徹底遺忘 現在市值接近32萬元

      閃電新聞
      2026-01-26 12:02:06
      雷軍無奈宣布:全部下架!

      雷軍無奈宣布:全部下架!

      電動知家
      2026-01-25 15:31:25
      央視曝光!你吃的“新鮮蔬菜”,比老鼠藥還毒!已流竄到全國多地

      央視曝光!你吃的“新鮮蔬菜”,比老鼠藥還毒!已流竄到全國多地

      夜深愛雜談
      2026-01-25 19:32:05
      李湘被英國相關部門調查,涉嫌用藝術品國際洗錢,王詩齡已經休學

      李湘被英國相關部門調查,涉嫌用藝術品國際洗錢,王詩齡已經休學

      花哥扒娛樂
      2026-01-25 17:10:22
      杭州有雨夾雪、雪!這波太猛,明天提前準備

      杭州有雨夾雪、雪!這波太猛,明天提前準備

      魯中晨報
      2026-01-26 13:51:04
      英國首相斯塔默本周將訪華?外交部:將適時發布消息

      英國首相斯塔默本周將訪華?外交部:將適時發布消息

      財聯社
      2026-01-26 15:27:50
      印度尼帕病毒疫情或來自醫院

      印度尼帕病毒疫情或來自醫院

      新華社
      2026-01-26 13:53:03
      李湘背后,趙薇、黃有龍、佘智江的跨境黑金鏈

      李湘背后,趙薇、黃有龍、佘智江的跨境黑金鏈

      每日一見
      2026-01-26 02:35:01
      上海市政府、江蘇省政府、浙江省政府研究,同意全國首個跨省域高新區命名

      上海市政府、江蘇省政府、浙江省政府研究,同意全國首個跨省域高新區命名

      新京報政事兒
      2026-01-25 14:08:06
      五五分流為什么分不下去了?背后的真相

      五五分流為什么分不下去了?背后的真相

      楓冷慕詩
      2026-01-24 13:09:19
      10億產業毀于貪婪?云南毒紅薯后續:無辜農戶畝虧數千

      10億產業毀于貪婪?云南毒紅薯后續:無辜農戶畝虧數千

      愛下廚的阿椅
      2026-01-26 06:45:40
      李湘王詩齡被曝已經跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

      李湘王詩齡被曝已經跑路,妄圖用外籍身份扯保護旗,逃脫法律制裁

      花哥扒娛樂
      2026-01-24 16:06:55
      李湘的事兒大嗎?

      李湘的事兒大嗎?

      獎一罰十
      2026-01-23 21:25:51
      2026-01-26 15:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12192文章數 142549關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      高市早苗:若執政黨陣營在選舉中未過半數 將即刻辭職

      頭條要聞

      高市早苗:若執政黨陣營在選舉中未過半數 將即刻辭職

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被實名舉報代孕、插足婚姻

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      親子
      家居
      游戲
      旅游
      公開課

      親子要聞

      你們聽,287天,9個多月的昂薩梅朵是開口喊爸爸媽媽嗎?

      家居要聞

      流韻雅居,讓復雜變純粹

      《輪回之獸》驚艷?GF談性能表現:心意比幀數更重要

      旅游要聞

      神駿踏春至,昆明過花年|花海、酒店、線路、活動……攻略全包!200+活動等你來!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一个人看的www日本高清视频| 18禁123| 久久国产精品免费看| 乱妇乱女熟妇熟女网站| 亚洲熟妇丰满xxxxx| AV在线资源| 亚洲精品熟女国产| 国产精品久久国产精麻豆99网站| 国产免费又黄又爽又色毛| 亚洲天堂av在线免费| 伊川县| 亚洲AV综合色区无码另类小说| 好深好湿好硬顶到了好爽| 97人人模人人爽人人少妇| 日本55丰满熟妇厨房伦| 少妇激情一区二区三区视频小说 | 狠狠综合久久久久综合网址| 色色无码| 国产成年码av片在线观看| 制服.丝袜.亚洲.中文.综合| 五月丁香伊人| 欧美丰满熟妇xxxx| 久久99国产精品久久99小说| 国产精品亚洲一区二区三区喷水| 最近免费中文字幕大全免费版视频| 九九伊人| 中文AV电影网| 衡水市| 久久久一本波多野结衣| 95国产精品| 亚洲色欲网| 无码人妻精品中文字幕免费时间| 精品无码成人片一区二区98| 久久涩综合| 人妻中出无码一区二区三区| 人妻妺妺窝人体色www聚色窝| 一 级做人爱全视频在线看| 小泽玛利亚三级片| 国产精品无码免费播放| a级免费视频| 欧美激情一区二区三区在线|