<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      「聽覺」引導「視覺」,OmniAgent開啟全模態主動感知新范式

      0
      分享至



      針對端到端全模態大模型(OmniLLMs)在跨模態對齊和細粒度理解上的痛點,浙江大學、西湖大學、螞蟻集團聯合提出 OmniAgent。這是一種基于「音頻引導」的主動感知 Agent,通過「思考 - 行動 - 觀察 - 反思」閉環,實現了從被動響應到主動探詢的范式轉變。

      在 Daily-Omni 等多個基準測試中,其準確率超越 Gemini 2.5-Flash 和 Qwen3-Omni 等開閉源模型。



      • 論文地址:https://arxiv.org/pdf/2512.23646
      • 論文主頁:https://kd-tao.github.io/OmniAgent
      • 發起實驗室ENCODE LAB:https://westlake-encode-lab.github.io/



      背景與痛點



      1. 端到端全模態模型雖然實現了視聽統一,但往往受限于高昂的訓練成本和困難的跨模態特征對齊,導致在細粒度跨模態理解上表現不佳;
      2. 基于固定 Workflow 的智能體依賴人為設定僵化的流程,缺乏細粒度和靈活性,無法根據問題自主的進行規劃與信息獲取;
      3. Caption-based 視頻智能體需要在分析問題之前,先針對整個視頻構建幀 caption 數據庫,隨后基于視頻字幕數據庫來理解內容,但這種方法計算成本高,難以捕捉細節的跨模態信息。

      相比之下,OmniAgent 引入了一種全新的主動感知推理范式。通過在迭代反思循環中策略性地調度視頻與音頻理解能力,該方法有效攻克了跨模態對齊的難題,從而實現了對視聽內容的細粒度理解。

      方法論



      OmniAgent 摒棄了固定的工作流,采用了「思考 - 行動 - 觀察 - 反思」閉環機制 。

      1.思考:OmniAgent 會根據問題進行分析,自主決定「聽」還是「看」。

      2.行動:根據計劃,OmniAgent 會從構建的多模態工具中選取合適的工具進行調用:

      1. 事件工具:利用音頻能夠高效捕捉全局上下文的特性,首創音頻引導事件定位,快速鎖定關鍵時間窗口,避免對長視頻進行無效的視覺掃描 。
      2. 視頻工具:包含粗粒度的全局視頻問答,以及在特定時間內基于更高幀率進行分析的片段問答工具。
      3. 音頻工具:涵蓋音頻全局描述、細粒度問答,以及支持精確時間戳的語音轉錄 (ASR)。

      3.觀察與反思機制:智能體接受工具結果,評估目前已有的證據能否正確的回答問題,并且結合之前在多步推理中進行跨模態一致性檢查,確保視聽證據互證,解決幻覺與對齊問題。

      效果如何?

      OmniAgent 在三個主流視聽理解基準測試中均取得了 SOTA 成績,顯著優于現有的開源及閉源模型:

      1.Daily-Omni Benchmark:準確率達到 82.71%,超越 Gemini 2.5-Flash (72.7%) 和 Qwen3-Omni-30B (72.08%),提升幅度超 10% 。



      2.OmniVideoBench:在長視頻理解任務中,準確率達 59.1%,大幅領先 Qwen3-Omni-30B (38.4%) 。



      3.WorldSense:OmniAgent 也保持了領先的準確度。



      未來愿景

      1. OmniAgent 的設計理念有很高的擴展性,能夠繼續結合其他模態的工具;
      2. OmniAgent 能夠幫助生成高質量的 COTT 數據,用來構建可以自我調用工具的下一代智能體全模態模型。

      總的來看,OmniAgent 證明了在全模態理解任務中,音頻引導的的主動感知策略是解決跨模態對齊困難、提升細粒度推理能力的有效路徑。該工作為未來的全模態 Agent 算法設計提供了新的范式參考。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2月井噴!中國AI調用量首超美國,四款大模型霸榜全球前五,國產算力需求正經歷指數級增長

      2月井噴!中國AI調用量首超美國,四款大模型霸榜全球前五,國產算力需求正經歷指數級增長

      每日經濟新聞
      2026-02-26 19:33:22
      受權發布|全國人民代表大會常務委員會批準任免的名單

      受權發布|全國人民代表大會常務委員會批準任免的名單

      新華社
      2026-02-26 21:25:21
      游客被高空拋下污物濺身,重慶渝中區警方通報

      游客被高空拋下污物濺身,重慶渝中區警方通報

      澎湃新聞
      2026-02-26 00:58:07
      魅族天貓旗艦店所有手機都下架了:一個時代終結 機圈再無小而美

      魅族天貓旗艦店所有手機都下架了:一個時代終結 機圈再無小而美

      快科技
      2026-02-27 00:05:06
      太離譜!陜西女子花250元在飯店訂年夜飯,對方歇業初一把錢退了

      太離譜!陜西女子花250元在飯店訂年夜飯,對方歇業初一把錢退了

      火山詩話
      2026-02-25 14:16:59
      26日下午WTT大滿貫:8強誕生,日本松島被逆轉,王楚欽肩負重任!

      26日下午WTT大滿貫:8強誕生,日本松島被逆轉,王楚欽肩負重任!

      籃球看比賽
      2026-02-26 15:59:05
      大多數人窮極一生都沒搞懂,財富增值的核心從來不是多賺錢

      大多數人窮極一生都沒搞懂,財富增值的核心從來不是多賺錢

      流蘇晚晴
      2026-01-31 17:36:23
      機構看好電力板塊價值重估機遇,12只優質股股息率超3%!

      機構看好電力板塊價值重估機遇,12只優質股股息率超3%!

      數據寶
      2026-02-26 19:04:21
      澳大利亞驚現封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產物

      澳大利亞驚現封閉亂倫家族:4代人近親繁衍38名成員全是亂倫產物

      第7情感
      2026-02-23 20:45:16
      1只就判刑! 湖南男子不聽家人勸阻, 在田埂放地籠抓多只凍冰柜里

      1只就判刑! 湖南男子不聽家人勸阻, 在田埂放地籠抓多只凍冰柜里

      萬象硬核本尊
      2026-02-26 19:03:54
      又一行業沒落!曾是世界第一,如今18家大國企,幾乎全軍覆沒

      又一行業沒落!曾是世界第一,如今18家大國企,幾乎全軍覆沒

      嘴角上翹
      2026-02-26 23:55:28
      《鏢人2》主角大換血,于適上位,啥時候拍?吳京終于說了大實話

      《鏢人2》主角大換血,于適上位,啥時候拍?吳京終于說了大實話

      未曾青梅
      2026-02-25 23:05:17
      納指直線跳水超400點,英偉達大跌5%,美股半導體重挫,百度跌近7%,黃金白銀下跌

      納指直線跳水超400點,英偉達大跌5%,美股半導體重挫,百度跌近7%,黃金白銀下跌

      21世紀經濟報道
      2026-02-26 23:38:05
      美債清零?游戲結束,中方不救美元了,特朗普決策錯誤,急求和談

      美債清零?游戲結束,中方不救美元了,特朗普決策錯誤,急求和談

      財經保探長
      2026-02-25 16:46:08
      “36斤活羊烤完剩6.9斤”,網友質疑店家約剔除5斤,有博主現場做實驗測重

      “36斤活羊烤完剩6.9斤”,網友質疑店家約剔除5斤,有博主現場做實驗測重

      大風新聞
      2026-02-25 23:10:03
      馬年開工第一天,80后運營商省分正職違紀落馬!曾是全省最年輕副廳!

      馬年開工第一天,80后運營商省分正職違紀落馬!曾是全省最年輕副廳!

      運營商段子手
      2026-02-27 00:08:20
      扛不住了?中方發出禁令后,日本要求解除制裁,高市早苗請求對話

      扛不住了?中方發出禁令后,日本要求解除制裁,高市早苗請求對話

      盛夏微涼
      2026-02-27 02:14:39
      趙繼偉:中場休息時郭導告訴我們勇敢地去出手、進攻

      趙繼偉:中場休息時郭導告訴我們勇敢地去出手、進攻

      懂球帝
      2026-02-26 22:39:46
      勝日本4將卻成槽點!張鎮麟一塌糊涂,2新人發懵,余嘉豪不在狀態

      勝日本4將卻成槽點!張鎮麟一塌糊涂,2新人發懵,余嘉豪不在狀態

      籃球資訊達人
      2026-02-26 23:35:57
      張雪峰:如果你不好好學習,一旦掉入社會底層,和一群沒有素質的人混在一起.....

      張雪峰:如果你不好好學習,一旦掉入社會底層,和一群沒有素質的人混在一起.....

      山東教育
      2026-01-27 11:38:18
      2026-02-27 03:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12368文章數 142569關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      美國政府對外交官下令:開始行動

      頭條要聞

      美國政府對外交官下令:開始行動

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      向華強公開表態 財產留給兒媳婦郭碧婷

      財經要聞

      中國AI調用量超美國 4款大模型霸榜前5

      汽車要聞

      40歲的吉利,不惑于內外

      態度原創

      健康
      數碼
      教育
      游戲
      手機

      轉頭就暈的耳石癥,能開車上班嗎?

      數碼要聞

      傳魅族手機業務3月退出歷史舞臺 車機業務獨立運營

      教育要聞

      今年春假,到底在清明前還是清明后?官方最新回復來了

      穿不起內衣的啥子國王,是怎么從妮姬表情包之王變成底層邏輯的?

      手機要聞

      三星Galaxy S26系列正式發布:影像全面升級,搭載防窺屏幕

      無障礙瀏覽 進入關懷版