![]()
針對端到端全模態大模型(OmniLLMs)在跨模態對齊和細粒度理解上的痛點,浙江大學、西湖大學、螞蟻集團聯合提出 OmniAgent。這是一種基于「音頻引導」的主動感知 Agent,通過「思考 - 行動 - 觀察 - 反思」閉環,實現了從被動響應到主動探詢的范式轉變。
在 Daily-Omni 等多個基準測試中,其準確率超越 Gemini 2.5-Flash 和 Qwen3-Omni 等開閉源模型。
![]()
- 論文地址:https://arxiv.org/pdf/2512.23646
- 論文主頁:https://kd-tao.github.io/OmniAgent
- 發起實驗室ENCODE LAB:https://westlake-encode-lab.github.io/
![]()
背景與痛點
![]()
- 端到端全模態模型雖然實現了視聽統一,但往往受限于高昂的訓練成本和困難的跨模態特征對齊,導致在細粒度跨模態理解上表現不佳;
- 基于固定 Workflow 的智能體依賴人為設定僵化的流程,缺乏細粒度和靈活性,無法根據問題自主的進行規劃與信息獲取;
- Caption-based 視頻智能體需要在分析問題之前,先針對整個視頻構建幀 caption 數據庫,隨后基于視頻字幕數據庫來理解內容,但這種方法計算成本高,難以捕捉細節的跨模態信息。
相比之下,OmniAgent 引入了一種全新的主動感知推理范式。通過在迭代反思循環中策略性地調度視頻與音頻理解能力,該方法有效攻克了跨模態對齊的難題,從而實現了對視聽內容的細粒度理解。
方法論
![]()
OmniAgent 摒棄了固定的工作流,采用了「思考 - 行動 - 觀察 - 反思」閉環機制 。
1.思考:OmniAgent 會根據問題進行分析,自主決定「聽」還是「看」。
2.行動:根據計劃,OmniAgent 會從構建的多模態工具中選取合適的工具進行調用:
- 事件工具:利用音頻能夠高效捕捉全局上下文的特性,首創音頻引導事件定位,快速鎖定關鍵時間窗口,避免對長視頻進行無效的視覺掃描 。
- 視頻工具:包含粗粒度的全局視頻問答,以及在特定時間內基于更高幀率進行分析的片段問答工具。
- 音頻工具:涵蓋音頻全局描述、細粒度問答,以及支持精確時間戳的語音轉錄 (ASR)。
3.觀察與反思機制:智能體接受工具結果,評估目前已有的證據能否正確的回答問題,并且結合之前在多步推理中進行跨模態一致性檢查,確保視聽證據互證,解決幻覺與對齊問題。
效果如何?
OmniAgent 在三個主流視聽理解基準測試中均取得了 SOTA 成績,顯著優于現有的開源及閉源模型:
1.Daily-Omni Benchmark:準確率達到 82.71%,超越 Gemini 2.5-Flash (72.7%) 和 Qwen3-Omni-30B (72.08%),提升幅度超 10% 。
![]()
2.OmniVideoBench:在長視頻理解任務中,準確率達 59.1%,大幅領先 Qwen3-Omni-30B (38.4%) 。
![]()
3.WorldSense:OmniAgent 也保持了領先的準確度。
![]()
未來愿景
- OmniAgent 的設計理念有很高的擴展性,能夠繼續結合其他模態的工具;
- OmniAgent 能夠幫助生成高質量的 COTT 數據,用來構建可以自我調用工具的下一代智能體全模態模型。
總的來看,OmniAgent 證明了在全模態理解任務中,音頻引導的的主動感知策略是解決跨模態對齊困難、提升細粒度推理能力的有效路徑。該工作為未來的全模態 Agent 算法設計提供了新的范式參考。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.