<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<wbr id="l0fwe"></wbr>

<pre id="l0fwe"><big id="l0fwe"></big></pre>

<ol id="l0fwe"></ol><rt id="l0fwe"><menu id="l0fwe"></menu></rt>

<pre id="l0fwe"><sup id="l0fwe"><bdo id="l0fwe"></bdo></sup></pre>

<rt id="l0fwe"></rt>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

「聽覺」引導「視覺」，OmniAgent開啟全模態主動感知新范式

2026-01-08 17:51:14　來源: 機器之心Pro

河北舉報

0

分享至

針對端到端全模態大模型（OmniLLMs）在跨模態對齊和細粒度理解上的痛點，浙江大學、西湖大學、螞蟻集團聯合提出 OmniAgent。這是一種基于「音頻引導」的主動感知 Agent，通過「思考 - 行動 - 觀察 - 反思」閉環，實現了從被動響應到主動探詢的范式轉變。

在 Daily-Omni 等多個基準測試中，其準確率超越 Gemini 2.5-Flash 和 Qwen3-Omni 等開閉源模型。

論文地址：https://arxiv.org/pdf/2512.23646
論文主頁：https://kd-tao.github.io/OmniAgent
發起實驗室ENCODE LAB：https://westlake-encode-lab.github.io/

背景與痛點

端到端全模態模型雖然實現了視聽統一，但往往受限于高昂的訓練成本和困難的跨模態特征對齊，導致在細粒度跨模態理解上表現不佳；
基于固定 Workflow 的智能體依賴人為設定僵化的流程，缺乏細粒度和靈活性，無法根據問題自主的進行規劃與信息獲取；
Caption-based 視頻智能體需要在分析問題之前，先針對整個視頻構建幀 caption 數據庫，隨后基于視頻字幕數據庫來理解內容，但這種方法計算成本高，難以捕捉細節的跨模態信息。

相比之下，OmniAgent 引入了一種全新的主動感知推理范式。通過在迭代反思循環中策略性地調度視頻與音頻理解能力，該方法有效攻克了跨模態對齊的難題，從而實現了對視聽內容的細粒度理解。

方法論

OmniAgent 摒棄了固定的工作流，采用了「思考 - 行動 - 觀察 - 反思」閉環機制。

1.思考：OmniAgent 會根據問題進行分析，自主決定「聽」還是「看」。

2.行動：根據計劃，OmniAgent 會從構建的多模態工具中選取合適的工具進行調用：

事件工具：利用音頻能夠高效捕捉全局上下文的特性，首創音頻引導事件定位，快速鎖定關鍵時間窗口，避免對長視頻進行無效的視覺掃描。
視頻工具：包含粗粒度的全局視頻問答，以及在特定時間內基于更高幀率進行分析的片段問答工具。
音頻工具：涵蓋音頻全局描述、細粒度問答，以及支持精確時間戳的語音轉錄（ASR）。

3.觀察與反思機制：智能體接受工具結果，評估目前已有的證據能否正確的回答問題，并且結合之前在多步推理中進行跨模態一致性檢查，確保視聽證據互證，解決幻覺與對齊問題。

效果如何？

OmniAgent 在三個主流視聽理解基準測試中均取得了 SOTA 成績，顯著優于現有的開源及閉源模型：

1.Daily-Omni Benchmark：準確率達到 82.71%，超越 Gemini 2.5-Flash (72.7%) 和 Qwen3-Omni-30B (72.08%)，提升幅度超 10% 。

2.OmniVideoBench：在長視頻理解任務中，準確率達 59.1%，大幅領先 Qwen3-Omni-30B (38.4%) 。

3.WorldSense:OmniAgent 也保持了領先的準確度。

未來愿景

OmniAgent 的設計理念有很高的擴展性，能夠繼續結合其他模態的工具；
OmniAgent 能夠幫助生成高質量的 COTT 數據，用來構建可以自我調用工具的下一代智能體全模態模型。

總的來看，OmniAgent 證明了在全模態理解任務中，音頻引導的的主動感知策略是解決跨模態對齊困難、提升細粒度推理能力的有效路徑。該工作為未來的全模態 Agent 算法設計提供了新的范式參考。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中國AI調用量超美國 4款大模型霸榜前5

每日經濟新聞 2026-02-26 19:33:22
68 跟貼 68
Agent競爭推演：誰會贏，誰會死？

虎嗅APP 2026-02-26 22:39:10
0 跟貼 0

Anthropic收購Vercept 補齊智能體視覺短板為Claude裝上“眼睛”

財聯社 2026-02-26 16:42:24
0 跟貼 0

華為重磅發布！代碼“神器”來了！

每日經濟新聞 2026-02-26 20:25:06
4 跟貼 4
華為祭出AI編程利器，集成智譜、DeepSeek，同任務Tokens暴降30%

智東西 2026-02-26 17:53:23
71 跟貼 71

超越IMO金牌？谷歌創超難FirstProof數學挑戰新紀錄

機器之心Pro 2026-02-26 15:04:12
0 跟貼 0

釘釘發布DeepResearch多智能體框架，已在真實企業部署

機器之心Pro 2025-11-12 13:06:22
2 跟貼 2
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0

大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
最懂AI風險的人，被AI收拾了.... Meta的AI總監郵箱被AI清空，最后只能拔網線

英國那些事兒 2026-02-26 23:25:53
0 跟貼 0
機器人租賃熱度升溫日租價降至千元

澎湃新聞 2026-02-26 20:36:27
66 跟貼 66
ICLR 2026 | LightMem：把大模型「長期記憶」的成本打下來

機器之心Pro 2026-02-26 14:47:50
0 跟貼 0
施工現場磚塊運輸過程，看著有點像模型，竟還有點好玩！

幽默小火山 2026-02-25 11:39:53
1 跟貼 1
中國駐符拉迪沃斯托克總領館：18-65歲在俄長期居留男性須同意在俄軍事單位等至少服役1年

閃電新聞 2026-02-26 12:56:09
49531 跟貼 49531
OpenClaw能開箱即用了！附一手體驗

智東西 2026-02-26 17:53:23
2 跟貼 2
差點就形成了完美閉環

紅黑影視 2026-02-24 17:30:15
0 跟貼 0
英偉達財報創紀錄，老黃定調智能體拐點：算力就是印鈔機

新智元 2026-02-26 19:27:59
1 跟貼 1
天壇50臺宇樹機器人表演，郭正亮贊其迭代神速！

許里xurry 2026-02-26 10:28:12
0 跟貼 0
別以為這是畫畫，其實你每天都在看

安安海外視頻精選 2026-02-25 22:09:00
0 跟貼 0
谷歌Nano Banana 2亮相：專業能力全面下放成本腰斬一半

財聯社 2026-02-27 01:57:16
0 跟貼 0
Back To London——讓靈感自在蘇醒

風度mensuno 2026-02-26 18:39:16
0 跟貼 0
“別吱聲，我跟趙車長打好招呼了”，K692次列車被指安排“人情座”，女子在擁擠車廂內打電話請人安排座位，鐵路部門：目前正在調查

揚子晚報 2026-02-26 11:28:40
9569 跟貼 9569
《探索無限：大模型訓練的“猴子定理”啟示》

聲動時刻 2026-02-25 12:05:16
1 跟貼 1
站在花雞坡上，就能俯瞰三峽大壩全景的最佳免費觀景臺網友：這視覺效果簡直了

營天下 2026-02-26 18:27:11
1 跟貼 1
默茨：中方要訂120架空客飛機這一趟來得值

澎湃新聞 2026-02-26 14:38:56
139 跟貼 139
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
智能體基礎設施是AI時代操作系統，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
重慶配眼鏡推薦，很多人繞了一大圈，最后還是走進了刺鳥眼鏡

影像渭南 2026-02-27 00:27:08
0 跟貼 0
全景視覺的Depth Anything來了！

機器之心Pro 2025-12-29 16:54:58
0 跟貼 0
仿真落地三難點：物理、視覺、交互

量子位 2025-12-12 04:34:09
0 跟貼 0
佛山順德一4A景區灰塑被人拿下，官方通報

南方都市報 2026-02-26 12:58:14
437 跟貼 437
OpenClaw之父加入OpenAI后亮相：被谷歌限制，AI讓我激動到睡不著

DeepTech深科技 2026-02-26 16:33:12
2 跟貼 2
朗科科技：朗科算力調度平臺目前暫未支持clawdbot在線一鍵部署

每日經濟新聞 2026-02-26 21:18:10
0 跟貼 0
拾石村媽祖原視頻，本地人配字幕，看都說啥

香香談談看 2026-02-24 14:07:00
943 跟貼 943
87比80客場戰勝日本，中國男籃世預賽上演半場逆轉好戲

澎湃新聞 2026-02-26 20:18:35
456 跟貼 456
常用的醫學公開數據庫如何寫出新意？

醫咖會 2026-01-06 19:53:10
0 跟貼 0
季琦，捐1億

極目新聞 2026-02-26 15:15:49
475 跟貼 475
盤點人類幼崽的頂級理解能力搞笑瞬間

動物科普君 2026-02-22 14:20:41
0 跟貼 0
向華強回應遺產問題：和向太達成一致都交給郭碧婷來管一分錢不留給兒子

閃電新聞 2026-02-26 11:56:07
2192 跟貼 2192

2月井噴！中國AI調用量首超美國，四款大模型霸榜全球前五，國產算力需求正經歷指數級增長

2月井噴！中國AI調用量首超美國，四款大模型霸榜全球前五，國產算力需求正經歷指數級增長

每日經濟新聞

2026-02-26 19:33:22

受權發布|全國人民代表大會常務委員會批準任免的名單

受權發布|全國人民代表大會常務委員會批準任免的名單

新華社

2026-02-26 21:25:21

游客被高空拋下污物濺身，重慶渝中區警方通報

游客被高空拋下污物濺身，重慶渝中區警方通報

澎湃新聞

2026-02-26 00:58:07

魅族天貓旗艦店所有手機都下架了：一個時代終結機圈再無小而美

魅族天貓旗艦店所有手機都下架了：一個時代終結機圈再無小而美

快科技

2026-02-27 00:05:06

太離譜！陜西女子花250元在飯店訂年夜飯，對方歇業初一把錢退了

太離譜！陜西女子花250元在飯店訂年夜飯，對方歇業初一把錢退了

火山詩話

2026-02-25 14:16:59

26日下午WTT大滿貫：8強誕生，日本松島被逆轉，王楚欽肩負重任！

26日下午WTT大滿貫：8強誕生，日本松島被逆轉，王楚欽肩負重任！

籃球看比賽

2026-02-26 15:59:05

大多數人窮極一生都沒搞懂，財富增值的核心從來不是多賺錢

大多數人窮極一生都沒搞懂，財富增值的核心從來不是多賺錢

流蘇晚晴

2026-01-31 17:36:23

機構看好電力板塊價值重估機遇，12只優質股股息率超3%！

機構看好電力板塊價值重估機遇，12只優質股股息率超3%！

數據寶

2026-02-26 19:04:21

澳大利亞驚現封閉亂倫家族：4代人近親繁衍38名成員全是亂倫產物

澳大利亞驚現封閉亂倫家族：4代人近親繁衍38名成員全是亂倫產物

第7情感

2026-02-23 20:45:16

1只就判刑! 湖南男子不聽家人勸阻, 在田埂放地籠抓多只凍冰柜里

1只就判刑! 湖南男子不聽家人勸阻, 在田埂放地籠抓多只凍冰柜里

萬象硬核本尊

2026-02-26 19:03:54

又一行業沒落！曾是世界第一，如今18家大國企，幾乎全軍覆沒

又一行業沒落！曾是世界第一，如今18家大國企，幾乎全軍覆沒

嘴角上翹

2026-02-26 23:55:28

《鏢人2》主角大換血，于適上位，啥時候拍？吳京終于說了大實話

《鏢人2》主角大換血，于適上位，啥時候拍？吳京終于說了大實話

未曾青梅

2026-02-25 23:05:17

納指直線跳水超400點，英偉達大跌5%，美股半導體重挫，百度跌近7%，黃金白銀下跌

納指直線跳水超400點，英偉達大跌5%，美股半導體重挫，百度跌近7%，黃金白銀下跌

21世紀經濟報道

2026-02-26 23:38:05

美債清零？游戲結束，中方不救美元了，特朗普決策錯誤，急求和談

美債清零？游戲結束，中方不救美元了，特朗普決策錯誤，急求和談

財經保探長

2026-02-25 16:46:08

“36斤活羊烤完剩6.9斤”，網友質疑店家約剔除5斤，有博主現場做實驗測重

“36斤活羊烤完剩6.9斤”，網友質疑店家約剔除5斤，有博主現場做實驗測重

大風新聞

2026-02-25 23:10:03

馬年開工第一天，80后運營商省分正職違紀落馬！曾是全省最年輕副廳！

馬年開工第一天，80后運營商省分正職違紀落馬！曾是全省最年輕副廳！

運營商段子手

2026-02-27 00:08:20

扛不住了？中方發出禁令后，日本要求解除制裁，高市早苗請求對話

扛不住了？中方發出禁令后，日本要求解除制裁，高市早苗請求對話

盛夏微涼

2026-02-27 02:14:39

趙繼偉：中場休息時郭導告訴我們勇敢地去出手、進攻

趙繼偉：中場休息時郭導告訴我們勇敢地去出手、進攻

懂球帝

2026-02-26 22:39:46

勝日本4將卻成槽點！張鎮麟一塌糊涂，2新人發懵，余嘉豪不在狀態

勝日本4將卻成槽點！張鎮麟一塌糊涂，2新人發懵，余嘉豪不在狀態

籃球資訊達人

2026-02-26 23:35:57

張雪峰：如果你不好好學習，一旦掉入社會底層，和一群沒有素質的人混在一起.....

張雪峰：如果你不好好學習，一旦掉入社會底層，和一群沒有素質的人混在一起.....

山東教育

2026-01-27 11:38:18

機器之心Pro

專業的人工智能媒體

12368文章數 142569關注度

往期回顧全部

科技要聞

單季營收681億凈利429億！英偉達再次炸裂

頭條要聞

美國政府對外交官下令：開始行動

頭條要聞

美國政府對外交官下令：開始行動

體育要聞

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強公開表態財產留給兒媳婦郭碧婷

財經要聞

中國AI調用量超美國 4款大模型霸榜前5

汽車要聞

40歲的吉利，不惑于內外

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

數碼

教育

游戲

手機

轉頭就暈的耳石癥，能開車上班嗎？

數碼要聞

傳魅族手機業務3月退出歷史舞臺車機業務獨立運營

教育要聞

今年春假，到底在清明前還是清明后？官方最新回復來了

穿不起內衣的啥子國王，是怎么從妮姬表情包之王變成底層邏輯的？

手機要聞

三星Galaxy S26系列正式發布：影像全面升級，搭載防窺屏幕

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<output id="iep8e"></output>

<wbr id="iep8e"><menu id="iep8e"><abbr id="iep8e"></abbr></menu></wbr>

<output id="iep8e"><tfoot id="iep8e"></tfoot></output>

<abbr id="iep8e"><tt id="iep8e"></tt></abbr>