網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

第一次，多模態(tài)大模型學(xué)會邊看邊聽，Meta新作性能暴漲113%

2026-02-28 13:34:19　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】Meta聯(lián)合多所高校發(fā)布首個可規(guī)模化自動生成第一視角音視頻理解數(shù)據(jù)的引擎EgoAVU ，讓多模態(tài)大模型首次真正「聽懂世界」。

現(xiàn)在最強的多模態(tài)大模型，雖然能接收聲音和視頻輸入，但無法做到真正的「同時理解」。

在第一視角視頻任務(wù)中，模型經(jīng)常會出現(xiàn)各種問題，比如完全忽略音頻信息、錯誤判斷聲源位置、用視覺線索「猜聲音」，也就是說，現(xiàn)在的多模態(tài)大模型只會看，但不會聽。

而這正是當(dāng)前具身智能的一大瓶頸。

Meta研究團(tuán)隊發(fā)現(xiàn)：最大瓶頸在數(shù)據(jù)，而非模型。

論文鏈接：https://arxiv.org/abs/2602.06139

代碼：https://github.com/facebookresearch/EgoAVU

數(shù)據(jù)：https://huggingface.co/datasets/facebook/EgoAVU_data

當(dāng)前主流數(shù)據(jù)集存在三個致命問題：視覺中心化嚴(yán)重、缺乏真實音頻語義、沒有跨模態(tài)關(guān)聯(lián)標(biāo)注，結(jié)果就是導(dǎo)致模型從來沒有真正學(xué)過如何理解聲音與視覺之間的關(guān)系。

為解決這一難題，Meta提出了首個自動化音視頻數(shù)據(jù)引擎EgoAVU，是一個全新思路，直接自動生成跨模態(tài)數(shù)據(jù)，論文已被CVPR2026接收

EgoAVU是一個完整的數(shù)據(jù)生產(chǎn)系統(tǒng)，可以自動理解視頻中的聲音-視覺關(guān)系、自動生成高質(zhì)量問答與敘述數(shù)據(jù)、自動篩選最具跨模態(tài)信息的視頻，最終形成可規(guī)模擴(kuò)展的數(shù)據(jù)流水線。

一次性生成百萬級訓(xùn)練數(shù)據(jù)

基于EgoAVU，團(tuán)隊構(gòu)建了兩個重要資源：

EgoAVU-Instruct

300萬條訓(xùn)練樣本，覆蓋5大任務(wù)：

聲源關(guān)聯(lián)（Source–Sound Association, SSA）

問：視頻里聽到的某個聲音（比如滋滋聲）來自哪里/什么物體？

音視頻片段敘述（Audio–Visual Segment Narration, AVSN）

問：在某個時間段（如 240–250 秒），描述周圍環(huán)境、人物動作，以及能聽到的聲音。

音視頻密集敘述（Audio–Visual Dense Narration, AVDN）

問：對整個視頻進(jìn)行更全面、更細(xì)節(jié)的「看到了什么/聽到了什么/做了什么」的密集描述。

時序推理（Temporal Reasoning, TR）

問：某個動作之前/之后發(fā)生了什么，通常是多選或從候選項中選擇。

音視頻幻覺檢測（Audio–Visual Hallucination, AVH）

問：視頻里是否真的存在某個聲音/事件（例如「微波爐有沒有嗶嗶聲」），用于檢測模型是否「編造」。

EgoAVU-Bench

首個專門評測音視頻理解能力的基準(zhǔn)，包含3000條人工驗證問題。

性能提升有多夸張？

實驗結(jié)果顯示，在新數(shù)據(jù)上微調(diào)后，Benchmark性能最高提升113%、其他任務(wù)最高提升28%

研究進(jìn)一步揭示：當(dāng)前多模態(tài)模型普遍存在嚴(yán)重視覺偏置。

EgoAVU帶來的最大啟示是：未來AI競爭的關(guān)鍵，可能不是「模型結(jié)構(gòu)」，而是「數(shù)據(jù)引擎能力」。

這標(biāo)志著多模態(tài)AI正在從「模型驅(qū)動」邁向新的技術(shù)范式「數(shù)據(jù)驅(qū)動」。

第一視角音視頻理解是機(jī)器人感知、自動駕駛、AR/VR、可穿戴AI的核心基礎(chǔ)能力。

EgoAVU為這些領(lǐng)域提供了關(guān)鍵突破，讓多模態(tài)大模型第一次真正學(xué)會「聽懂第一視角世界」。

論文一作Meta的實習(xí)研究員來自馬里蘭大學(xué)的博士生Ashish Seth，指導(dǎo)老師蔡志鵬是Meta的高級研究員，主要研究方向是優(yōu)化、感知和多模態(tài)生成等通用計算機(jī)視覺/機(jī)器學(xué)習(xí)問題，論文曾評為ECCV18年12篇最佳論文之一，獲得英特爾實驗室2024年最佳學(xué)者獎。

參考資料：

https://arxiv.org/abs/2602.06139

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.