![]()
新智元報道
編輯:LRST
【新智元導(dǎo)讀】Meta聯(lián)合多所高校發(fā)布首個可規(guī)模化自動生成第一視角音視頻理解數(shù)據(jù)的引擎EgoAVU ,讓多模態(tài)大模型首次真正「聽懂世界」。
現(xiàn)在最強的多模態(tài)大模型,雖然能接收聲音和視頻輸入,但無法做到真正的「同時理解」。
在第一視角視頻任務(wù)中,模型經(jīng)常會出現(xiàn)各種問題,比如完全忽略音頻信息、錯誤判斷聲源位置、用視覺線索「猜聲音」,也就是說,現(xiàn)在的多模態(tài)大模型只會看,但不會聽。
而這正是當(dāng)前具身智能的一大瓶頸。
Meta研究團(tuán)隊發(fā)現(xiàn):最大瓶頸在數(shù)據(jù),而非模型。
![]()
論文鏈接:https://arxiv.org/abs/2602.06139
代碼:https://github.com/facebookresearch/EgoAVU
數(shù)據(jù):https://huggingface.co/datasets/facebook/EgoAVU_data
當(dāng)前主流數(shù)據(jù)集存在三個致命問題:視覺中心化嚴(yán)重、缺乏真實音頻語義、沒有跨模態(tài)關(guān)聯(lián)標(biāo)注,結(jié)果就是導(dǎo)致模型從來沒有真正學(xué)過如何理解聲音與視覺之間的關(guān)系。
為解決這一難題,Meta提出了首個自動化音視頻數(shù)據(jù)引擎EgoAVU,是一個全新思路,直接自動生成跨模態(tài)數(shù)據(jù),論文已被CVPR2026接收
![]()
![]()
EgoAVU是一個完整的數(shù)據(jù)生產(chǎn)系統(tǒng),可以自動理解視頻中的聲音-視覺關(guān)系、自動生成高質(zhì)量問答與敘述數(shù)據(jù)、自動篩選最具跨模態(tài)信息的視頻,最終形成可規(guī)模擴(kuò)展的數(shù)據(jù)流水線。
一次性生成百萬級訓(xùn)練數(shù)據(jù)
![]()
基于EgoAVU,團(tuán)隊構(gòu)建了兩個重要資源:
EgoAVU-Instruct
300萬條訓(xùn)練樣本,覆蓋5大任務(wù):
聲源關(guān)聯(lián)(Source–Sound Association, SSA)
問:視頻里聽到的某個聲音(比如滋滋聲)來自哪里/什么物體?
音視頻片段敘述(Audio–Visual Segment Narration, AVSN)
問:在某個時間段(如 240–250 秒),描述周圍環(huán)境、人物動作,以及能聽到的聲音。
音視頻密集敘述(Audio–Visual Dense Narration, AVDN)
問:對整個視頻進(jìn)行更全面、更細(xì)節(jié)的「看到了什么/聽到了什么/做了什么」的密集描述。
時序推理(Temporal Reasoning, TR)
問:某個動作之前/之后發(fā)生了什么,通常是多選或從候選項中選擇。
音視頻幻覺檢測(Audio–Visual Hallucination, AVH)
問:視頻里是否真的存在某個聲音/事件(例如「微波爐有沒有嗶嗶聲」),用于檢測模型是否「編造」。
EgoAVU-Bench
首個專門評測音視頻理解能力的基準(zhǔn),包含3000條人工驗證問題。
性能提升有多夸張?
![]()
實驗結(jié)果顯示,在新數(shù)據(jù)上微調(diào)后,Benchmark性能最高提升113%、其他任務(wù)最高提升28%
研究進(jìn)一步揭示:當(dāng)前多模態(tài)模型普遍存在嚴(yán)重視覺偏置。
EgoAVU帶來的最大啟示是:未來AI競爭的關(guān)鍵,可能不是「模型結(jié)構(gòu)」,而是「數(shù)據(jù)引擎能力」。
這標(biāo)志著多模態(tài)AI正在從「模型驅(qū)動」邁向新的技術(shù)范式「數(shù)據(jù)驅(qū)動」。
第一視角音視頻理解是機(jī)器人感知、自動駕駛、AR/VR、可穿戴AI的核心基礎(chǔ)能力。
EgoAVU為這些領(lǐng)域提供了關(guān)鍵突破,讓多模態(tài)大模型第一次真正學(xué)會「聽懂第一視角世界」。
![]()
論文一作Meta的實習(xí)研究員來自馬里蘭大學(xué)的博士生Ashish Seth,指導(dǎo)老師蔡志鵬是Meta的高級研究員,主要研究方向是優(yōu)化、感知和多模態(tài)生成等通用計算機(jī)視覺/機(jī)器學(xué)習(xí)問題,論文曾評為ECCV18年12篇最佳論文之一,獲得英特爾實驗室2024年最佳學(xué)者獎。
![]()
參考資料:
https://arxiv.org/abs/2602.06139
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.