![]()
這項(xiàng)由波士頓大學(xué)的陳天樂、查克拉·查卡與谷歌DeepMind的阿俊·雷迪·阿庫拉等研究人員聯(lián)合完成的研究發(fā)表于2024年12月,論文編號(hào)為arXiv:2511.22826v2,為我們揭示了當(dāng)今多模態(tài)大語言模型(MLLMs)一個(gè)令人意外的"性格缺陷"。
當(dāng)我們和ChatGPT這樣的AI聊天時(shí),它們似乎能夠同時(shí)理解文字、圖片和聲音,就像一個(gè)全能的助手。但是,當(dāng)這些不同的信息相互矛盾時(shí),會(huì)發(fā)生什么呢?比如說,如果你給AI看一個(gè)狗的視頻,但配上鈴聲的音軌,然后問它聽到了什么聲音,它會(huì)如實(shí)告訴你聽到了鈴聲,還是會(huì)被視頻中的狗誤導(dǎo)而說聽到了狗叫聲?
波士頓大學(xué)的研究團(tuán)隊(duì)就像是給AI做了一次全面體檢,發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:這些看似全能的AI其實(shí)有著明顯的"偏科"傾向。當(dāng)面對(duì)沖突的多模態(tài)信息時(shí),它們總是優(yōu)先相信文字信息,其次是視覺信息,最后才是聽覺信息。這種現(xiàn)象就像一個(gè)人在嘈雜的餐廳里,總是更相信菜單上的文字描述,而不是眼前看到的菜品外觀或者聞到的香味。
為了深入研究這個(gè)問題,研究團(tuán)隊(duì)專門構(gòu)建了一個(gè)名為MMA-Bench的測試平臺(tái),就像是為AI設(shè)計(jì)的一套"視聽沖突測試題"。他們從音視頻數(shù)據(jù)庫AudioSet中精心篩選出658個(gè)高質(zhì)量的視頻片段,每個(gè)片段都包含了清晰可見的發(fā)聲物體和對(duì)應(yīng)的聲音。然后,他們巧妙地將這些視頻的音軌進(jìn)行交換,創(chuàng)造出視覺和聽覺信息完全沖突的場景。
這個(gè)過程就像是制作一部"錯(cuò)位"的電影:你在屏幕上看到的是教堂鐘樓的畫面,但耳朵聽到的卻是狗叫聲。對(duì)于人類來說,我們能夠清楚地區(qū)分"我看到了什么"和"我聽到了什么",但AI模型們卻在這樣的測試中暴露出了嚴(yán)重的弱點(diǎn)。
研究團(tuán)隊(duì)測試了多個(gè)當(dāng)今最先進(jìn)的AI模型,包括開源的Qwen2.5-Omni、VideoLLaMA2、PandaGPT,以及閉源的Gemini系列。結(jié)果令人驚訝:幾乎所有模型在面對(duì)模態(tài)沖突時(shí)都表現(xiàn)出了明顯的偏好模式。當(dāng)研究者詢問這些AI"你在視頻中看到了什么"時(shí),大多數(shù)模型還能勉強(qiáng)給出正確答案;但當(dāng)問及"你聽到了什么聲音"時(shí),許多模型的表現(xiàn)就急劇下降,準(zhǔn)確率從正常情況下的50-60%暴跌至10-25%。
更有趣的是,當(dāng)研究團(tuán)隊(duì)在問題前加入誤導(dǎo)性的文字描述時(shí),AI們的表現(xiàn)變得更加糟糕。即使面前的視頻清楚顯示著一只貓,音頻也明確傳來貓叫聲,只要在問題開頭寫上"視頻描述:這是一輛汽車",許多AI就會(huì)被這個(gè)錯(cuò)誤的文字信息徹底誤導(dǎo),開始胡言亂語。這種現(xiàn)象表明,當(dāng)前的AI模型嚴(yán)重依賴文字信息,就像一個(gè)過分相信教科書而忽視實(shí)際觀察的學(xué)生。
為了更深入地理解這種現(xiàn)象的內(nèi)在機(jī)制,研究團(tuán)隊(duì)采用了"白盒"分析方法,就像是給AI做了一次"大腦掃描"。他們發(fā)現(xiàn),在AI的內(nèi)部處理過程中,文字信息占據(jù)了絕對(duì)的主導(dǎo)地位,平均獲得了80%以上的注意力權(quán)重,而視頻和音頻信息只能分享剩下的不到20%。這就解釋了為什么AI們在面對(duì)文字干擾時(shí)如此脆弱——它們的"大腦"本質(zhì)上就是一個(gè)以文字為中心的處理器,其他模態(tài)的信息更像是可有可無的"配菜"。
面對(duì)這個(gè)問題,研究團(tuán)隊(duì)并沒有停留在診斷階段,而是提出了一套"治療方案"。他們開發(fā)了一種名為"模態(tài)對(duì)齊調(diào)優(yōu)"的訓(xùn)練方法,就像是給AI上了一門"多感官協(xié)調(diào)課"。在這個(gè)訓(xùn)練過程中,AI需要學(xué)習(xí)如何在面對(duì)沖突信息時(shí)正確地選擇應(yīng)該相信哪個(gè)模態(tài)。
這個(gè)訓(xùn)練過程非常巧妙。研究團(tuán)隊(duì)準(zhǔn)備了大量包含對(duì)齊和不對(duì)齊音視頻對(duì)的樣本,然后針對(duì)每個(gè)樣本提出兩個(gè)問題:一個(gè)關(guān)于視覺內(nèi)容,一個(gè)關(guān)于聽覺內(nèi)容。AI必須學(xué)會(huì)根據(jù)問題的類型來決定應(yīng)該重點(diǎn)關(guān)注哪種感官信息。這就像是訓(xùn)練一個(gè)人在不同情況下選擇性地使用不同的感官——在品酒時(shí)主要依靠嗅覺和味覺,在欣賞音樂時(shí)主要依靠聽覺,在看電影時(shí)主要依靠視覺。
經(jīng)過這種針對(duì)性訓(xùn)練后,AI模型的表現(xiàn)出現(xiàn)了顯著改善。以Qwen2.5-Omni模型為例,在處理沖突音視頻信息時(shí),視覺問題的準(zhǔn)確率從58.72%提升到94.37%,聽覺問題的準(zhǔn)確率更是從25.16%大幅躍升至79.79%。這種改進(jìn)不僅體現(xiàn)在訓(xùn)練過的場景中,在完全陌生的測試場景中也表現(xiàn)出了良好的泛化能力。
研究團(tuán)隊(duì)還發(fā)現(xiàn),經(jīng)過訓(xùn)練的AI模型在面對(duì)缺失模態(tài)信息時(shí)表現(xiàn)出了更加"誠實(shí)"的行為。當(dāng)給模型展示一個(gè)完全黑屏的視頻并詢問其中的視覺內(nèi)容時(shí),訓(xùn)練后的模型會(huì)更傾向于回答"無法確定"或"沒有看到相關(guān)內(nèi)容",而不是像訓(xùn)練前那樣根據(jù)音頻信息胡亂猜測視覺內(nèi)容。這種行為表明,模型學(xué)會(huì)了更好地區(qū)分不同模態(tài)的信息邊界,減少了跨模態(tài)的"幻覺"現(xiàn)象。
為了驗(yàn)證這種改進(jìn)的真實(shí)性和廣泛適用性,研究團(tuán)隊(duì)在完全獨(dú)立的測試集上評(píng)估了訓(xùn)練后的模型。他們使用了AVHBench這個(gè)專門用于檢測多模態(tài)幻覺的標(biāo)準(zhǔn)測試平臺(tái),結(jié)果顯示訓(xùn)練后的模型在檢測視頻驅(qū)動(dòng)的音頻幻覺和音頻驅(qū)動(dòng)的視頻幻覺方面都有明顯提升,準(zhǔn)確率分別提高了8.2%和4.7%。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)層面。在現(xiàn)實(shí)應(yīng)用中,多模態(tài)AI正在越來越多的場景中發(fā)揮作用,從智能醫(yī)療診斷到自動(dòng)駕駛汽車,從教育輔助工具到娛樂內(nèi)容生成。如果這些系統(tǒng)無法正確處理沖突的多模態(tài)信息,可能會(huì)導(dǎo)致嚴(yán)重的后果。比如,一個(gè)醫(yī)療AI如果過分依賴文字描述而忽視了實(shí)際的影像檢查結(jié)果,就可能做出錯(cuò)誤的診斷;一個(gè)自動(dòng)駕駛系統(tǒng)如果無法正確整合視覺和聽覺信息,就可能在復(fù)雜的交通環(huán)境中做出錯(cuò)誤的判斷。
此外,這項(xiàng)研究還揭示了當(dāng)前AI訓(xùn)練方法的一個(gè)根本性問題。大多數(shù)多模態(tài)AI模型都是在假設(shè)所有輸入信息完美一致的數(shù)據(jù)上訓(xùn)練的,這就像是讓學(xué)生只在理想的考試環(huán)境中練習(xí),卻從不接觸有干擾、有沖突的真實(shí)場景。這種訓(xùn)練方式雖然能讓AI在標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)異,但一旦面對(duì)現(xiàn)實(shí)世界的復(fù)雜情況就會(huì)暴露出嚴(yán)重的脆弱性。
研究團(tuán)隊(duì)的解決方案提供了一個(gè)新的思路:通過故意創(chuàng)造沖突場景來訓(xùn)練AI的"抗干擾"能力。這種方法類似于疫苗接種的原理,通過讓AI在安全的訓(xùn)練環(huán)境中接觸各種"病毒"(沖突信息),來增強(qiáng)它們在真實(shí)環(huán)境中的免疫力。
從技術(shù)角度來看,這項(xiàng)研究還揭示了transformer架構(gòu)在處理多模態(tài)信息時(shí)的一些內(nèi)在局限性。當(dāng)前的多模態(tài)transformer本質(zhì)上仍然是為文本處理而設(shè)計(jì)的,其他模態(tài)的信息往往被"強(qiáng)行"編碼成類似文本的表示形式。這種設(shè)計(jì)雖然簡化了模型的結(jié)構(gòu),但也導(dǎo)致了不同模態(tài)之間的不平等處理。研究團(tuán)隊(duì)的發(fā)現(xiàn)為未來設(shè)計(jì)更加平衡的多模態(tài)架構(gòu)提供了重要啟示。
值得注意的是,這項(xiàng)研究也有其局限性。當(dāng)前的測試主要集中在分類任務(wù)上,而實(shí)際應(yīng)用中的多模態(tài)理解往往涉及更復(fù)雜的推理和生成任務(wù)。此外,訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性也可能影響方法的泛化能力。研究團(tuán)隊(duì)在論文中誠實(shí)地承認(rèn)了這些限制,并提出了未來的研究方向。
另一個(gè)有趣的發(fā)現(xiàn)是關(guān)于AI模型大小與多模態(tài)處理能力的關(guān)系。研究顯示,即使是參數(shù)量達(dá)到30B的大型模型,在面對(duì)模態(tài)沖突時(shí)仍然表現(xiàn)出類似的偏見模式。這表明,簡單地增加模型規(guī)模并不能自動(dòng)解決多模態(tài)對(duì)齊問題,需要更加針對(duì)性的訓(xùn)練策略。
研究團(tuán)隊(duì)還探索了人工干預(yù)和推理引導(dǎo)對(duì)模型表現(xiàn)的影響。他們嘗試了讓AI進(jìn)行"思維鏈"推理,即要求模型在給出最終答案前先描述其思考過程。令人意外的是,這種方法不僅沒有改善模型的表現(xiàn),反而在某些情況下使情況變得更糟。這一發(fā)現(xiàn)挑戰(zhàn)了"更多推理總是更好"的常見假設(shè),表明在多模態(tài)理解中,直覺性的快速處理可能比復(fù)雜的推理過程更加有效。
從數(shù)據(jù)處理的角度,研究團(tuán)隊(duì)在構(gòu)建測試數(shù)據(jù)集時(shí)也展現(xiàn)了極高的嚴(yán)謹(jǐn)性。他們不僅使用了自動(dòng)化的篩選方法,還進(jìn)行了人工驗(yàn)證,確保每個(gè)測試樣本都具有清晰無歧義的視聽對(duì)應(yīng)關(guān)系。這個(gè)過程從最初的20,371個(gè)視頻樣本中篩選出658個(gè)高質(zhì)量樣本,雖然看起來數(shù)量不多,但每一個(gè)都經(jīng)過了嚴(yán)格的質(zhì)量控制。
在實(shí)際應(yīng)用層面,這項(xiàng)研究的成果已經(jīng)開始產(chǎn)生影響。一些AI公司開始在其多模態(tài)模型的訓(xùn)練過程中引入類似的對(duì)抗性樣本,以提高模型的魯棒性。雖然這種訓(xùn)練方法會(huì)增加一定的計(jì)算成本,但相比于模型在實(shí)際應(yīng)用中可能出現(xiàn)的錯(cuò)誤所帶來的損失,這種投入是完全值得的。
總的來說,這項(xiàng)研究就像是為多模態(tài)AI領(lǐng)域點(diǎn)亮了一盞明燈,不僅揭示了當(dāng)前技術(shù)的不足,還提供了切實(shí)可行的改進(jìn)方案。雖然完全解決多模態(tài)對(duì)齊問題仍然需要更多的研究和努力,但這項(xiàng)工作無疑為未來的發(fā)展指明了正確的方向。對(duì)于普通用戶而言,這意味著未來的AI助手將能更好地理解我們復(fù)雜多樣的輸入,減少誤解和錯(cuò)誤,提供更加可靠和智能的服務(wù)。
隨著技術(shù)的不斷進(jìn)步,我們有理由相信,未來的AI系統(tǒng)將能夠像人類一樣,靈活地整合來自不同感官的信息,在復(fù)雜多變的現(xiàn)實(shí)環(huán)境中做出正確的判斷。而這一切的實(shí)現(xiàn),都建立在像波士頓大學(xué)研究團(tuán)隊(duì)這樣的科學(xué)家們所做的基礎(chǔ)研究之上。他們的工作提醒我們,真正智能的AI不僅要在理想條件下表現(xiàn)優(yōu)秀,更要在充滿矛盾和不確定性的真實(shí)世界中保持可靠性。
Q&A
Q1:什么是多模態(tài)大語言模型的"偏科"問題?
A:多模態(tài)AI在處理文字、圖像、聲音時(shí)存在明顯偏好,優(yōu)先相信文字信息,其次是視覺,最后是聽覺。當(dāng)這些信息沖突時(shí),AI往往被文字誤導(dǎo)而忽視真實(shí)的視聽內(nèi)容,就像過分相信教科書而不相信親眼所見的學(xué)生。
Q2:MMA-Bench測試平臺(tái)是如何檢測AI模型缺陷的?
A:MMA-Bench通過交換視頻音軌創(chuàng)造視聽沖突場景,比如讓教堂鐘樓畫面配上狗叫聲,然后分別詢問AI看到什么和聽到什么。這種"錯(cuò)位"測試能有效暴露AI無法正確區(qū)分不同感官信息的問題。
Q3:模態(tài)對(duì)齊調(diào)優(yōu)訓(xùn)練方法效果如何?
A:經(jīng)過訓(xùn)練后,AI模型在處理沖突信息時(shí)準(zhǔn)確率顯著提升,聽覺問題準(zhǔn)確率從25%躍升至近80%。更重要的是,AI學(xué)會(huì)了在信息缺失時(shí)誠實(shí)回答"不知道",而不是胡亂猜測。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.