網易首頁 > 網易號 > 正文申請入駐

KAIST團隊首創多輪對話基準：揭示AI視覺理解的真實水平差距

2025-12-09 23:48:04　來源: 至頂AI實驗室

北京舉報

分享至

這項由韓國科學技術院（KAIST）的Young-Jun Lee、Byung-Kwan Lee等研究團隊聯合武漢大學、NAVER和卡內基梅隆大學的學者共同完成的研究，發表于2025年10月的arXiv預印本平臺，論文編號為arXiv:2510.16641v1。感興趣的讀者可以通過這個編號查詢完整論文內容。

當我們和朋友聊天時，往往需要經過多輪對話才能把一個問題講清楚。比如你拿著一張圖片問朋友"這是什么"，朋友回答后，你可能會繼續問"那它有什么用"、"為什么會這樣"等等。這種自然的多輪交流在人類溝通中司空見慣，但對于AI來說卻是一個巨大的挑戰。

目前市面上的AI視覺語言模型，比如GPT-4V、Claude等，在回答單個問題時表現相當出色。就像一個知識淵博的圖書管理員，你問它任何單個問題，它都能給出準確的答案。但是，當需要進行持續的多輪對話時，這些AI就開始"力不從心"了。這就好比那個圖書管理員雖然博學，但在連續的深入交流中卻容易"斷片"，無法很好地承接前面的話題。

研究團隊發現了一個令人意外的現象：即使是目前最強大的AI模型GPT-4o，在復雜的多輪對話中成功率也只有50%左右。這個發現就像發現了一位平時考試成績優異的學生，在面試這種需要連續交流的場合卻表現平平。為了深入研究這個問題，研究團隊創建了一個名為MULTIVERSE的全新測試基準，專門用來評估AI在多輪視覺對話中的真實表現。

一、創新的多輪對話測試基準

MULTIVERSE可以說是AI評測領域的一次重大突破。以往的AI測試就像傳統的標準化考試，每道題都是獨立的，AI答對了就得分，答錯了就扣分。但現實生活中的交流并非如此簡單，更像是一場持續的對話，需要AI能夠理解上下文，記住之前說過的話，并在此基礎上進行深入的交流。

這個測試基準包含了647個對話場景，每個對話平均包含4輪交流。研究團隊從12個知名的AI評測數據集中精心挑選了圖片，涵蓋了從自然風景到科學圖表，從數學公式到編程代碼等25個不同領域。這就像為AI準備了一場全方位的"生活化考試"，不僅要測試它的知識儲備，更要測試它在連續對話中的應變能力。

在構建這個測試基準時，研究團隊采用了一種獨特的"角色扮演"方法。他們為每個測試場景創造了一個虛擬角色，比如一個正在準備論文的研究生、一個需要分析數據的分析師，或者一個想要了解某個概念的學生。這些角色都有自己的背景故事和明確的目標，就像真實生活中的人一樣，帶著具體的需求來與AI對話。

這種設計的巧妙之處在于，它讓AI面對的不再是冷冰冰的問題，而是有血有肉的交流場景。比如，一個虛擬的數據科學家可能會先問AI如何理解一張數據圖表，然后追問這些數據意味著什么，接著可能會要求AI幫助優化分析方法，最后詢問如何將結果應用到實際項目中。這種層層遞進的對話模式更接近真實的工作和學習場景。

二、覆蓋全面的任務類型和交互目標

MULTIVERSE的另一個突出特點是它的全面性。研究團隊設計了8個主要任務類別，包括推理、數學、知識問答、視覺識別、科學技術、圖表分析、編程和創作等。這就像為AI準備了一場"十項全能"比賽，每個項目都測試不同的能力。

在推理任務中，AI需要像偵探一樣分析圖片中的線索，得出合理的結論。數學任務則要求AI不僅能識別公式和圖形，還要能進行計算和解釋。知識問答考驗的是AI的百科全書般的知識儲備，而視覺識別則測試AI的"眼力"。科學技術類任務需要AI具備專業的學科知識，圖表分析要求AI能夠讀懂各種復雜的數據可視化，編程任務測試AI的代碼理解和生成能力，創作任務則考驗AI的想象力和創新思維。

除了任務類型的多樣性，MULTIVERSE還設計了9種不同的交互目標。這些目標反映了人們在現實生活中與AI交流的真實需求。驗證目標就像請AI當一個"檢查員"，幫助確認某個信息是否正確。分析目標要求AI扮演"分析師"的角色，深入挖掘信息背后的含義。探索目標讓AI成為"導游"，引導用戶發現新的知識和見解。

優化目標需要AI充當"顧問"，提供改進建議。計算目標要求AI做"計算器"的工作，但不僅僅是計算，還要解釋計算過程和結果。理解目標讓AI成為"老師"，幫助用戶理解復雜概念。研究目標需要AI扮演"研究助手"，協助收集和整理信息。創作目標則要求AI發揮"藝術家"的創造力，生成新的內容。

三、獨特的檢查清單評估方法

傳統的AI評測就像老師給學生作文打分，往往帶有一定的主觀性。研究團隊為了讓評測更加客觀和精確，開發了一種創新的"檢查清單"評估方法。這種方法就像醫生診斷病人時使用的癥狀檢查表，每個項目都有明確的判斷標準。

這個檢查清單包含了37個關鍵評估維度，涵蓋了AI回答的各個方面。感知準確性就像測試AI的"視力"，看它能否正確理解圖片內容。語言清晰度評估AI表達的流暢程度，就像評判一個演講者的口才。事實正確性則檢查AI提供信息的準確性，如同驗證新聞報道的真實性。

邏輯推理能力測試AI的思維過程是否合理，創造性評估AI能否提供新穎的見解，實用性檢驗AI的回答是否對用戶有實際幫助。這種多維度的評估方式確保了對AI能力的全面了解，不會因為某一方面的突出表現而掩蓋其他方面的不足。

為了進一步提高評估的客觀性，研究團隊使用GPT-4o作為自動評估器。這就像請一位經驗豐富的老師來閱卷，既保證了評估的一致性，又提高了效率。每個檢查清單項目都被設計成可以用"是"或"否"來回答的問題，這樣就避免了模糊的評判標準。

評估過程包括兩個主要指標：檢查清單完成率和質量評估。檢查清單完成率衡量AI回答滿足了多少個評估要求，就像統計學生答對了多少道題。質量評估則給出一個1到10的整體評分，類似于綜合素質評價。研究團隊發現這兩個指標之間存在很強的正相關關系，說明這種評估方法的可靠性很高。

四、令人意外的測試結果

當研究團隊用MULTIVERSE對18個主流AI模型進行測試時，結果令人震驚。即使是被認為最強大的GPT-4o，在多輪對話中的平均成功率也只有49.63%，還不到50%。這就像發現了一位平時考試總是滿分的尖子生，在口試中卻只能得到不及格的分數。

其他模型的表現更是參差不齊。一些開源模型如LLaVA系列的表現相對較弱，成功率在20%到30%之間。這種巨大的性能差距表明，目前的AI在多輪對話方面還有很大的改進空間。這個發現就像發現了AI能力的一個重要"盲區"，提醒我們不能僅憑單輪測試的優異表現就認為AI已經達到了人類水平。

研究團隊還發現了一個有趣的現象：隨著對話輪次的增加，大部分AI模型的表現會逐漸改善。這就像人們在交流中逐漸找到節奏，越聊越投機。但是，也有一些模型出現了相反的趨勢，隨著對話的深入，表現反而下降了。這說明不同的AI模型在處理上下文信息方面采用了不同的策略，有些策略更適合長期對話，有些則在短對話中表現更佳。

特別值得注意的是，當給AI提供完整的對話歷史記錄時，它們的表現會顯著提升。這就像給學生開卷考試一樣，有了參考資料，答題質量明顯改善。這個發現揭示了一個重要問題：AI在多輪對話中的困難很大程度上來自于對話歷史信息的管理和利用。

五、不同任務和交互類型的表現差異

深入分析測試結果，研究團隊發現AI在不同類型的任務中表現差異巨大。在分析和理解類任務中，大部分AI都表現得相對較好，就像它們更擅長做"分析師"的工作。但在需要創新思維的優化和研究類任務中，AI的表現就相對較弱，這反映了當前AI在創造性思維方面的局限性。

有趣的是，AI在數學和編程相關的任務中表現也不盡如人意，盡管這些任務看起來更適合計算機處理。這說明多輪對話中的數學和編程問題比單純的計算更復雜，需要AI具備更好的上下文理解和邏輯推理能力。

在不同的交互目標方面，AI在驗證類任務中表現相對較好，這類似于讓AI做"對錯判斷題"。但在需要深入探索和創新的任務中，AI的表現就不那么令人滿意了。這反映了當前AI更適合處理有明確答案的問題，而在開放性和創造性問題方面還有待提高。

研究團隊還發現，模型規模的增大確實會帶來性能的提升，但這種提升并不是線性的。有時候，更大的模型在某些特定任務上的表現反而不如較小的模型，這說明模型的設計和訓練策略可能比純粹的規模擴大更重要。

六、揭示AI對話能力的真實挑戰

通過MULTIVERSE的測試，研究團隊揭示了AI在多輪對話中面臨的幾個核心挑戰。首先是上下文記憶的問題。在長對話中，AI需要記住之前討論的內容，并在后續回答中正確引用這些信息。這就像人在聊天時需要記住之前說過的話，避免自相矛盾或重復。

其次是邏輯一致性的維護。在多輪對話中，AI的每個回答都應該與之前的回答保持邏輯上的一致性，不能出現前后矛盾的情況。這要求AI不僅要理解當前的問題，還要理解整個對話的邏輯脈絡。

第三個挑戰是深度推理能力。隨著對話的深入，問題往往會變得越來越復雜和具體。AI需要具備足夠的推理能力來處理這些層層遞進的問題，而不是簡單地重復之前的回答或提供表面化的信息。

研究還發現，AI在處理包含視覺信息的多輪對話時面臨額外的挑戰。它們需要在理解圖片內容的基礎上，還要能夠根據對話的發展不斷深入挖掘圖片中的信息。這就像要求一個人不僅要看懂一張照片，還要能夠根據不同的問題角度來重新審視和分析這張照片。

七、對AI發展的重要啟示

MULTIVERSE的研究結果為AI的未來發展提供了重要的方向指引。首先，它明確指出了當前AI評測體系的不足。傳統的單輪測試就像只看學生的期末考試成績，而忽略了平時的課堂表現和互動能力。MULTIVERSE提醒我們，評估AI的真實能力需要更加全面和現實的測試方法。

其次，這項研究強調了對話歷史管理的重要性。當AI能夠有效利用完整的對話歷史時，它們的表現會顯著提升。這說明未來的AI系統需要更好的記憶機制和上下文管理能力，就像人類在交流中能夠自然地記住和引用之前的對話內容。

研究還揭示了不同AI模型在多輪對話方面的優勢和劣勢。一些模型在某些特定類型的任務中表現突出，而在其他任務中則相對較弱。這提示我們，可能需要針對不同的應用場景開發專門的AI模型，而不是追求一個"萬能"的通用模型。

此外，MULTIVERSE的檢查清單評估方法為AI評測提供了新的思路。這種方法不僅更加客觀和系統，還能夠提供詳細的診斷信息，幫助開發者了解AI在哪些方面需要改進。就像醫生的體檢報告能夠指出身體各個部分的健康狀況一樣，這種評估方法能夠全面診斷AI的各項能力。

說到底，MULTIVERSE的研究就像給AI界敲響了一記警鐘。它告訴我們，盡管當前的AI在許多單一任務上已經表現得相當出色，但在更接近真實交流的多輪對話場景中，它們還有很長的路要走。這并不是說AI技術不夠先進，而是提醒我們需要用更全面、更現實的標準來評估和改進AI系統。

這項研究的價值不僅在于發現了問題，更在于為解決問題指明了方向。通過提供一個標準化的多輪對話測試基準，MULTIVERSE為AI研究者提供了一個共同的"練習場"，讓大家能夠在同樣的條件下比較和改進自己的模型。

對于普通用戶來說，這項研究的意義在于幫助我們更好地理解AI的真實能力邊界。當我們與AI助手交流時，了解它們在多輪對話中可能遇到的困難，可以幫助我們更有效地利用這些工具。同時，這也提醒我們，在依賴AI做出重要決策時，需要保持適當的謹慎和人工監督。

展望未來，MULTIVERSE的研究成果將推動AI技術朝著更加智能和自然的方向發展。隨著研究者們不斷改進AI的多輪對話能力，我們有理由期待未來的AI助手能夠進行更加深入、連貫和有意義的交流，真正成為人類工作和生活中的得力伙伴。

Q&A

Q1：MULTIVERSE多輪對話基準測試是什么？

A：MULTIVERSE是由KAIST等機構開發的AI評測系統，專門測試AI在連續對話中的表現。它包含647個對話場景，涵蓋數學、編程、圖表分析等多個領域，每個對話平均4輪交流，更接近真實的人機交互場景。

Q2：為什么GPT-4o這樣的頂級AI在多輪對話中表現不佳？

A：即使是GPT-4o在MULTIVERSE測試中成功率也只有50%左右。主要原因是多輪對話需要AI記住之前的對話內容、保持邏輯一致性，并能隨著對話深入進行復雜推理，這比回答單個問題困難得多。

Q3：MULTIVERSE的檢查清單評估方法有什么優勢？

A：這種方法包含37個評估維度，用"是否"問題進行客觀判斷，避免了傳統評分的主觀性。它就像醫生的診斷清單，能詳細分析AI在感知準確性、邏輯推理、創造性等各方面的具體表現，為改進AI提供精確指導。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.