![]()
新智元報道
編輯:LRST
【新智元導讀】文本領域的大模型滿分選手,換成語音就集體掛科?大模型引以為傲的多輪對話邏輯,在真實人聲面前竟然如此脆弱。Scale AI正式發布首個原生音頻多輪對話基準Audio MultiChallenge,直接撕開了大模型靠合成語音評測維持的優等生假象。實驗顯示,強如Gemini 3 Pro在真實場景下的通過率也僅過半數,而GPT-4o Audio的表現更是令人大跌眼鏡。
隨著實時語音大模型的普及,人們一度以為AI實時伴侶已經跨越了自然交互的最后一道門檻。
然而,大模型在語音對話中表現出的聰明,很大程度上源于評測手段的滯后。
此前,Scale AI推出的MultiChallenge基準憑借對指令保留、推理記憶和自我一致性的嚴苛考察,被公認為評估大模型邏輯長性的黃金標準。
但長久以來,該基準一直缺少一個真正的音頻原聲版本。
最近,Scale AI正式補齊了這塊拼圖,發布Audio MultiChallenge,不僅刷新了語音交互的新高度,更揭開了行業內一個公開的秘密:
由于缺乏原生音頻測試集,模型廠商在發布報告時,往往不得不利用T2S(Text-to-Speech)將文本基準轉換為語音進行評測。
![]()
論文鏈接:https://arxiv.org/pdf/2512.14865
這種做法雖然讓數據看起來很漂亮,卻在無形中給模型加了一層過度美化的濾鏡。
![]()
![]()
撕掉語音外殼
為什么TTS測不出真本事?
利用TTS轉換來進行評測,實際上是為模型營造了一個完美的無菌環境。
TTS 生成的語音平滑、規律且高度標準化,徹底過濾掉了人類語言中最重要的特質:日常說話時的各種吞吐、重復、瑣碎停頓以及臨時改口。
當你對AI說:我想定周一,哦不,是周三的票,等下……還是周二吧。
這種充滿了邏輯回溯和口語碎片的自然場景,是目前TTS技術極力避免但在現實生活中無處不在的。
過去,模型穿上了一層由合成語音搭建的語音外殼,本質上是在用文本思維處理潔凈信號。
而一旦脫離這個外殼,面對Audio MultiChallenge中47名真實說話者錄制的原始音頻,模型的邏輯鏈條便會迅速崩塌。
論文直言不諱地指出:模型在合成語音上的得分顯著高于真實人聲,這證實了干凈的合成音頻掩蓋了模型在現實世界中的失敗模式(Masking real-world failure modes)。
Gemini 3 Pro勉強登頂
GPT-4o意外折戟標題
Audio MultiChallenge延續了原版的嚴苛邏輯,并針對音頻特性新增了致命的一擊,從指令保留、推理記憶、自我一致性以及核心的Voice Editing(語音編輯) 四個軸向對模型進行綜合考核。
根據論文公布的排行榜,目前全球頂尖模型的音頻原生能力普遍處于及格線以下:
![]()
實驗數據揭露了一個驚人的落差:Gemini 3 Pro Preview憑借其推理架構在邏輯深度上維持了領先;而GPT-4o Audio Preview在面對真實人類語音時,表現出的魯棒性遠低于預期,通過率甚至只有Gemini的一半左右。
揭秘三大失敗模式
語音邏輯的深層鴻溝
論文通過詳細的錯誤分析,精準捕捉到了模型在音頻模態下的三個軟肋,這些結論直接指出了大模型在語音交互中的底層Gap:
語音編輯是邏輯黑洞:這是本次基準新增的維度。當用戶在說話過程中中途改口或邏輯回溯時,大多數模型會死板地執行聽到的第一個指令。該維度的平均通過率僅為17.99%,這意味著模型在聽覺上無法有效處理信息的撤回與覆蓋。
時長驅動的崩潰:模型表現隨著音頻總時長增加而穩步惡化。數據顯示,當對話累計音頻超過8分鐘時,模型的自我一致性得分會驟降至 13% 左右。這意味著目前的語音模型在處理長程語音上下文時,狀態追蹤能力極其薄弱。
音頻線索的感知缺失:當任務要求模型識別非語義信號(如背景的環境聲、說話人的語氣情緒)來輔助推理時,模型表現比純語義任務下降了 36.5%。這說明模型依然把語音當成脫水的文字在讀,而沒能真正聽懂聲音背后的物理世界。
結語
Audio MultiChallenge的發布證明了語音絕不僅是文本的簡單投射,包含著實時狀態跟蹤、情緒理解以及復雜的口語特質處理。
Scale AI的這一記重錘敲醒了業界:如果我們不能撕掉那層精美的語音外殼,解決模型對自然語音中不完美特征的感知斷層,那么AGI驅動的自由交互,將永遠停留在聽懂單詞卻不懂邏輯的初級階段。
參考資料:
https://arxiv.org/pdf/2512.14865
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.