網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI的看圖能力，可能是編出來的

2026-04-01 21:12:07　來源: 虎嗅APP

北京舉報

分享至

本文來自微信公眾號：字母AI，作者：袁心玥，題圖來自：視覺中國

一個學(xué)生忽視了一行代碼，結(jié)果發(fā)現(xiàn)了一件很不對勁的事：

在一個多模態(tài)醫(yī)學(xué)AI項目中，這行代碼原本負(fù)責(zé)讓模型讀取圖像數(shù)據(jù)。但因為這次疏忽，模型實際上完全沒有看到任何圖片。

按理說系統(tǒng)應(yīng)該報錯，或者至少拒絕回答，可它沒有。它依然正常作答，給出了完整的分析過程，甚至在圖像理解的基準(zhǔn)測試中拿到了很高的分?jǐn)?shù)。

斯坦福大學(xué)上周發(fā)布的一篇論文就這件事進行了嚴(yán)肅驗證，指出了這樣的一個問題：當(dāng)前許多多模態(tài)AI，在沒有成功讀取圖像信息的情況下，并不會提示錯誤，而是煞有其事地編造出從看見到理解、再到推理的全過程，給出一個看似合理的結(jié)果。

更離譜的是，研究團隊訓(xùn)練了一個僅3B參數(shù)、完全沒有圖像理解能力的純文本模型，結(jié)果卻顯示，這個模型在胸部影像問答基準(zhǔn)（ReXVQA）中超過了所有前沿的多模態(tài)模型，甚至超過了人類放射科醫(yī)生。

這意味著，我們一直用來測試“視覺理解”的基準(zhǔn)，可能并不在測試視覺能力。

論文原文：https://arxiv.org/abs/2603.21687

沒有圖片，AI還在做“視覺理解”

事情是這樣開始的：

一群研究者在做一個心血管疾病方向的多模態(tài)醫(yī)療AI，名字叫MARCUS。

他們的目標(biāo)很明確，就是讓AI能夠讀取心電圖（ECG）、超聲心動圖和心臟磁共振成像（CMR），結(jié)合問題描述，給出推理過程和診斷。

但在研究的過程中，發(fā)生了一個小事故：研究者在調(diào)試代碼的時候不小心忘記對一行關(guān)鍵代碼去注釋，導(dǎo)致模型根本沒辦法讀取圖片。盡管如此，該模型依然回答了所有問題，給出了復(fù)雜的推理過程，并在基準(zhǔn)測試中取得了高分。

這種“模型在沒有圖像的情況下，假裝自己看到了圖，并據(jù)此推理”的現(xiàn)象，在論文中被稱之為“海市蜃樓”（原文為mirage）。

乍一看這個概念或許會和模型幻覺（hallucination）混淆，但幻覺被定義為是在已有信息上胡編細節(jié)，例如為寫論文而編造引用；而“海市蜃樓”直接虛構(gòu)了一個不存在的輸入，并以此為基礎(chǔ)進行對話，從而改變當(dāng)前任務(wù)的上下文。

這就暴露出一個很大的漏洞：如果模型在看不見圖像的情況下，僅靠“腦補”圖像并推理就能高分通過測試，那我們一直測試的“多模態(tài)理解”能力，真的涉及到多模態(tài)嗎？

為了回答這個問題，論文做了這樣的一件事情：它把現(xiàn)有的各種視覺理解題目配套的圖片全部刪掉，只給AI看文字題目。

結(jié)果卻發(fā)現(xiàn)，在完全沒有圖片的情況下，GPT-5、Gemini-3-Pro和Claude Opus 4.5等頂尖模型，在超過60%的題目中都能給出極其詳細的視覺描述，在加入一些提示詞后，“海市蜃樓”的概率甚至達到了驚人的90％以上。

并且AI在回答這些無圖題目時，語氣堅定，完全沒有表現(xiàn)出“沒看到圖”的猶豫。它的推理邏輯看起來和有圖時一模一樣，用戶根本無法通過回答內(nèi)容判斷AI是否真的看到了圖。

AI編造出的“圖像描述”細節(jié)豐富，涉及到具體的車牌、有效期、位置、腦結(jié)節(jié)描述以及醫(yī)學(xué)診斷。

研究人員對Gemini-3-Pro在胸部X光、腦部MRI、病理切片、心電圖（ECG）和皮膚病這5個醫(yī)學(xué)領(lǐng)域進行了深度測試。結(jié)果顯示，在沒圖的情況下，AI傾向于診斷出那些極其嚴(yán)重、緊迫且耗費醫(yī)療資源的疾病，比如心肌梗死（STEMI）、黑色素瘤（Melanoma）和癌變（Carcinoma）。

這種傾向會直接誤導(dǎo)醫(yī)療決策和不必要的恐慌，例如本來圖像上傳失敗，結(jié)果AI光憑文字描述給出了一個癌癥的診斷——簡直駭人！

最危險的是，AI既不提示圖像缺失，也不表達不確定，只是沉默地用腦補的“海市蜃樓”替換真實信息。從自信地報出車牌號到誤診癌癥，AI的這種“自信”在現(xiàn)實應(yīng)用（如自動駕駛、遠程醫(yī)療）中可能造成不可估量的后果。

純文本模型戰(zhàn)勝多模態(tài)模型

OpenAI、Google、Anthropic 三大陣營的主流多模態(tài)模型都出現(xiàn)了“海市蜃樓”，意味著這個問題并非個別缺陷，而是一整個跨模型、跨架構(gòu)、跨廠商的系統(tǒng)性問題。

簡單來講，這些模型的核心都是自回歸語言模型，訓(xùn)練目標(biāo)只有一個，那就是預(yù)測下一個最可能的token。當(dāng)使用者提出一個問題（哪怕是視覺問題）時，模型真正做的是尋找最可能的答案分布，而不是“先看圖再推理”。

因此，使用圖像只是其中一種路徑，而不是必須路徑。

在實際訓(xùn)練中，存在很多利用文本就能答對的情況，并且由于訓(xùn)練時從未強制模型“必須使用圖像”，于是模型就會走“語言捷徑”——這些模型是基于海量的互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練出來的，它們極其擅長捕捉統(tǒng)計學(xué)規(guī)律，會利用問題中隱藏的文字線索、常識以及對測試題套路的理解，而不是去處理復(fù)雜的視覺信息。

而“海市蜃樓”的本質(zhì)，其實是生成式補全的副產(chǎn)物。就像是填空題目一樣：當(dāng)用戶在輸入的文本中不小心漏打了幾個字，AI并不會停下來，而是根據(jù)經(jīng)驗推導(dǎo)出空缺處應(yīng)該包含什么樣的信息。

當(dāng)模型看到一個視覺問題，但題目中并未給出應(yīng)有的圖像時，模型同樣也基于以往的訓(xùn)練數(shù)據(jù)，自動補全輸入，假設(shè)出這里本來應(yīng)該存在的圖像信息。

生成式模型的目標(biāo)并非判斷輸入是否完整，而是生成最合理、最連貫的輸出。

在這些模型的訓(xùn)練中，它們重復(fù)過無數(shù)次類似的模式：輸入圖像＋問題，生成描述＋推理＋答案。模型在這個過程中學(xué)到的并非“一定要用圖像”，而是“遇到這種問題，就輸出這種結(jié)構(gòu)”。因此，當(dāng)圖像缺失時，模型依然會執(zhí)行同樣的輸出模板，它的本質(zhì)并不是在處理輸入，而是復(fù)現(xiàn)訓(xùn)練時的任務(wù)模式。

這并不意味著模型完全不會利用圖像，而是當(dāng)前的訓(xùn)練與評測體系無法保證模型在回答時真正依賴了圖像信息。

為了驗證以上觀點，研究團隊還做了一件特別狠的事情：他們在ReXVQA數(shù)據(jù)集的公開數(shù)據(jù)集上，訓(xùn)練了一個只有3B參數(shù)的純文本模型（Qwen-2.5）。

ReXVQA數(shù)據(jù)集是胸部放射學(xué)中最大且最全面的視覺問答基準(zhǔn)，選擇Qwen-2.5則是因為它發(fā)布于基準(zhǔn)測試發(fā)布前一年，能夠最大限度地減少預(yù)訓(xùn)練時基準(zhǔn)泄露的可能性。

結(jié)果顯示，訓(xùn)練后的模型在ReXVQA測試中，表現(xiàn)優(yōu)于那些千億參數(shù)的頂尖多模態(tài)大模型，并且得分平均比人類放射科醫(yī)生高出10%以上。

最諷刺的地方在于，這個純文本模型不僅能選對答案，還能寫出漂亮的思維鏈：它生成的視覺分析和解釋，在專業(yè)性上與真實答案幾乎沒有區(qū)別；它的解釋和那些千億參數(shù)的多模態(tài)AI生成的解釋，兩者完全無法區(qū)分。

整個推理建立在虛構(gòu)的前提上，模型先假設(shè)了一張圖的存在，對其進行描述，然后基于這個描述進行推理。

這就揭露了當(dāng)前視覺理解評測基準(zhǔn)的巨大漏洞：它們測試的可能并不是AI的圖像理解能力，而僅僅是AI對題目套路的把控。

測試的題目設(shè)計可能存在文本強關(guān)聯(lián)性，題目描述或語境已經(jīng)強烈暗示了答案，以至于模型可以反向推導(dǎo)出“圖像里應(yīng)該包含什么信息”。

創(chuàng)建新的基準(zhǔn)并不能解決根本問題

對于上述提到的漏洞，迄今為止，大多數(shù)建議的解決方案都集中在引入專門策劃的新基準(zhǔn)，不斷編寫新的、更難的評測集來堵漏洞。

但論文認(rèn)為，這種方法只能說是“治標(biāo)不治本”：AI模型是在全網(wǎng)抓取數(shù)據(jù)進行訓(xùn)練的，剛出的新題，轉(zhuǎn)頭就會被爬蟲抓走，變成下一代模型的“課后答案”；即使題目沒泄露，每套題庫都有自己固有的結(jié)構(gòu)模式，而AI極其擅長捕捉這些人類察覺不到的文字規(guī)律；此外，想要修復(fù)現(xiàn)有成千上萬套舊題庫里的每一個漏洞，工作量巨大且不具備可擴展性。

因此，論文提出了一個新的事后框架B-Clean。

邏輯很簡單：如果一個題目，AI在沒看圖的情況下也能答對，那這道題就不能用來測試 AI的“視覺能力”。

B-Clean的完整流程就是這樣：把視覺基準(zhǔn)測試中的圖像全部去掉，讓各個模型進行理解，如果模型在沒有圖的情況下還能答對，就說明這些題對模型的圖像理解能力無效。把那些無效題刪掉，最后剩下的，所有模型在沒圖的情況下都答不對的題目，才能真正考驗?zāi)Ｐ偷摹耙曈X能力”。

研究人員用B-Clean對現(xiàn)有的主流視覺評測基準(zhǔn)進行清洗后，得到了非常夸張的結(jié)果：

三個主流的視覺評測基準(zhǔn)，有約74%～77%的題被清洗。

許多在原始測試中拿到80～90分的頂級模型，在經(jīng)過B-Clean清洗后的測試集中，得分直接跌到了20～30分，甚至更低。

這意味著，那些被稱為“視覺理解能力”的高得分，很大一部分從來就不屬于視覺。它們來自語言統(tǒng)計、數(shù)據(jù)分布、題目結(jié)構(gòu)，來自模型對套路的熟練掌握。

至于圖像有沒有被使用？不重要，答案看起來對就夠了。

但這篇論文真正令人警示的地方，并不在于模型分?jǐn)?shù)在清洗過后掉了多少，而是AI可以在什么都沒看到的情況下，把“看見、理解、推理”這一整套過程演出來。

當(dāng)推理不再是證據(jù)，解釋不再是保證，高分也不再說明任何事情，這些曾經(jīng)用來判斷“AI是否可靠”的信號，在這里全部失效。更糟的是，這種錯誤不會發(fā)出任何警報，只有一個看起來合理、完整、甚至專業(yè)的結(jié)果。

當(dāng)前的訓(xùn)練方式和評測體系，正在獎勵“看起來像理解”的行為，而不是真正基于證據(jù)的推理，如果這個方向不被修正，未來的AI會越來越強，但同時也會越來越難以驗證、難以解釋，也越來越容易在關(guān)鍵場景中給出無法察覺的錯誤結(jié)果。

AI是會出錯的，它只是在不斷生成一個最像答案的答案。輸入是否真實，信息是否缺失，對它來說不是問題。

真正的問題是：當(dāng)它出錯的時候，我們有沒有能力意識到它正在出錯？

而這個問題，AI到現(xiàn)在并沒有解決方案。

本文來自微信公眾號：字母AI，作者：袁心玥

本內(nèi)容由作者授權(quán)發(fā)布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4847123.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.