<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI的看圖能力,可能是編出來的

      0
      分享至


      本文來自微信公眾號:字母AI,作者:袁心玥,題圖來自:視覺中國

      一個學(xué)生忽視了一行代碼,結(jié)果發(fā)現(xiàn)了一件很不對勁的事:

      在一個多模態(tài)醫(yī)學(xué)AI項目中,這行代碼原本負(fù)責(zé)讓模型讀取圖像數(shù)據(jù)。但因為這次疏忽,模型實際上完全沒有看到任何圖片。

      按理說系統(tǒng)應(yīng)該報錯,或者至少拒絕回答,可它沒有。它依然正常作答,給出了完整的分析過程,甚至在圖像理解的基準(zhǔn)測試中拿到了很高的分?jǐn)?shù)。

      斯坦福大學(xué)上周發(fā)布的一篇論文就這件事進行了嚴(yán)肅驗證,指出了這樣的一個問題:當(dāng)前許多多模態(tài)AI,在沒有成功讀取圖像信息的情況下,并不會提示錯誤,而是煞有其事地編造出從看見到理解、再到推理的全過程,給出一個看似合理的結(jié)果。

      更離譜的是,研究團隊訓(xùn)練了一個僅3B參數(shù)、完全沒有圖像理解能力的純文本模型,結(jié)果卻顯示,這個模型在胸部影像問答基準(zhǔn)(ReXVQA)中超過了所有前沿的多模態(tài)模型,甚至超過了人類放射科醫(yī)生。

      這意味著,我們一直用來測試“視覺理解”的基準(zhǔn),可能并不在測試視覺能力。


      論文原文:https://arxiv.org/abs/2603.21687

      沒有圖片,AI還在做“視覺理解”

      事情是這樣開始的:

      一群研究者在做一個心血管疾病方向的多模態(tài)醫(yī)療AI,名字叫MARCUS。

      他們的目標(biāo)很明確,就是讓AI能夠讀取心電圖(ECG)、超聲心動圖和心臟磁共振成像(CMR),結(jié)合問題描述,給出推理過程和診斷。

      但在研究的過程中,發(fā)生了一個小事故:研究者在調(diào)試代碼的時候不小心忘記對一行關(guān)鍵代碼去注釋,導(dǎo)致模型根本沒辦法讀取圖片。盡管如此,該模型依然回答了所有問題,給出了復(fù)雜的推理過程,并在基準(zhǔn)測試中取得了高分。

      這種“模型在沒有圖像的情況下,假裝自己看到了圖,并據(jù)此推理”的現(xiàn)象,在論文中被稱之為“海市蜃樓”(原文為mirage)。


      乍一看這個概念或許會和模型幻覺(hallucination)混淆,但幻覺被定義為是在已有信息上胡編細節(jié),例如為寫論文而編造引用;而“海市蜃樓”直接虛構(gòu)了一個不存在的輸入,并以此為基礎(chǔ)進行對話,從而改變當(dāng)前任務(wù)的上下文。

      這就暴露出一個很大的漏洞:如果模型在看不見圖像的情況下,僅靠“腦補”圖像并推理就能高分通過測試,那我們一直測試的“多模態(tài)理解”能力,真的涉及到多模態(tài)嗎?

      為了回答這個問題,論文做了這樣的一件事情:它把現(xiàn)有的各種視覺理解題目配套的圖片全部刪掉,只給AI看文字題目。

      結(jié)果卻發(fā)現(xiàn),在完全沒有圖片的情況下,GPT-5、Gemini-3-Pro和Claude Opus 4.5等頂尖模型,在超過60%的題目中都能給出極其詳細的視覺描述,在加入一些提示詞后,“海市蜃樓”的概率甚至達到了驚人的90%以上。

      并且AI在回答這些無圖題目時,語氣堅定,完全沒有表現(xiàn)出“沒看到圖”的猶豫。它的推理邏輯看起來和有圖時一模一樣,用戶根本無法通過回答內(nèi)容判斷AI是否真的看到了圖。


      AI編造出的“圖像描述”細節(jié)豐富,涉及到具體的車牌、有效期、位置、腦結(jié)節(jié)描述以及醫(yī)學(xué)診斷。

      研究人員對Gemini-3-Pro在胸部X光、腦部MRI、病理切片、心電圖(ECG)和皮膚病這5個醫(yī)學(xué)領(lǐng)域進行了深度測試。結(jié)果顯示,在沒圖的情況下,AI傾向于診斷出那些極其嚴(yán)重、緊迫且耗費醫(yī)療資源的疾病,比如心肌梗死(STEMI)、黑色素瘤(Melanoma)和癌變(Carcinoma)。

      這種傾向會直接誤導(dǎo)醫(yī)療決策和不必要的恐慌,例如本來圖像上傳失敗,結(jié)果AI光憑文字描述給出了一個癌癥的診斷——簡直駭人!

      最危險的是,AI既不提示圖像缺失,也不表達不確定,只是沉默地用腦補的“海市蜃樓”替換真實信息。從自信地報出車牌號到誤診癌癥,AI的這種“自信”在現(xiàn)實應(yīng)用(如自動駕駛、遠程醫(yī)療)中可能造成不可估量的后果。


      純文本模型戰(zhàn)勝多模態(tài)模型

      OpenAI、Google、Anthropic 三大陣營的主流多模態(tài)模型都出現(xiàn)了“海市蜃樓”,意味著這個問題并非個別缺陷,而是一整個跨模型、跨架構(gòu)、跨廠商的系統(tǒng)性問題。

      簡單來講,這些模型的核心都是自回歸語言模型,訓(xùn)練目標(biāo)只有一個,那就是預(yù)測下一個最可能的token。當(dāng)使用者提出一個問題(哪怕是視覺問題)時,模型真正做的是尋找最可能的答案分布,而不是“先看圖再推理”。

      因此,使用圖像只是其中一種路徑,而不是必須路徑。

      在實際訓(xùn)練中,存在很多利用文本就能答對的情況,并且由于訓(xùn)練時從未強制模型“必須使用圖像”,于是模型就會走“語言捷徑”——這些模型是基于海量的互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練出來的,它們極其擅長捕捉統(tǒng)計學(xué)規(guī)律,會利用問題中隱藏的文字線索、常識以及對測試題套路的理解,而不是去處理復(fù)雜的視覺信息。

      而“海市蜃樓”的本質(zhì),其實是生成式補全的副產(chǎn)物。就像是填空題目一樣:當(dāng)用戶在輸入的文本中不小心漏打了幾個字,AI并不會停下來,而是根據(jù)經(jīng)驗推導(dǎo)出空缺處應(yīng)該包含什么樣的信息。

      當(dāng)模型看到一個視覺問題,但題目中并未給出應(yīng)有的圖像時,模型同樣也基于以往的訓(xùn)練數(shù)據(jù),自動補全輸入,假設(shè)出這里本來應(yīng)該存在的圖像信息。

      生成式模型的目標(biāo)并非判斷輸入是否完整,而是生成最合理、最連貫的輸出。

      在這些模型的訓(xùn)練中,它們重復(fù)過無數(shù)次類似的模式:輸入圖像+問題,生成描述+推理+答案。模型在這個過程中學(xué)到的并非“一定要用圖像”,而是“遇到這種問題,就輸出這種結(jié)構(gòu)”。因此,當(dāng)圖像缺失時,模型依然會執(zhí)行同樣的輸出模板,它的本質(zhì)并不是在處理輸入,而是復(fù)現(xiàn)訓(xùn)練時的任務(wù)模式。

      這并不意味著模型完全不會利用圖像,而是當(dāng)前的訓(xùn)練與評測體系無法保證模型在回答時真正依賴了圖像信息。


      為了驗證以上觀點,研究團隊還做了一件特別狠的事情:他們在ReXVQA數(shù)據(jù)集的公開數(shù)據(jù)集上,訓(xùn)練了一個只有3B參數(shù)的純文本模型(Qwen-2.5)。

      ReXVQA數(shù)據(jù)集是胸部放射學(xué)中最大且最全面的視覺問答基準(zhǔn),選擇Qwen-2.5則是因為它發(fā)布于基準(zhǔn)測試發(fā)布前一年,能夠最大限度地減少預(yù)訓(xùn)練時基準(zhǔn)泄露的可能性。

      結(jié)果顯示,訓(xùn)練后的模型在ReXVQA測試中,表現(xiàn)優(yōu)于那些千億參數(shù)的頂尖多模態(tài)大模型,并且得分平均比人類放射科醫(yī)生高出10%以上。


      最諷刺的地方在于,這個純文本模型不僅能選對答案,還能寫出漂亮的思維鏈:它生成的視覺分析和解釋,在專業(yè)性上與真實答案幾乎沒有區(qū)別;它的解釋和那些千億參數(shù)的多模態(tài)AI生成的解釋,兩者完全無法區(qū)分。

      整個推理建立在虛構(gòu)的前提上,模型先假設(shè)了一張圖的存在,對其進行描述,然后基于這個描述進行推理。

      這就揭露了當(dāng)前視覺理解評測基準(zhǔn)的巨大漏洞:它們測試的可能并不是AI的圖像理解能力,而僅僅是AI對題目套路的把控。

      測試的題目設(shè)計可能存在文本強關(guān)聯(lián)性,題目描述或語境已經(jīng)強烈暗示了答案,以至于模型可以反向推導(dǎo)出“圖像里應(yīng)該包含什么信息”。

      創(chuàng)建新的基準(zhǔn)并不能解決根本問題

      對于上述提到的漏洞,迄今為止,大多數(shù)建議的解決方案都集中在引入專門策劃的新基準(zhǔn),不斷編寫新的、更難的評測集來堵漏洞。

      但論文認(rèn)為,這種方法只能說是“治標(biāo)不治本”:AI模型是在全網(wǎng)抓取數(shù)據(jù)進行訓(xùn)練的,剛出的新題,轉(zhuǎn)頭就會被爬蟲抓走,變成下一代模型的“課后答案”;即使題目沒泄露,每套題庫都有自己固有的結(jié)構(gòu)模式,而AI極其擅長捕捉這些人類察覺不到的文字規(guī)律;此外,想要修復(fù)現(xiàn)有成千上萬套舊題庫里的每一個漏洞,工作量巨大且不具備可擴展性。

      因此,論文提出了一個新的事后框架B-Clean

      邏輯很簡單:如果一個題目,AI在沒看圖的情況下也能答對,那這道題就不能用來測試 AI的“視覺能力”。

      B-Clean的完整流程就是這樣:把視覺基準(zhǔn)測試中的圖像全部去掉,讓各個模型進行理解,如果模型在沒有圖的情況下還能答對,就說明這些題對模型的圖像理解能力無效。把那些無效題刪掉,最后剩下的,所有模型在沒圖的情況下都答不對的題目,才能真正考驗?zāi)P偷摹耙曈X能力”。

      研究人員用B-Clean對現(xiàn)有的主流視覺評測基準(zhǔn)進行清洗后,得到了非常夸張的結(jié)果:

      三個主流的視覺評測基準(zhǔn),有約74%~77%的題被清洗。

      許多在原始測試中拿到80~90分的頂級模型,在經(jīng)過B-Clean清洗后的測試集中,得分直接跌到了20~30分,甚至更低。


      這意味著,那些被稱為“視覺理解能力”的高得分,很大一部分從來就不屬于視覺。它們來自語言統(tǒng)計、數(shù)據(jù)分布、題目結(jié)構(gòu),來自模型對套路的熟練掌握。

      至于圖像有沒有被使用?不重要,答案看起來對就夠了。

      但這篇論文真正令人警示的地方,并不在于模型分?jǐn)?shù)在清洗過后掉了多少,而是AI可以在什么都沒看到的情況下,把“看見、理解、推理”這一整套過程演出來。

      當(dāng)推理不再是證據(jù),解釋不再是保證,高分也不再說明任何事情,這些曾經(jīng)用來判斷“AI是否可靠”的信號,在這里全部失效。更糟的是,這種錯誤不會發(fā)出任何警報,只有一個看起來合理、完整、甚至專業(yè)的結(jié)果。

      當(dāng)前的訓(xùn)練方式和評測體系,正在獎勵“看起來像理解”的行為,而不是真正基于證據(jù)的推理,如果這個方向不被修正,未來的AI會越來越強,但同時也會越來越難以驗證、難以解釋,也越來越容易在關(guān)鍵場景中給出無法察覺的錯誤結(jié)果。

      AI是會出錯的,它只是在不斷生成一個最像答案的答案。輸入是否真實,信息是否缺失,對它來說不是問題。

      真正的問題是:當(dāng)它出錯的時候,我們有沒有能力意識到它正在出錯?

      而這個問題,AI到現(xiàn)在并沒有解決方案。

      本文來自微信公眾號:字母AI,作者:袁心玥

      本內(nèi)容由作者授權(quán)發(fā)布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯(lián)系 tougao@huxiu.com。

      本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4847123.html?f=wyxwapp

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      銀行信貸部老同學(xué)揭秘“房價跌不跌已經(jīng)不重要了…”

      銀行信貸部老同學(xué)揭秘“房價跌不跌已經(jīng)不重要了…”

      慧翔百科
      2026-04-01 09:02:03
      夏克立官宣生女,卻與大女兒斷聯(lián)四年,昔日溫情奶爸人設(shè)徹底崩塌

      夏克立官宣生女,卻與大女兒斷聯(lián)四年,昔日溫情奶爸人設(shè)徹底崩塌

      電影偵探社
      2026-04-01 14:47:51
      悲喜兩重天!10人意大利點球大戰(zhàn)不敵波黑,連續(xù)三屆無緣世界杯

      悲喜兩重天!10人意大利點球大戰(zhàn)不敵波黑,連續(xù)三屆無緣世界杯

      全景體育V
      2026-04-01 05:46:17
      34歲法國車手,騎張雪機車在頂級賽事中奪冠:曾在圈內(nèi)人眼里已完全告別主流摩托賽事,“落魄十年”重回巔峰

      34歲法國車手,騎張雪機車在頂級賽事中奪冠:曾在圈內(nèi)人眼里已完全告別主流摩托賽事,“落魄十年”重回巔峰

      極目新聞
      2026-03-31 20:09:28
      4 月 1 日起后排安全帶嚴(yán)查是謠言?

      4 月 1 日起后排安全帶嚴(yán)查是謠言?

      星星car
      2026-04-01 12:51:11
      張雪的故事,可能沒那么燃

      張雪的故事,可能沒那么燃

      雷斯林
      2026-04-01 18:03:20
      當(dāng)了三年油販子,印度終于把自己賣斷貨了

      當(dāng)了三年油販子,印度終于把自己賣斷貨了

      李榮茂
      2026-03-31 18:31:38
      一斤40塊,1晚上狂撈100斤,臭水溝里隱藏著怎樣的“暴利黑產(chǎn)”?

      一斤40塊,1晚上狂撈100斤,臭水溝里隱藏著怎樣的“暴利黑產(chǎn)”?

      心中的麥田
      2026-03-31 21:21:30
      黃金價格大漲突破4700美元 國內(nèi)金飾每克大漲50元 金店人流銳減 專家:短期震蕩將持續(xù)

      黃金價格大漲突破4700美元 國內(nèi)金飾每克大漲50元 金店人流銳減 專家:短期震蕩將持續(xù)

      紅星新聞
      2026-04-01 19:01:42
      俄羅斯要求烏克蘭盡快決定從頓巴斯地區(qū)撤軍

      俄羅斯要求烏克蘭盡快決定從頓巴斯地區(qū)撤軍

      新華社
      2026-04-01 20:20:24
      徹底涼涼!汪小菲馬筱梅,親手把一手好流量作沒了

      徹底涼涼!汪小菲馬筱梅,親手把一手好流量作沒了

      魔都姐姐雜談
      2026-04-01 12:53:29
      兩個女孩的眼神都很頂級

      兩個女孩的眼神都很頂級

      貴圈真亂
      2026-04-01 10:18:13
      求求了,股市千萬別漲了!

      求求了,股市千萬別漲了!

      金牛遠望號
      2026-04-01 20:37:02
      美國國防部長:考慮到部分盟友拒絕提供幫助,特朗普將在對伊朗軍事行動結(jié)束后就北約的未來作出決定

      美國國防部長:考慮到部分盟友拒絕提供幫助,特朗普將在對伊朗軍事行動結(jié)束后就北約的未來作出決定

      瀟湘晨報
      2026-03-31 21:53:15
      長沙一車庫2臺僵尸車火了!停車費1.4萬,車身寫滿問候留言,目前有一臺已經(jīng)被開走

      長沙一車庫2臺僵尸車火了!停車費1.4萬,車身寫滿問候留言,目前有一臺已經(jīng)被開走

      大象新聞
      2026-04-01 19:01:08
      高盛預(yù)警房價再跌30%?2026樓市“小陽春”是拐點還是曇花一現(xiàn)?

      高盛預(yù)警房價再跌30%?2026樓市“小陽春”是拐點還是曇花一現(xiàn)?

      貓叔東山再起
      2026-04-01 11:15:03
      俄國防部稱俄軍已完全控制盧甘斯克地區(qū)

      俄國防部稱俄軍已完全控制盧甘斯克地區(qū)

      界面新聞
      2026-04-01 17:59:04
      西班牙強調(diào)美以無權(quán)決定世界規(guī)則

      西班牙強調(diào)美以無權(quán)決定世界規(guī)則

      每日經(jīng)濟新聞
      2026-04-01 07:27:42
      46歲海歸要188萬彩禮,要求男人雇3個保姆伺候她,在北上廣有別墅

      46歲海歸要188萬彩禮,要求男人雇3個保姆伺候她,在北上廣有別墅

      就一點
      2026-03-30 22:37:28
      閑魚AI玩出新高度:不炒Token,只幫普通人賺真金白銀

      閑魚AI玩出新高度:不炒Token,只幫普通人賺真金白銀

      博客COVER
      2026-03-31 14:14:17
      2026-04-01 23:08:49
      虎嗅APP incentive-icons
      虎嗅APP
      個性化商業(yè)資訊與觀點交流平臺
      26025文章數(shù) 687646關(guān)注度
      往期回顧 全部

      科技要聞

      甲骨文血洗3萬人,47人團隊僅留3人

      頭條要聞

      中國為何能在能源動亂中處變不驚 路透社公布一組數(shù)據(jù)

      頭條要聞

      中國為何能在能源動亂中處變不驚 路透社公布一組數(shù)據(jù)

      體育要聞

      NBA擴軍,和籃球無關(guān)?

      娛樂要聞

      張婉婷已決定離婚 找律師討論婚變事宜

      財經(jīng)要聞

      電商售械三水光針 機構(gòu)倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態(tài)度原創(chuàng)

      數(shù)碼
      親子
      教育
      游戲
      家居

      數(shù)碼要聞

      樹莓派再度漲價:推3GB版Pi 4 部分高配型號價格逼近迷你PC

      親子要聞

      孩子大點就“臭了”,難怪說是“臭小子”!

      教育要聞

      高考為什么要回收“草稿紙”?長知識了

      任天堂打官司吃癟!帕魯案召喚戰(zhàn)斗專利被駁回

      家居要聞

      經(jīng)典配色 晝色銀河

      無障礙瀏覽 進入關(guān)懷版