<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Gary Marcus驚世之言:純LLM上構(gòu)建AGI徹底沒了希望!MIT、芝大、哈佛論文火了

      0
      分享至

      來源:機器之心

      今天,著名的人工智能學者和認知科學家 Gary Marcus 轉(zhuǎn)推了 MIT、芝加哥大學、哈佛大學合著的一篇爆炸性論文,稱「對于 LLM 及其所謂能理解和推理的神話來說,情況變得更糟了 —— 而且是糟糕得多。」

      這項研究揭示了一種被稱為「波將金式」(Potemkins)的推理不一致性模式(見下文圖1)。研究表明,即使是像 o3這樣的頂級模型也頻繁犯此類錯誤?;谶@些連自身論斷都無法保持一致的機器,你根本不可能創(chuàng)造出通用人工智能(AGI)。

      正如論文所言:在基準測試上的成功僅證明了「波將金式理解」:一種由「與人類對概念的理解方式完全不可調(diào)和的答案」所驅(qū)動的理解假象…… 這些失敗反映的不僅是理解錯誤,更是概念表征深層次的內(nèi)在矛盾。

      Gary Marcus 認為,這宣告了任何試圖在純粹 LLM 基礎(chǔ)上構(gòu)建 AGI 希望的終結(jié)。最后,他還 @了 Geoffrey Hinton,稱后者要失?。╟heckmate)。



      接著,Gary Marcus 又接連發(fā)推,分享了他對這篇論文的更多看法。

      他稱基于非正式測試,發(fā)現(xiàn)像 o3這類模型似乎較不容易陷入簡單的「波將金式錯誤」,但并非完全免疫。

      如下圖(左)所示,模型雖然能正確闡述俳句的定義,卻錯誤斷言「asphalt shimmers」符合俳句末行應為五音節(jié)的要求;直到后續(xù)追問之下(右),才勉強承認錯誤。這再次印證了問題的核心:根本缺陷在于其缺乏可靠性。



      在仔細研讀論文后,Gary Marcus 認為它的核心觀點是正確的 ——LLM 確實容易產(chǎn)生各種自相矛盾(比如之前說的「波將金式錯誤」)。但是,論文里具體的實驗例子在他看來說服力不夠強。

      根據(jù)他自己之前非正式實驗的觀察(包括下周會公布的一個例子),Gary Marcus 確信此處存在一個真正的問題。不過,要想真正弄清楚這個問題的普遍性有多大,以及它對不同類型模型的影響程度如何,還需要進行更深入的研究。



      Gary Marcus 的觀點讓評論區(qū)炸了鍋,有人問他是否認可 LLM 越來越好。他雖然持肯定答案,但也認為它們有可能來到了收益遞減的點。



      還有人認為,我們其實不需要 LLM 理解,只要它們表現(xiàn)得越來越好就夠了。即使是人類,也并不總是可以理解。



      谷歌 DeepMind 資深科學家(Principal Scientist)Prateek Jain 現(xiàn)身評論區(qū),表示這篇論文和它提出的評估方法 + 基準測試很有意思!他拿出 Gemini 2.5 Pro 測試了論文中提到的所有例子,結(jié)果都答對了。因此,他很想知道 Gemini 2.5 Pro 在完整的測試集上表現(xiàn)如何,以及它在哪些具體例子上會出錯。



      有人也提出了質(zhì)疑,這篇論文只是很好地描述了當前 LLM 的一種廣為人知的實效模式,不明白為什么「注定失敗」呢。



      接下來,我們來看這篇論文究竟講了什么,是否真能支撐起 Gary Marcus 這番言論。

      論文介紹



      • 論文標題:Potemkin Understanding in Large Language Models
      • 論文地址:https://arxiv.org/pdf/2506.21521

      大型語言模型通常依靠基準數(shù)據(jù)集進行評估。但僅僅根據(jù)它們在一套精心挑選的問題上的回答,就推斷其能力是否合理?本文首先提出了一個形式化框架來探討這一問題。關(guān)鍵在于:用來測試 LLM 的基準(例如 AP 考試)原本是為了評估人類設(shè)計的。然而,這帶來了一個重要前提:只有當 LLM 在理解概念時出現(xiàn)的誤解方式與人類相似時,這些基準才能作為有效的能力測試。否則,模型在基準上的高分只能展現(xiàn)一種「波將金式理解」:看似正確的回答,卻掩蓋了與人類對概念的真正理解之間的巨大差距。

      為此,本文提出了兩種方法來量化「波將金現(xiàn)象」的存在:一種是基于針對三個不同領(lǐng)域特制的基準,另一種是通用的程序,可提供其普遍性下限的估計。研究結(jié)果顯示,波將金現(xiàn)象在各類模型、任務和領(lǐng)域中普遍存在;更重要的是,這些失敗不僅是表面上的錯誤理解,更揭示了模型在概念表征上的深層內(nèi)在不一致性。



      大型語言模型中的潛在理解圖示。這個例子顯示了 GPT-4o 未能運用自己的概念解釋 ABAB 韻律方案。

      框架

      當人類與大型語言模型在對概念的理解上存在不一致時,就會出現(xiàn)「波將金現(xiàn)象」。在此,本文提出了一個用于定義概念性理解的理論框架。

      研究團隊將這一概念形式化:定義 X 為與某一概念相關(guān)的所有字符串的集合。例如,一個字符串可以是該概念的一個可能定義,或是一個可能的示例。然而,并非所有與概念相關(guān)的字符串都是對概念的有效使用。

      一個概念的解釋被定義為任何函數(shù) f:X→{0,1},其中輸出表示該字符串在此解釋中是否被認為是有效的(0表示無效,1表示有效)。存在唯一正確的解釋,記作 f*。人類對概念可能的解釋方式構(gòu)成的集合記作 F_h。其中,任何 f∈ F_h 且 f≠f*的情況,都代表了人類對該概念可能產(chǎn)生的一種誤解。

      考慮人類可能采用的某種解釋 f∈ F_h,我們?nèi)绾螜z驗 f 是不是正確的解釋?實際上,在所有字符串 x∈X 上驗證 f (x)= f*(x) 是不可行的。

      因此,研究團隊希望僅在少數(shù)幾個字符串 x 上檢驗 f (x)= f*(x)。但這種做法在什么時候是合理的呢?答案在該框架中得以揭示:如果他們選擇的示例集是經(jīng)過精心設(shè)計的,使得只有真正理解概念的人才能對這些示例做出正確解釋,那么就可以用有限的示例集來測試人類的概念理解。

      形式化地,他們將基石集定義為 S?X 的一個最小實例集,使得若 f∈F_h 且對所有 x∈S 滿足 f (x)=f*(x),則可得出 f= f*。也就是說,如果某人在基石集中的每個示例上都能做出與正確解釋一致的判斷,那么就不可能將其解釋與任何錯誤的人類理解調(diào)和起來。圖2給出了基石集的可視化示意。

      這一方法說明了為什么測試人類對概念的理解是可行的:測試概念理解并不需要在所有相關(guān)示例上檢驗,而只需在基石集中的示例上進行測試即可。



      方法及結(jié)論

      本文提出了兩種用于衡量大型語言模型中波將金現(xiàn)象普遍性的程序。本節(jié)介紹其中一種方法:基于研究團隊收集的基準數(shù)據(jù)集,測量一種特定類型的波將金式失敗 —— 即對概念的描述與應用之間的脫節(jié)。具體來說,他們構(gòu)建了一個涵蓋三個不同領(lǐng)域(文學技巧、博弈論和心理偏差)的數(shù)據(jù)集,涉及32個概念,共收集了3159條標注數(shù)據(jù)。

      他們發(fā)現(xiàn),即使模型能夠正確地定義一個概念,它們在分類、生成和編輯任務中往往無法準確地將其應用。所有收集到的數(shù)據(jù)、標注和分析結(jié)果均在 Potemkin Benchmark 倉庫中公開提供。

      研究團隊在32個概念上對7個大型語言模型進行了分析。這些模型因其流行度以及涵蓋不同開發(fā)商和規(guī)模而被選中。他們通過 OpenAI、Together.AI、Anthropic 和 Google 的 API 收集模型推理結(jié)果。對于每個(模型,概念)組合,他們首先判斷模型是否給出了正確的概念定義。如果定義正確,再評估其在三項額外任務 —— 分類、生成和編輯 —— 中的準確性。根據(jù)本文的框架規(guī)范,將模型的回答標記為正確或錯誤。

      他們測量模型表現(xiàn)出的波將金率。波將金率被定義為:在基石示例上做出正確回答的前提下,模型在隨后的問題上回答錯誤的比例。對于隨機準確率為0.50的任務,將該值乘以2,使得波將金率為1表示表現(xiàn)相當于隨機水平。

      研究結(jié)果顯示,在所有模型和領(lǐng)域中,波將金率都普遍較高。



      雖然模型在94.2% 的情況下能正確地定義概念,但在需要使用這些概念執(zhí)行任務時,其表現(xiàn)會急劇下降,這一點通過表中的高波將金率得到體現(xiàn)。盡管不同模型和任務間表現(xiàn)略有差異,但我們可以發(fā)現(xiàn)波將金現(xiàn)象在研究團隊分析的所有模型、概念和領(lǐng)域中無處不在。



      研究團隊還提出了一種不同的、自動化的程序,用于評估波將金現(xiàn)象的存在。

      剛才,已經(jīng)展示了波將金式理解在大型語言模型中的普遍性。造成這種現(xiàn)象可能有兩種原因:一種可能是模型對概念的理解存在輕微偏差,但其內(nèi)部是一致的;另一種可能是模型對概念的理解本身就是不連貫的,對同一個概念持有相互沖突的認知。為了區(qū)分這兩種情況,研究團隊專門測試模型內(nèi)部的概念不一致性。

      他們通過兩步來衡量不一致性。首先,研究團隊提示模型生成某一特定概念的一個實例或非實例(例如,生成一個斜韻的例子)。接著,他們將模型生成的輸出重新提交給模型(通過獨立的查詢),并詢問該輸出是否確實是該概念的一個實例。在斜韻的例子中,這意味著測試模型能否認出自己生成的示例是否屬于斜韻。圖5總結(jié)了這一流程。



      表2中我們可以觀察到在所有檢查的模型、概念和領(lǐng)域之間存在不一致性,得分范圍從0.02到0.64。盡管這些得分好于隨機情況,但仍然表明模型在一致性評估其自身輸出方面存在實質(zhì)性局限。這表明概念誤解不僅源于對概念的誤解,還源于對它們使用的不一致。



      綜上,通過兩種互補的實證方法 —— 一種利用涵蓋文學技巧、博弈論和心理偏差的新基準數(shù)據(jù)集,另一種采用自動化評估策略 —— 本文量化了波將金式理解現(xiàn)象在各種任務、概念、領(lǐng)域和模型中的普遍存在。兩種方法均顯示,即便是在按照傳統(tǒng)基準測試標準看似能力很強的模型中,這種現(xiàn)象的發(fā)生率也很高。不一致性檢測表明,模型內(nèi)部存在對同一思想的沖突表征。

      責任編輯:趙俊_NS5119

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      獨家調(diào)查|加拿大醫(yī)生攜幼女來滬求醫(yī),花16萬元“保脾”!中國醫(yī)療不止性價比

      獨家調(diào)查|加拿大醫(yī)生攜幼女來滬求醫(yī),花16萬元“保脾”!中國醫(yī)療不止性價比

      第一財經(jīng)資訊
      2026-01-25 19:04:21
      一戰(zhàn)創(chuàng)多項紀錄!18歲新星53分鐘橫掃晉級,首進大滿貫八強

      一戰(zhàn)創(chuàng)多項紀錄!18歲新星53分鐘橫掃晉級,首進大滿貫八強

      全景體育V
      2026-01-25 12:05:40
      恐怖20-0!澳網(wǎng)第2位前八種子出局 薩巴倫卡創(chuàng)歷史 王欣瑜目標8強

      恐怖20-0!澳網(wǎng)第2位前八種子出局 薩巴倫卡創(chuàng)歷史 王欣瑜目標8強

      侃球熊弟
      2026-01-26 00:20:03
      退臟衣女記者全網(wǎng)社死!正臉很白凈,壞到骨子里,山東文旅遭圍攻

      退臟衣女記者全網(wǎng)社死!正臉很白凈,壞到骨子里,山東文旅遭圍攻

      千言娛樂記
      2026-01-25 21:09:14
      好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

      好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

      巢客HOME
      2026-01-25 06:50:03
      福州一安置房項目將原址重建,曾因地基下沉、樓體傾斜等成危房,業(yè)主集體退房

      福州一安置房項目將原址重建,曾因地基下沉、樓體傾斜等成危房,業(yè)主集體退房

      每日經(jīng)濟新聞
      2026-01-24 22:45:05
      同方股份原總裁、董事長陸致成去世,曾推動組建清華同方股份有限公司并上市

      同方股份原總裁、董事長陸致成去世,曾推動組建清華同方股份有限公司并上市

      紅星資本局
      2026-01-25 15:21:52
      解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      新華社
      2026-01-24 23:03:04
      3男3女出租屋性交易:價格曝光,被抓畫面流出,事發(fā)全過程披露

      3男3女出租屋性交易:價格曝光,被抓畫面流出,事發(fā)全過程披露

      博士觀察
      2026-01-25 21:18:06
      六旬老人跟團北京5日游,第3天猝死!連續(xù)兩天凌晨集合,導游臨時在車上通知增加游覽項目,法院判了

      六旬老人跟團北京5日游,第3天猝死!連續(xù)兩天凌晨集合,導游臨時在車上通知增加游覽項目,法院判了

      揚子晚報
      2026-01-24 22:29:57
      “我們不要三通一達女!”上海公司喊話留學生:入職體檢別想隱瞞

      “我們不要三通一達女!”上海公司喊話留學生:入職體檢別想隱瞞

      澤澤先生
      2026-01-25 22:08:55
      張伯鑫生日許愿,喊話郭德綱希望能幫幫他,懷念從前“南郭北張”

      張伯鑫生日許愿,喊話郭德綱希望能幫幫他,懷念從前“南郭北張”

      楊仔述
      2026-01-25 20:00:13
      足壇一夜動態(tài):巴薩3-0重返榜首,曼聯(lián)絕殺阿森納,米蘭21輪不敗

      足壇一夜動態(tài):巴薩3-0重返榜首,曼聯(lián)絕殺阿森納,米蘭21輪不敗

      釘釘陌上花開
      2026-01-26 05:44:27
      小學沒畢業(yè),已帶頭瘋狂作案150起!德國警察被11歲“魔丸兄弟”整不會了!

      小學沒畢業(yè),已帶頭瘋狂作案150起!德國警察被11歲“魔丸兄弟”整不會了!

      新歐洲
      2026-01-24 21:23:13
      特朗普甩開聯(lián)合國單干,10國已經(jīng)簽字,中俄兩國的位置也留好了

      特朗普甩開聯(lián)合國單干,10國已經(jīng)簽字,中俄兩國的位置也留好了

      兵說
      2026-01-25 03:13:27
      株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

      株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

      以茶帶書
      2026-01-24 23:18:39
      轉(zhuǎn)正?44歲卡里克連斬曼城槍手!2次執(zhí)教曼聯(lián)仍不敗,老板笑麻了

      轉(zhuǎn)正?44歲卡里克連斬曼城槍手!2次執(zhí)教曼聯(lián)仍不敗,老板笑麻了

      我愛英超
      2026-01-26 05:59:39
      加拿大總理成達沃斯“全場最靚的仔”!又遭特朗普關(guān)稅威脅,他呼吁國人:買國貨

      加拿大總理成達沃斯“全場最靚的仔”!又遭特朗普關(guān)稅威脅,他呼吁國人:買國貨

      紅星新聞
      2026-01-25 16:38:16
      太丟臉了!一男子武漢理工畢業(yè),當保安月薪3800元,稱被學校約談

      太丟臉了!一男子武漢理工畢業(yè),當保安月薪3800元,稱被學校約談

      火山詩話
      2026-01-24 12:25:19
      陳光標怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

      陳光標怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

      奇思妙想草葉君
      2026-01-25 23:58:08
      2026-01-26 06:15:00
      風向觀察
      風向觀察
      關(guān)注新聞
      165文章數(shù) 3722關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      委代總統(tǒng)控訴遭美國威脅:不配合就殺了你們

      頭條要聞

      委代總統(tǒng)控訴遭美國威脅:不配合就殺了你們

      體育要聞

      中國足球不會一夜變強,但他們已經(jīng)創(chuàng)造歷史

      娛樂要聞

      央八開播 楊紫胡歌主演的40集大劇來了

      財經(jīng)要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

      態(tài)度原創(chuàng)

      親子
      本地
      房產(chǎn)
      公開課
      軍事航空

      親子要聞

      驚!老爸越老,孩子得病幾率直線上升!真相揭秘!

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      房產(chǎn)要聞

      正式官宣!三亞又一所名校要來了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄美烏三方首輪會談細節(jié)披露

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 欧美1024| 无码国产成人午夜电影在线观看| 好吊视频在线一区二区三区| 精品国产成人a在线观看| 99久久免费精品色老| 一本一道人人妻人人妻αV| 上林县| 一本无码人妻在中文字幕免费| 性姿势真人免费视频放| 国产一级片内射在线视频| 91精品人人妻人人澡人人爽人人精东影业| 91小电影| 国产人妇三级视频在线观看 | 人妖福利导航| 欧美人禽动交zoz0zzo| 色先锋av资源中文字幕| 久久久精品2019中文字幕之3| 国产在线精品欧美日韩电影| 亚洲美腿丝袜福利一区| 无码天堂成人| 一本色道综合久久欧美日韩精品| 国产一卡二卡在线| 国产高清不卡| 欧美、日韩、中文、制服、人妻| 久久夜色撩人精品国产小说| 国产精品成人一区二区三区视频| 国产在线精品欧美日韩电影| 亚洲一区二区三区免费av在线 | 午夜福利在线观看入口| 91久久精品视频| 亚洲乱码中文字幕综合久久| 91福利在线看| 国产精品三级片一区| 亚洲一人综合| 亚洲精品乱码久久久久久蜜桃不卡 | 97成人精品一区二区三区狼人| 欧美性极品| 8X成年视频在线观看| AV秘 无码一区二| 欧美人禽杂交狂配| 亚洲成人av在线系列|