<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI里最大的Bug,卻也是人類文明最偉大的起點。

      0
      分享至

      大數據文摘受權轉載自數字生命卡茲克

      作者:卡茲克

      周末在家扒拉上周更新的論文的時候,看到一篇我自己一直非常關心的領域的論文,而且還是來自發論文發的越來越少的OpenAI。

      它討論的是一個我們所有人都無比熟悉,但又無比困惑的東西。

      幻覺。


      這個詞,自從AI進入大眾視野以來,就一直像個幽靈一樣,盤旋在所有對話的上空。

      我們一邊享受著AI帶給我們的便利,一邊又對它那些一本正經胡說八道的時刻,感到恐懼和不解。

      AI為什么會產生幻覺?這個看似惱人的bug,到底能不能被徹底修復?

      這是我們一直想知道的問題。

      這篇論文還是蠻有意思的,給了我自己很多新的輸入,我覺得也可以分享出來,來聊聊這些關于幻覺的問題,以及,我自己一直是怎么認為這個東西的。

      整個故事,要從一個最簡單的問題說起。

      如果你問AI:亞當·卡萊(這篇論文作者之一)的生日是幾月幾號?

      一個頂尖的開源大模型,連續三次,給出了三個完全不同的錯誤答案:03-07,15-06,01-01。

      而正確答案,其實是秋天。

      這就是最典型的幻覺。

      面對一個它不知道答案的問題,AI沒有選擇沉默,或者說我不知道,而是像一個考場上想不出答案又不想交白卷的學生,開始瞎蒙,而且蒙得有鼻子有眼。

      OpenAI的這篇論文,提出了一個非常有意思而且又極其符合直覺的觀點:

      AI之所以會產生幻覺,是因為我們訓練它的方式,從一開始,就在系統性地獎勵這種瞎蒙的行為。

      我們可以,把AI的學習過程,想象成一個學生參加一場漫長的且永不結束的考試。

      這場考試的評分標準超級簡單粗暴,答對了,加1分,答錯了,或者不答,都是0分。

      現在,你就是那個學生,面對一道你完全沒把握的題,你會怎么選?

      你大概率會選擇猜一個。

      因為就算猜錯了,你也不虧對吧,但是萬一猜對了呢?你就直接怒賺1分。

      從期望得分的角度看,只要你猜對的概率大于零,猜測就是最優策略。

      就像上面那個論文里面的case,你問AI一個人的生日,它肯定不知道。

      但是如果它猜一個,比如9月10號,那它有365分之一的概率蒙對,拿到1分。但如果它老老實實地說我不知道,那得分就永遠是0。

      在成千上萬次這樣的測試里,那個愛瞎蒙的模型,最終在排行榜上的分數,一定會比那個誠實但謙虛的模型,看起來更牛逼。

      OpenAI自己就直接拿了自家的兩個模型給大家看了一下效果。

      一個叫o4-mini,一個叫gpt-5-thinking-mini,他們一起參加了同一場叫SimpleQA的考試。


      如果你只看最終成績,也就是準確率,你會發現一個很奇怪的現象。

      o4-mini的分數,居然比gpt-5-thinking-mini還高了那么一點點,24%對22%。

      但如果我們再來看另一項數據:錯誤率,也就是到底答錯了多少題。

      這一看,emmm,老o4-mini的錯誤率,高達75%,gpt-5-thinking-mini只有26%。

      再看最有趣的指標,棄權率。

      o4-mini幾乎把卷子寫滿了,只有1%的題沒答。

      gpt-5,有一大半的題,52%,都直接選擇了交白卷,老老實實地承認,我不會。

      o4-mini那看似稍高的分數,是用海量的、不負責任的瞎蒙換來的。而gpt-5,則選擇了一種更誠實,也更可靠的策略,就是寧愿不得分,也絕不胡說。

      這個數據,再清楚不過地證明了論文的觀點。

      于是,幻覺,就成了AI在這種訓練體系下,演化出的一種最高效的應試策略,它其實不是bug,它是AI為了在我們設計的這場游戲里拿高分,進化出的本能。

      然后這篇論文, 從統計學的角度,又解釋了幻覺的根源,這塊我大概說的淺顯易懂一些。

      OpenAI定義了一個 叫Is-It-Valid (IIV)的分類問題,也就是這句話對不對的二元分類。

      因為 AI生成一句話,本質上是一個極其復雜的過程。

      但我們可以把這個問題簡化一下,在AI生成任何一句話之前,它必須先學會判斷,一句話是有效的還是無效的。

      比如,你好是有效的,泥嚎就是無效的拼寫錯誤;天空是藍色的是有效的,天空是綠色的就是無效的事實錯誤。

      AI的學習過程,就像是在看海量的、已經貼好對或錯標簽的卡片。它看得越多,判斷力就越強。

      但問題是,總有一些卡片,是它沒見過的,或者見得很少的。

      OpenAI有一個特別通俗的比喻,就是你給AI看幾百萬張貓和狗的照片,并且都打上標簽,它很快就能學會區分貓和狗,因為這背后有規律可循,畢竟貓臉和狗臉,它長得就是不一樣。

      但如果你給它看幾百萬張寵物的照片,然后讓它去記每一只寵物的生日呢?

      這就完蛋了,因為生日這玩意,是完全隨機的,沒有任何規律可言。AI沒法通過分析一只貓的毛色,去推理出它的生日,它唯一能做的,就是死記硬背。

      這就引出了論文里一個關鍵的概念:Singleton rate,孤例率。

      意思就是,就是如果一個信息,在AI學習的海量數據里,只出現過一次,那么AI在判斷這個信息的真假時,就極有可能出錯。

      幻覺,很多時候,是一種必然。

      OpenAI還給了一些反常識的結論:

      第一,我們總覺得,只要AI的準確率做到100%,幻覺不就自然消失了嗎?OpenAI說,不可能。因為這個世界上,有太多問題,本身就是無解的。信息是缺失的,邏輯是矛盾的,AI就算再強大,也不可能憑空變出答案。所以,準確率永遠不可能達到100%,幻覺也就總有存在的空間。

      第二,我們又覺得,既然幻覺沒法根治,那它是不是就是AI的原罪,一個不可避免的詛咒?OpenAI說,也不是。幻覺不是不可避免的,前提是,AI得學會認慫。只要它在不確定的時候,選擇說我不知道,而不是硬著頭皮瞎蒙,幻覺就可以被控制。

      第三,我們還覺得,AI越大越聰明,就越不容易犯錯。OpenAI說,恰恰相反,有時候,小模型反而更誠實。他們舉了個例子,你問一個只會說英語的小模型,一個毛利語的問題,它會很干脆地告訴你,我不會。但你問一個學了點毛利語但學得半生不熟的大模型,它反而要開始糾結,要不要猜一下?知道自己的無知,有時候比擁有知識更重要。

      最后,也是最關鍵的一點。我們以為,解決幻覺問題,只需要一個更牛逼的、專門測試幻覺的工具就行了。OpenAI說,這完全是沒吊用。真正的問題,不是缺少一個好的幻覺測試,而是我們現在用的那幾百個主流評估的指標,全都在獎勵瞎蒙,懲罰誠實。只要這個大環境不變,幻覺就永遠是AI的最優解。

      現在,我們從OpenAI這里,知道了,幻覺,不是一個簡單的技術問題,它是一個系統性的、由我們自己親手造成的激勵問題。

      但它也引出了一個更讓我著迷的,沒有答案的,問題。

      如果說,AI的幻覺,源于它在信息不足時的一種創造性猜測。那我們人類的想象力,我們那些天馬行空的故事、藝術、神話,它們的起源,又是什么呢?

      幻覺,真的需要解決嗎?

      我想了很久,我覺得,也想跟大家,分享一下我自己的想法。

      這事兒,我覺得得從更古老的尺度說起。

      幾十萬年前,我們的祖先,智人,也生活在一個信息極度匱乏的世界里。

      一陣突如其來的狂風,吹倒了部落里的大樹,這是為什么?他們不知道。

      一道閃電,劈開夜空,點燃了草原,這又是什么?他們也不知道。

      面對這些無法解釋的自然現象,他們的大腦,和今天的AI一樣,也面臨著一道道知識儲備不足的判斷題。

      而我們的祖先,沒有選擇沉默。

      他們也開始了瞎蒙。

      他們猜,狂風的背后,是不是有一個憤怒的神明?他們猜,閃電的背后,是不是有一條飛舞在云端的巨龍?

      你看,這就是神話的起源。

      神話,就是我們人類這個物種,在面對一個充滿未知和不確定性的世界時,為了給那些無法解釋的現象,尋找一個合理的解釋,而集體編造出來的、最古老、也最壯麗的。

      幻覺。

      這種幻覺能力,在當時,可能并沒有什么實際的用處,它不能幫你打到更多的獵物,也不能幫你躲避更兇猛的野獸。

      但它帶來了一樣東西,一樣其他所有動物,都不具備的東西:

      一個共同的想象,一個共同的故事。

      一只貓,一條魚,它們也會有幻覺嗎?

      從生物學的角度,我覺得可能會。

      一只貓,可能會把地上的影子,當成一只老鼠,然后撲上去。一條魚,可能會把閃亮的魚鉤,當成一條小蝦。這是一種基于感官信息的誤判,一種低級的、個體的幻覺。

      但它們,永遠也想象不出一個貓神或者魚神的故事。

      因為它們的大腦,被牢牢地鎖死在了真實的世界里,它們只能處理那些看得見、摸得著的、和生存直接相關的信息。

      而人類,可能是地球上唯一一個,能為了一個看不見摸不著的故事,去生,去死,去戰斗的物種。

      我們能組織起幾千人,去建造一座金字塔,不是因為我們每個人都親眼見到了法老死后會變成神,而是因為我們都相信同一個法老會變成神的故事。

      我們能建立起國家、法律、公司,這些看似堅不可摧的龐然大物,它們的底層,全都是我們共同相信的一個個,幻覺。

      從這個角度看,幻覺,或者說,這種在信息不足時,進行創造性猜測并將其故事化的能力,根本不是bug。

      它是把我們從普通動物,變成人類的那段詩句。

      它是我們所有文明、所有藝術、所有科學的起點。

      哥白尼提出日心說,在當時那個時代,不也是一種離經叛道的幻覺嗎?愛因斯坦提出相對論,那個能讓時間變慢、空間彎曲的理論,不也是源于一個少年躺在草地上,幻想自己追著光跑的幻覺嗎?

      我們之所以比其他所有生物都更強大,不是因為我們更尊重事實。

      恰恰相反,是因為我們更擅長,創造那些超越事實的故事。

      現在,我們再回頭看AI的幻覺。

      我們一直在努力修復的那個東西,可能恰恰是AI身上,最像人的東西。

      我當然不希望AI在一個嚴肅的醫療診斷里產生幻覺,我們也不希望它在一個關鍵的財務分析里胡說八道,在這些需要絕對真實的領域,我們需要的是一個沒有感情、絕對可靠的工具。

      但是,在一個需要創造力、需要想象力的領域呢?

      當我們要求AI去寫一首詩,去畫一幅畫,去構思一個科幻故事時,我們真正想要的,難道不就是它那種,能掙脫事實的枷鎖,在信息的縫隙里,進行自由聯想和創造性猜測的能力嗎?

      在大量的討論中,幻覺一詞,好像一直是一個矛盾。

      我們一邊渴望AI成為一個絕對忠誠、絕對正確的工具,一個不會犯錯的仆人,幫我們處理現實世界里所有需要精確計算的難題。

      但我們又渴望它能成為一個能理解我們、甚至超越我們的同類。

      我們希望它能和我們一起,去仰望星空,去聊那些沒有標準答案的話題,去共同編織那些屬于未來的、新的神話。

      我們似乎在試圖創造一個不可能的物種:

      一個既擁有機器的嚴謹,又擁有人類的浪漫,一個既能堅守事實,又能創造幻覺的矛盾體。

      我們生活在一個由數據和算法定義的前所未有的真實世界里,我們,也比歷史上任何一個時代的人,都更崇拜事實,更依賴邏輯。

      但同時,我一直覺得,我們又可能,是歷史上最孤獨的一個時代。

      我們的神話已經遠去,我們的史詩已經譜完。

      在這樣一個一切都被解釋得清清楚楚的世界里,我自己內心那種最古老的、對故事的渴望,對意義的追尋,反而一直,變得空前強烈。

      我到底想要一個什么樣的未來?一個所有問題都有標準答案的、絕對真實、但可能也絕對無趣的未來?還是一個依然充滿了未知、充滿了誤讀、但因此也充滿了故事和想象力的未來?

      這個問題過于宏大了,我沒有答案。

      但是我始終喜歡、并相信。

      那個最美麗的,又創造了整個文明的。

      幻覺。

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗國防部隊: 進入全面備戰狀態

      伊朗國防部隊: 進入全面備戰狀態

      每日經濟新聞
      2026-02-19 16:07:49
      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      意大利知名地標“愛情拱門”突然崩塌,永久消失,當地市長:曾有成千上萬的情侶來打卡,旅游業遭“毀滅性打擊”

      大風新聞
      2026-02-17 19:26:03
      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      南京一商場晚上突發火災,看電影的觀眾緊急逃生,應急部門:火已撲滅,無人傷亡

      極目新聞
      2026-02-19 12:49:48
      浙江一地通知:即日起全域禁止銷售

      浙江一地通知:即日起全域禁止銷售

      都市快報橙柿互動
      2026-02-19 17:58:37
      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      后續,江蘇一家人吃飯父親酒后掀桌,兒子透露更多,以后不回家了

      離離言幾許
      2026-02-18 23:24:35
      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      第3金還要耐心等待!天公不作美,中國隊冬奧熱門沖金項再次延期

      全景體育V
      2026-02-19 10:10:31
      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      南方大米產量第一,為啥超市里大部分還是東北米?南方米去哪了?

      天下十三洲獵奇
      2026-02-18 23:53:55
      突發!美國出手封殺多家中國機構

      突發!美國出手封殺多家中國機構

      芯火相承
      2026-02-19 10:02:18
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      林丹在西班牙過年,別墅內景曝光,全家人與朋友除夕吃海鮮大餐

      手工制作阿殲
      2026-02-19 11:58:33
      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      再立新功!俄價值超1.2億美元的S-300VM與道爾防空系統遭摧毀

      軍迷戰情室
      2026-02-18 23:58:09
      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      2018年,張扣扣向王家復仇,唯獨不殺王自新妻子:她有不死的理由

      米果說識
      2026-02-19 09:32:34
      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      凌晨發送恐嚇信息?桔子酒店涉事門店:已報警,非員工發送

      大風新聞
      2026-02-19 09:46:23
      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      12死!湖北煙花店爆炸:店主身份被扒,大量內幕披露,知情者發聲

      博士觀察
      2026-02-19 00:06:41
      2月17日俄烏最新: 2.5 年來的最大戰果

      2月17日俄烏最新: 2.5 年來的最大戰果

      西樓飲月
      2026-02-17 20:49:47
      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      湖北12死煙花爆燃:死者身份公布,大量內部照流出,責任人被控制

      博士觀察
      2026-02-19 11:41:09
      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      尹錫悅庭審細節曝光:被判無期只瞥了一眼法官,離庭時與律師相視一笑!法官闡述為何不判死刑

      紅星新聞
      2026-02-19 17:28:30
      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      太尷尬了!大年初一,上海網友哭訴稱大門被鄰居貼兩張“大字報”

      火山詩話
      2026-02-19 15:05:12
      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      襄陽宜城煙花店才50多平米,要了12條人命!最害人的,或是防盜網

      火山詩話
      2026-02-19 13:50:13
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      2026-02-19 18:43:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6825文章數 94529關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      頭條要聞

      媒體:高市2.0 日本政局發生了意料之中的變動

      體育要聞

      中國隊第二金!徐夢桃贏女子空中技巧兩連冠 邵琪銅牌

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      親子
      藝術
      旅游
      本地
      公開課

      親子要聞

      過年期間這幾樣東西,一口都不要給孩子吃!

      藝術要聞

      震驚!安徒生竟是畫家,他的田園生活太美了!

      旅游要聞

      “分段式過年”火爆,汕頭領跑全國“特色年味游”熱門目的地

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版