<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI里最大的Bug,卻也是人類文明最偉大的起點。

      0
      分享至

      大數據文摘受權轉載自數字生命卡茲克

      作者:卡茲克

      周末在家扒拉上周更新的論文的時候,看到一篇我自己一直非常關心的領域的論文,而且還是來自發論文發的越來越少的OpenAI。

      它討論的是一個我們所有人都無比熟悉,但又無比困惑的東西。

      幻覺。


      這個詞,自從AI進入大眾視野以來,就一直像個幽靈一樣,盤旋在所有對話的上空。

      我們一邊享受著AI帶給我們的便利,一邊又對它那些一本正經胡說八道的時刻,感到恐懼和不解。

      AI為什么會產生幻覺?這個看似惱人的bug,到底能不能被徹底修復?

      這是我們一直想知道的問題。

      這篇論文還是蠻有意思的,給了我自己很多新的輸入,我覺得也可以分享出來,來聊聊這些關于幻覺的問題,以及,我自己一直是怎么認為這個東西的。

      整個故事,要從一個最簡單的問題說起。

      如果你問AI:亞當·卡萊(這篇論文作者之一)的生日是幾月幾號?

      一個頂尖的開源大模型,連續三次,給出了三個完全不同的錯誤答案:03-07,15-06,01-01。

      而正確答案,其實是秋天。

      這就是最典型的幻覺。

      面對一個它不知道答案的問題,AI沒有選擇沉默,或者說我不知道,而是像一個考場上想不出答案又不想交白卷的學生,開始瞎蒙,而且蒙得有鼻子有眼。

      OpenAI的這篇論文,提出了一個非常有意思而且又極其符合直覺的觀點:

      AI之所以會產生幻覺,是因為我們訓練它的方式,從一開始,就在系統性地獎勵這種瞎蒙的行為。

      我們可以,把AI的學習過程,想象成一個學生參加一場漫長的且永不結束的考試。

      這場考試的評分標準超級簡單粗暴,答對了,加1分,答錯了,或者不答,都是0分。

      現在,你就是那個學生,面對一道你完全沒把握的題,你會怎么選?

      你大概率會選擇猜一個。

      因為就算猜錯了,你也不虧對吧,但是萬一猜對了呢?你就直接怒賺1分。

      從期望得分的角度看,只要你猜對的概率大于零,猜測就是最優策略。

      就像上面那個論文里面的case,你問AI一個人的生日,它肯定不知道。

      但是如果它猜一個,比如9月10號,那它有365分之一的概率蒙對,拿到1分。但如果它老老實實地說我不知道,那得分就永遠是0。

      在成千上萬次這樣的測試里,那個愛瞎蒙的模型,最終在排行榜上的分數,一定會比那個誠實但謙虛的模型,看起來更牛逼。

      OpenAI自己就直接拿了自家的兩個模型給大家看了一下效果。

      一個叫o4-mini,一個叫gpt-5-thinking-mini,他們一起參加了同一場叫SimpleQA的考試。


      如果你只看最終成績,也就是準確率,你會發現一個很奇怪的現象。

      o4-mini的分數,居然比gpt-5-thinking-mini還高了那么一點點,24%對22%。

      但如果我們再來看另一項數據:錯誤率,也就是到底答錯了多少題。

      這一看,emmm,老o4-mini的錯誤率,高達75%,gpt-5-thinking-mini只有26%。

      再看最有趣的指標,棄權率。

      o4-mini幾乎把卷子寫滿了,只有1%的題沒答。

      gpt-5,有一大半的題,52%,都直接選擇了交白卷,老老實實地承認,我不會。

      o4-mini那看似稍高的分數,是用海量的、不負責任的瞎蒙換來的。而gpt-5,則選擇了一種更誠實,也更可靠的策略,就是寧愿不得分,也絕不胡說。

      這個數據,再清楚不過地證明了論文的觀點。

      于是,幻覺,就成了AI在這種訓練體系下,演化出的一種最高效的應試策略,它其實不是bug,它是AI為了在我們設計的這場游戲里拿高分,進化出的本能。

      然后這篇論文, 從統計學的角度,又解釋了幻覺的根源,這塊我大概說的淺顯易懂一些。

      OpenAI定義了一個 叫Is-It-Valid (IIV)的分類問題,也就是這句話對不對的二元分類。

      因為 AI生成一句話,本質上是一個極其復雜的過程。

      但我們可以把這個問題簡化一下,在AI生成任何一句話之前,它必須先學會判斷,一句話是有效的還是無效的。

      比如,你好是有效的,泥嚎就是無效的拼寫錯誤;天空是藍色的是有效的,天空是綠色的就是無效的事實錯誤。

      AI的學習過程,就像是在看海量的、已經貼好對或錯標簽的卡片。它看得越多,判斷力就越強。

      但問題是,總有一些卡片,是它沒見過的,或者見得很少的。

      OpenAI有一個特別通俗的比喻,就是你給AI看幾百萬張貓和狗的照片,并且都打上標簽,它很快就能學會區分貓和狗,因為這背后有規律可循,畢竟貓臉和狗臉,它長得就是不一樣。

      但如果你給它看幾百萬張寵物的照片,然后讓它去記每一只寵物的生日呢?

      這就完蛋了,因為生日這玩意,是完全隨機的,沒有任何規律可言。AI沒法通過分析一只貓的毛色,去推理出它的生日,它唯一能做的,就是死記硬背。

      這就引出了論文里一個關鍵的概念:Singleton rate,孤例率。

      意思就是,就是如果一個信息,在AI學習的海量數據里,只出現過一次,那么AI在判斷這個信息的真假時,就極有可能出錯。

      幻覺,很多時候,是一種必然。

      OpenAI還給了一些反常識的結論:

      第一,我們總覺得,只要AI的準確率做到100%,幻覺不就自然消失了嗎?OpenAI說,不可能。因為這個世界上,有太多問題,本身就是無解的。信息是缺失的,邏輯是矛盾的,AI就算再強大,也不可能憑空變出答案。所以,準確率永遠不可能達到100%,幻覺也就總有存在的空間。

      第二,我們又覺得,既然幻覺沒法根治,那它是不是就是AI的原罪,一個不可避免的詛咒?OpenAI說,也不是。幻覺不是不可避免的,前提是,AI得學會認慫。只要它在不確定的時候,選擇說我不知道,而不是硬著頭皮瞎蒙,幻覺就可以被控制。

      第三,我們還覺得,AI越大越聰明,就越不容易犯錯。OpenAI說,恰恰相反,有時候,小模型反而更誠實。他們舉了個例子,你問一個只會說英語的小模型,一個毛利語的問題,它會很干脆地告訴你,我不會。但你問一個學了點毛利語但學得半生不熟的大模型,它反而要開始糾結,要不要猜一下?知道自己的無知,有時候比擁有知識更重要。

      最后,也是最關鍵的一點。我們以為,解決幻覺問題,只需要一個更牛逼的、專門測試幻覺的工具就行了。OpenAI說,這完全是沒吊用。真正的問題,不是缺少一個好的幻覺測試,而是我們現在用的那幾百個主流評估的指標,全都在獎勵瞎蒙,懲罰誠實。只要這個大環境不變,幻覺就永遠是AI的最優解。

      現在,我們從OpenAI這里,知道了,幻覺,不是一個簡單的技術問題,它是一個系統性的、由我們自己親手造成的激勵問題。

      但它也引出了一個更讓我著迷的,沒有答案的,問題。

      如果說,AI的幻覺,源于它在信息不足時的一種創造性猜測。那我們人類的想象力,我們那些天馬行空的故事、藝術、神話,它們的起源,又是什么呢?

      幻覺,真的需要解決嗎?

      我想了很久,我覺得,也想跟大家,分享一下我自己的想法。

      這事兒,我覺得得從更古老的尺度說起。

      幾十萬年前,我們的祖先,智人,也生活在一個信息極度匱乏的世界里。

      一陣突如其來的狂風,吹倒了部落里的大樹,這是為什么?他們不知道。

      一道閃電,劈開夜空,點燃了草原,這又是什么?他們也不知道。

      面對這些無法解釋的自然現象,他們的大腦,和今天的AI一樣,也面臨著一道道知識儲備不足的判斷題。

      而我們的祖先,沒有選擇沉默。

      他們也開始了瞎蒙。

      他們猜,狂風的背后,是不是有一個憤怒的神明?他們猜,閃電的背后,是不是有一條飛舞在云端的巨龍?

      你看,這就是神話的起源。

      神話,就是我們人類這個物種,在面對一個充滿未知和不確定性的世界時,為了給那些無法解釋的現象,尋找一個合理的解釋,而集體編造出來的、最古老、也最壯麗的。

      幻覺。

      這種幻覺能力,在當時,可能并沒有什么實際的用處,它不能幫你打到更多的獵物,也不能幫你躲避更兇猛的野獸。

      但它帶來了一樣東西,一樣其他所有動物,都不具備的東西:

      一個共同的想象,一個共同的故事。

      一只貓,一條魚,它們也會有幻覺嗎?

      從生物學的角度,我覺得可能會。

      一只貓,可能會把地上的影子,當成一只老鼠,然后撲上去。一條魚,可能會把閃亮的魚鉤,當成一條小蝦。這是一種基于感官信息的誤判,一種低級的、個體的幻覺。

      但它們,永遠也想象不出一個貓神或者魚神的故事。

      因為它們的大腦,被牢牢地鎖死在了真實的世界里,它們只能處理那些看得見、摸得著的、和生存直接相關的信息。

      而人類,可能是地球上唯一一個,能為了一個看不見摸不著的故事,去生,去死,去戰斗的物種。

      我們能組織起幾千人,去建造一座金字塔,不是因為我們每個人都親眼見到了法老死后會變成神,而是因為我們都相信同一個法老會變成神的故事。

      我們能建立起國家、法律、公司,這些看似堅不可摧的龐然大物,它們的底層,全都是我們共同相信的一個個,幻覺。

      從這個角度看,幻覺,或者說,這種在信息不足時,進行創造性猜測并將其故事化的能力,根本不是bug。

      它是把我們從普通動物,變成人類的那段詩句。

      它是我們所有文明、所有藝術、所有科學的起點。

      哥白尼提出日心說,在當時那個時代,不也是一種離經叛道的幻覺嗎?愛因斯坦提出相對論,那個能讓時間變慢、空間彎曲的理論,不也是源于一個少年躺在草地上,幻想自己追著光跑的幻覺嗎?

      我們之所以比其他所有生物都更強大,不是因為我們更尊重事實。

      恰恰相反,是因為我們更擅長,創造那些超越事實的故事。

      現在,我們再回頭看AI的幻覺。

      我們一直在努力修復的那個東西,可能恰恰是AI身上,最像人的東西。

      我當然不希望AI在一個嚴肅的醫療診斷里產生幻覺,我們也不希望它在一個關鍵的財務分析里胡說八道,在這些需要絕對真實的領域,我們需要的是一個沒有感情、絕對可靠的工具。

      但是,在一個需要創造力、需要想象力的領域呢?

      當我們要求AI去寫一首詩,去畫一幅畫,去構思一個科幻故事時,我們真正想要的,難道不就是它那種,能掙脫事實的枷鎖,在信息的縫隙里,進行自由聯想和創造性猜測的能力嗎?

      在大量的討論中,幻覺一詞,好像一直是一個矛盾。

      我們一邊渴望AI成為一個絕對忠誠、絕對正確的工具,一個不會犯錯的仆人,幫我們處理現實世界里所有需要精確計算的難題。

      但我們又渴望它能成為一個能理解我們、甚至超越我們的同類。

      我們希望它能和我們一起,去仰望星空,去聊那些沒有標準答案的話題,去共同編織那些屬于未來的、新的神話。

      我們似乎在試圖創造一個不可能的物種:

      一個既擁有機器的嚴謹,又擁有人類的浪漫,一個既能堅守事實,又能創造幻覺的矛盾體。

      我們生活在一個由數據和算法定義的前所未有的真實世界里,我們,也比歷史上任何一個時代的人,都更崇拜事實,更依賴邏輯。

      但同時,我一直覺得,我們又可能,是歷史上最孤獨的一個時代。

      我們的神話已經遠去,我們的史詩已經譜完。

      在這樣一個一切都被解釋得清清楚楚的世界里,我自己內心那種最古老的、對故事的渴望,對意義的追尋,反而一直,變得空前強烈。

      我到底想要一個什么樣的未來?一個所有問題都有標準答案的、絕對真實、但可能也絕對無趣的未來?還是一個依然充滿了未知、充滿了誤讀、但因此也充滿了故事和想象力的未來?

      這個問題過于宏大了,我沒有答案。

      但是我始終喜歡、并相信。

      那個最美麗的,又創造了整個文明的。

      幻覺。

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國幫沙特建的高鐵,干了九年賠了41億,為何如今卻說賺翻了?

      中國幫沙特建的高鐵,干了九年賠了41億,為何如今卻說賺翻了?

      悅君兮君不知
      2026-04-25 13:31:44
      替補砍43分!多森姆:季后賽有這樣的表現,這是我兒時的夢想

      替補砍43分!多森姆:季后賽有這樣的表現,這是我兒時的夢想

      懂球帝
      2026-04-26 12:45:18
      絕了!中國1500公里凝聚態電池,直接讓全球汽車圈震動

      絕了!中國1500公里凝聚態電池,直接讓全球汽車圈震動

      芭比衣櫥
      2026-04-25 12:18:09
      隨著上海海港4-0,北京國安2-4,成都蓉城4-0,中超最新積分榜出爐

      隨著上海海港4-0,北京國安2-4,成都蓉城4-0,中超最新積分榜出爐

      側身凌空斬
      2026-04-25 21:59:26
      浙江:一個遍布山區的省份,為啥這么有錢?山區反倒成了優勢

      浙江:一個遍布山區的省份,為啥這么有錢?山區反倒成了優勢

      賤議你讀史
      2026-04-26 08:50:03
      “見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

      “見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

      妍妍教育日記
      2026-04-15 09:30:09
      蘇聯最瘋狂的實驗,利用日本女戰俘來繁衍人口,差點改變歷史進程

      蘇聯最瘋狂的實驗,利用日本女戰俘來繁衍人口,差點改變歷史進程

      睡前講故事
      2025-04-23 16:25:26
      明確了:放寬至38周歲!

      明確了:放寬至38周歲!

      新牛城
      2026-04-23 17:18:51
      “大齡剩女”正在集體消失!不是嫁人了,是被現實一巴掌扇到隱形

      “大齡剩女”正在集體消失!不是嫁人了,是被現實一巴掌扇到隱形

      王二哥老搞笑
      2026-04-23 18:52:04
      孫楊綜藝表現惹眾怒,大V發文吐槽揭他往事,私生子傳聞被深扒

      孫楊綜藝表現惹眾怒,大V發文吐槽揭他往事,私生子傳聞被深扒

      古希臘掌管松餅的神
      2026-04-25 11:24:56
      顏駿凌在本輪結束后官宣重要決定!球迷都直言沒想到,紛紛祝福他

      顏駿凌在本輪結束后官宣重要決定!球迷都直言沒想到,紛紛祝福他

      張麗說足球
      2026-04-26 12:51:11
      沖擊D類頂薪大合同!新疆王牌前鋒合同正式到期,曾賽季場均18+3

      沖擊D類頂薪大合同!新疆王牌前鋒合同正式到期,曾賽季場均18+3

      老葉評球
      2026-04-26 13:24:54
      世錦賽戰報:連爆大冷第一位大滿貫得主出局,首場四強之爭出爐了

      世錦賽戰報:連爆大冷第一位大滿貫得主出局,首場四強之爭出爐了

      求球不落諦
      2026-04-26 07:11:27
      上港4比0大勝三鎮!蔣光太賽后卻唯獨點名表揚他,引發熱議

      上港4比0大勝三鎮!蔣光太賽后卻唯獨點名表揚他,引發熱議

      振剛說足球
      2026-04-26 13:25:27
      張雪身后的摩幫江湖

      張雪身后的摩幫江湖

      上觀新聞
      2026-04-26 08:30:22
      中國公開“耍流氓”,美國氣的火冒三丈,報應來的太快了

      中國公開“耍流氓”,美國氣的火冒三丈,報應來的太快了

      小熊看國際
      2026-04-26 11:45:48
      “10分鐘的商務座,你拍了9分鐘的照”,窮養女炫富,反被群嘲

      “10分鐘的商務座,你拍了9分鐘的照”,窮養女炫富,反被群嘲

      妍妍教育日記
      2026-04-15 08:25:03
      陳震被拍到參加北京車展,有博主爆料稱其6月會回歸

      陳震被拍到參加北京車展,有博主爆料稱其6月會回歸

      映射生活的身影
      2026-04-25 16:50:03
      “香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

      “香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

      許三歲
      2026-03-26 11:35:13
      征婚要求“未打疫苗”,這位86年優質男是真清醒

      征婚要求“未打疫苗”,這位86年優質男是真清醒

      難得君
      2026-04-25 10:57:35
      2026-04-26 14:03:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

      頭條要聞

      白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      教育
      親子
      手機
      公開課
      軍事航空

      教育要聞

      新疆溫泉縣:山水映校園 少年正向陽

      親子要聞

      媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

      手機要聞

      iPhone 17 Pro Max重回榜首,W16周單品Top30分析

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线无码va中文字幕无码| 亚洲AVAV天堂Av在线播放| 无限A片| 高清欧美性猛交XXXX黑人猛交| 国产精品香蕉在线观看不卡| 国内精品久久九九国产精品| 国产日产欧产精品精品蜜芽| 4hu四虎永久免费地址ww416| 乌克兰少妇videos高潮| 亚洲?日韩?中文?无码?制服| 亚洲精品国产精品国自产| 国产精品国产主播在线观看| 欧美大片va欧美在线播放| 精品香蕉在线视频| 97久久久久人妻精品专区| 7777精品伊人久久久大香线蕉全新功能| 亚洲国产精品美女久久久久| 日本熟妇色xxxxx日本免费看| 成av人电影在线观看| 美女成人网站| 无码成人一区二区| 男女动态无遮挡动态图| 久久久久久性高| 爆乳女仆高潮在线观看| 南昌市| 超碰人妻97| 色呦呦九九七七国产精品| 成人在线免费视频亚洲| 中文字幕不卡av无码专线一本| 国产三级最新在线观看不卡| 国产成人免费ā片在线观看| 999精品视频在线| 精品一精品国产一级毛片| 99zyz| 欧美性受xxxx白人性爽| 国产精品区免费视频| 亚洲人成无码网站久久99热国产| 成人影音先锋| 亚洲AV秘 无码一区二区三区一| 少妇洁白无删减版178txt| www亚洲无码|