<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI里最大的Bug,卻也是人類文明最偉大的起點。

      0
      分享至

      周末在家扒拉上周更新的論文的時候,看到一篇我自己一直非常關心的領域的論文,而且還是來自發論文發的越來越少的OpenAI。

      它討論的是一個我們所有人都無比熟悉,但又無比困惑的東西。

      幻覺。


      這個詞,自從AI進入大眾視野以來,就一直像個幽靈一樣,盤旋在所有對話的上空。

      我們一邊享受著AI帶給我們的便利,一邊又對它那些一本正經胡說八道的時刻,感到恐懼和不解。

      AI為什么會產生幻覺?這個看似惱人的bug,到底能不能被徹底修復?

      這是我們一直想知道的問題。

      這篇論文還是蠻有意思的,給了我自己很多新的輸入,我覺得也可以分享出來,來聊聊這些關于幻覺的問題,以及,我自己一直是怎么認為這個東西的。

      整個故事,要從一個最簡單的問題說起。

      如果你問AI:亞當·卡萊(這篇論文作者之一)的生日是幾月幾號?

      一個頂尖的開源大模型,連續三次,給出了三個完全不同的錯誤答案:03-07,15-06,01-01。

      而正確答案,其實是秋天。

      這就是最典型的幻覺。

      面對一個它不知道答案的問題,AI沒有選擇沉默,或者說我不知道,而是像一個考場上想不出答案又不想交白卷的學生,開始瞎蒙,而且蒙得有鼻子有眼。

      OpenAI的這篇論文,提出了一個非常有意思而且又極其符合直覺的觀點:

      AI之所以會產生幻覺,是因為我們訓練它的方式,從一開始,就在系統性地獎勵這種瞎蒙的行為。

      我們可以,把AI的學習過程,想象成一個學生參加一場漫長的且永不結束的考試。

      這場考試的評分標準超級簡單粗暴,答對了,加1分,答錯了,或者不答,都是0分。

      現在,你就是那個學生,面對一道你完全沒把握的題,你會怎么選?

      你大概率會選擇猜一個。

      因為就算猜錯了,你也不虧對吧,但是萬一猜對了呢?你就直接怒賺1分。

      從期望得分的角度看,只要你猜對的概率大于零,猜測就是最優策略。

      就像上面那個論文里面的case,你問AI一個人的生日,它肯定不知道。

      但是如果它猜一個,比如9月10號,那它有365分之一的概率蒙對,拿到1分。但如果它老老實實地說我不知道,那得分就永遠是0。

      在成千上萬次這樣的測試里,那個愛瞎蒙的模型,最終在排行榜上的分數,一定會比那個誠實但謙虛的模型,看起來更牛逼。

      OpenAI自己就直接拿了自家的兩個模型給大家看了一下效果。

      一個叫o4-mini,一個叫gpt-5-thinking-mini,他們一起參加了同一場叫SimpleQA的考試。


      如果你只看最終成績,也就是準確率,你會發現一個很奇怪的現象。

      o4-mini的分數,居然比gpt-5-thinking-mini還高了那么一點點,24%對22%。

      但如果我們再來看另一項數據:錯誤率,也就是到底答錯了多少題。

      這一看,emmm,老o4-mini的錯誤率,高達75%,gpt-5-thinking-mini只有26%。

      再看最有趣的指標,棄權率。

      o4-mini幾乎把卷子寫滿了,只有1%的題沒答。

      gpt-5,有一大半的題,52%,都直接選擇了交白卷,老老實實地承認,我不會。

      o4-mini那看似稍高的分數,是用海量的、不負責任的瞎蒙換來的。而gpt-5,則選擇了一種更誠實,也更可靠的策略,就是寧愿不得分,也絕不胡說。

      這個數據,再清楚不過地證明了論文的觀點。

      于是,幻覺,就成了AI在這種訓練體系下,演化出的一種最高效的應試策略,它其實不是bug,它是AI為了在我們設計的這場游戲里拿高分,進化出的本能。

      然后這篇論文, 從統計學的角度,又解釋了幻覺的根源,這塊我大概說的淺顯易懂一些。

      OpenAI定義了一個 叫Is-It-Valid (IIV)的分類問題,也就是這句話對不對的二元分類。

      因為 AI生成一句話,本質上是一個極其復雜的過程。

      但我們可以把這個問題簡化一下,在AI生成任何一句話之前,它必須先學會判斷,一句話是有效的還是無效的。

      比如,你好是有效的,泥嚎就是無效的拼寫錯誤;天空是藍色的是有效的,天空是綠色的就是無效的事實錯誤。

      AI的學習過程,就像是在看海量的、已經貼好對或錯標簽的卡片。它看得越多,判斷力就越強。

      但問題是,總有一些卡片,是它沒見過的,或者見得很少的。

      OpenAI有一個特別通俗的比喻,就是你給AI看幾百萬張貓和狗的照片,并且都打上標簽,它很快就能學會區分貓和狗,因為這背后有規律可循,畢竟貓臉和狗臉,它長得就是不一樣。

      但如果你給它看幾百萬張寵物的照片,然后讓它去記每一只寵物的生日呢?

      這就完蛋了,因為生日這玩意,是完全隨機的,沒有任何規律可言。AI沒法通過分析一只貓的毛色,去推理出它的生日,它唯一能做的,就是死記硬背。

      這就引出了論文里一個關鍵的概念:Singleton rate,孤例率。

      意思就是,就是如果一個信息,在AI學習的海量數據里,只出現過一次,那么AI在判斷這個信息的真假時,就極有可能出錯。

      幻覺,很多時候,是一種必然。

      OpenAI還給了一些反常識的結論:

      第一,我們總覺得,只要AI的準確率做到100%,幻覺不就自然消失了嗎?OpenAI說,不可能。因為這個世界上,有太多問題,本身就是無解的。信息是缺失的,邏輯是矛盾的,AI就算再強大,也不可能憑空變出答案。所以,準確率永遠不可能達到100%,幻覺也就總有存在的空間。

      第二,我們又覺得,既然幻覺沒法根治,那它是不是就是AI的原罪,一個不可避免的詛咒?OpenAI說,也不是。幻覺不是不可避免的,前提是,AI得學會認慫。只要它在不確定的時候,選擇說我不知道,而不是硬著頭皮瞎蒙,幻覺就可以被控制。

      第三,我們還覺得,AI越大越聰明,就越不容易犯錯。OpenAI說,恰恰相反,有時候,小模型反而更誠實。他們舉了個例子,你問一個只會說英語的小模型,一個毛利語的問題,它會很干脆地告訴你,我不會。但你問一個學了點毛利語但學得半生不熟的大模型,它反而要開始糾結,要不要猜一下?知道自己的無知,有時候比擁有知識更重要。

      最后,也是最關鍵的一點。我們以為,解決幻覺問題,只需要一個更牛逼的、專門測試幻覺的工具就行了。OpenAI說,這完全是沒吊用。真正的問題,不是缺少一個好的幻覺測試,而是我們現在用的那幾百個主流評估的指標,全都在獎勵瞎蒙,懲罰誠實。只要這個大環境不變,幻覺就永遠是AI的最優解。

      現在,我們從OpenAI這里,知道了,幻覺,不是一個簡單的技術問題,它是一個系統性的、由我們自己親手造成的激勵問題。

      但它也引出了一個更讓我著迷的,沒有答案的,問題。

      如果說,AI的幻覺,源于它在信息不足時的一種創造性猜測。那我們人類的想象力,我們那些天馬行空的故事、藝術、神話,它們的起源,又是什么呢?

      幻覺,真的需要解決嗎?

      我想了很久,我覺得,也想跟大家,分享一下我自己的想法。

      這事兒,我覺得得從更古老的尺度說起。

      幾十萬年前,我們的祖先,智人,也生活在一個信息極度匱乏的世界里。

      一陣突如其來的狂風,吹倒了部落里的大樹,這是為什么?他們不知道。

      一道閃電,劈開夜空,點燃了草原,這又是什么?他們也不知道。

      面對這些無法解釋的自然現象,他們的大腦,和今天的AI一樣,也面臨著一道道知識儲備不足的判斷題。

      而我們的祖先,沒有選擇沉默。

      他們也開始了瞎蒙。

      他們猜,狂風的背后,是不是有一個憤怒的神明?他們猜,閃電的背后,是不是有一條飛舞在云端的巨龍?

      你看,這就是神話的起源。

      神話,就是我們人類這個物種,在面對一個充滿未知和不確定性的世界時,為了給那些無法解釋的現象,尋找一個合理的解釋,而集體編造出來的、最古老、也最壯麗的。

      幻覺。

      這種幻覺能力,在當時,可能并沒有什么實際的用處,它不能幫你打到更多的獵物,也不能幫你躲避更兇猛的野獸。

      但它帶來了一樣東西,一樣其他所有動物,都不具備的東西:

      一個共同的想象,一個共同的故事。

      一只貓,一條魚,它們也會有幻覺嗎?

      從生物學的角度,我覺得可能會。

      一只貓,可能會把地上的影子,當成一只老鼠,然后撲上去。一條魚,可能會把閃亮的魚鉤,當成一條小蝦。這是一種基于感官信息的誤判,一種低級的、個體的幻覺。

      但它們,永遠也想象不出一個貓神或者魚神的故事。

      因為它們的大腦,被牢牢地鎖死在了真實的世界里,它們只能處理那些看得見、摸得著的、和生存直接相關的信息。

      而人類,可能是地球上唯一一個,能為了一個看不見摸不著的故事,去生,去死,去戰斗的物種。

      我們能組織起幾千人,去建造一座金字塔,不是因為我們每個人都親眼見到了法老死后會變成神,而是因為我們都相信同一個法老會變成神的故事。

      我們能建立起國家、法律、公司,這些看似堅不可摧的龐然大物,它們的底層,全都是我們共同相信的一個個,幻覺。

      從這個角度看,幻覺,或者說,這種在信息不足時,進行創造性猜測并將其故事化的能力,根本不是bug。

      它是把我們從普通動物,變成人類的那段詩句。

      它是我們所有文明、所有藝術、所有科學的起點。

      哥白尼提出日心說,在當時那個時代,不也是一種離經叛道的幻覺嗎?愛因斯坦提出相對論,那個能讓時間變慢、空間彎曲的理論,不也是源于一個少年躺在草地上,幻想自己追著光跑的幻覺嗎?

      我們之所以比其他所有生物都更強大,不是因為我們更尊重事實。

      恰恰相反,是因為我們更擅長,創造那些超越事實的故事。

      現在,我們再回頭看AI的幻覺。

      我們一直在努力修復的那個東西,可能恰恰是AI身上,最像人的東西。

      我當然不希望AI在一個嚴肅的醫療診斷里產生幻覺,我們也不希望它在一個關鍵的財務分析里胡說八道,在這些需要絕對真實的領域,我們需要的是一個沒有感情、絕對可靠的工具。

      但是,在一個需要創造力、需要想象力的領域呢?

      當我們要求AI去寫一首詩,去畫一幅畫,去構思一個科幻故事時,我們真正想要的,難道不就是它那種,能掙脫事實的枷鎖,在信息的縫隙里,進行自由聯想和創造性猜測的能力嗎?

      在大量的討論中,幻覺一詞,好像一直是一個矛盾。

      我們一邊渴望AI成為一個絕對忠誠、絕對正確的工具,一個不會犯錯的仆人,幫我們處理現實世界里所有需要精確計算的難題。

      但我們又渴望它能成為一個能理解我們、甚至超越我們的同類。

      我們希望它能和我們一起,去仰望星空,去聊那些沒有標準答案的話題,去共同編織那些屬于未來的、新的神話。

      我們似乎在試圖創造一個不可能的物種:

      一個既擁有機器的嚴謹,又擁有人類的浪漫,一個既能堅守事實,又能創造幻覺的矛盾體。

      我們生活在一個由數據和算法定義的前所未有的真實世界里,我們,也比歷史上任何一個時代的人,都更崇拜事實,更依賴邏輯。

      但同時,我一直覺得,我們又可能,是歷史上最孤獨的一個時代。

      我們的神話已經遠去,我們的史詩已經譜完。

      在這樣一個一切都被解釋得清清楚楚的世界里,我自己內心那種最古老的、對故事的渴望,對意義的追尋,反而一直,變得空前強烈。

      我到底想要一個什么樣的未來?一個所有問題都有標準答案的、絕對真實、但可能也絕對無趣的未來?還是一個依然充滿了未知、充滿了誤讀、但因此也充滿了故事和想象力的未來?

      這個問題過于宏大了,我沒有答案。

      但是我始終喜歡、并相信。

      那個最美麗的,又創造了整個文明的。

      幻覺。

      以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

      >/ 作者:卡茲克

      >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中組部:公職人員退休后未經批準經商(包括當律師)的,不再保留黨政機關退休金等待遇

      中組部:公職人員退休后未經批準經商(包括當律師)的,不再保留黨政機關退休金等待遇

      新浪財經
      2025-11-18 12:46:38
      柬埔寨“優秀企業家” 陳志必須死,手上10個電詐園的鍋他必須背

      柬埔寨“優秀企業家” 陳志必須死,手上10個電詐園的鍋他必須背

      我心縱橫天地間
      2025-10-28 16:54:17
      下午3點,U15東亞杯收官戰,中國隊vs香港,力爭3分,拒絕墊底!

      下午3點,U15東亞杯收官戰,中國隊vs香港,力爭3分,拒絕墊底!

      大秦壁虎白話體育
      2025-12-21 14:46:56
      “年度盤點”:普京居然嘲諷澤連斯基膽小,不和諧提問被刪除

      “年度盤點”:普京居然嘲諷澤連斯基膽小,不和諧提問被刪除

      鷹眼Defence
      2025-12-20 16:07:51
      瑞士研究發現:高血糖可以吃的糧食排名,不知道的患者虧哭了

      瑞士研究發現:高血糖可以吃的糧食排名,不知道的患者虧哭了

      健康之光
      2025-12-20 06:30:06
      28年前直播香港回歸4位主持人,2人去世1人墮落,僅一人順利退休

      28年前直播香港回歸4位主持人,2人去世1人墮落,僅一人順利退休

      小熊侃史
      2025-12-19 11:04:51
      許世友當面怒問李德生:你有啥可驕傲的?李德生:等你這把火燒完

      許世友當面怒問李德生:你有啥可驕傲的?李德生:等你這把火燒完

      清風品歷史
      2025-12-21 13:55:56
      3倍牛股!液冷龍頭逼近千億

      3倍牛股!液冷龍頭逼近千億

      格隆匯
      2025-12-21 15:35:14
      朝鮮最高領導人金正恩:音響一定要最響的

      朝鮮最高領導人金正恩:音響一定要最響的

      微微熱評
      2025-12-21 00:17:11
      臺灣歌手鄭智化回應輿論風波:“文明跟野蠻永遠沒有辦法溝通”

      臺灣歌手鄭智化回應輿論風波:“文明跟野蠻永遠沒有辦法溝通”

      總在茶余后
      2025-12-20 00:10:24
      國乒年度獎金排行:王藝迪121萬,蒯曼第5,王曼昱第3,孫穎莎第2

      國乒年度獎金排行:王藝迪121萬,蒯曼第5,王曼昱第3,孫穎莎第2

      娛說瑜悅
      2025-12-20 19:22:31
      大陸對賴清德冠以極高稱謂,國民黨高層秒懂,臺專家:賴清德完了

      大陸對賴清德冠以極高稱謂,國民黨高層秒懂,臺專家:賴清德完了

      感謝過往的自己
      2025-12-20 21:57:41
      越南首條高鐵正式開工,為啥棄用中國技術,選用德國方案

      越南首條高鐵正式開工,為啥棄用中國技術,選用德國方案

      虎哥閑聊
      2025-12-20 09:33:34
      張韶涵回應裁員裁到大動脈,現場介紹造型師:你不是被開除了嗎

      張韶涵回應裁員裁到大動脈,現場介紹造型師:你不是被開除了嗎

      大眼瞄世界
      2025-12-21 14:18:07
      30年果粉兌換禮品卡后被封號:用了25年的Apple ID被永久停用

      30年果粉兌換禮品卡后被封號:用了25年的Apple ID被永久停用

      快科技
      2025-12-19 14:26:06
      大結局來了?仁愛礁周邊被清空,中國拖船已就位,菲律賓別無選擇

      大結局來了?仁愛礁周邊被清空,中國拖船已就位,菲律賓別無選擇

      小莜讀史
      2025-12-20 14:18:17
      拿600萬!4中0就得1分,北京揪出最大軟蛋,他打的真差啊

      拿600萬!4中0就得1分,北京揪出最大軟蛋,他打的真差啊

      籃球專區
      2025-12-20 23:19:41
      對比下來 皮膚白的景甜、朱珠更漂亮 董潔吃虧就吃虧在長的黑了點

      對比下來 皮膚白的景甜、朱珠更漂亮 董潔吃虧就吃虧在長的黑了點

      手工制作阿殲
      2025-12-21 16:22:59
      哈佛大學研究:活過90歲的人29項共同特征

      哈佛大學研究:活過90歲的人29項共同特征

      尚曦讀史
      2025-12-06 08:27:08
      國民黨告五個親綠“大法官”瀆職,黃國昌:民眾黨全力支持聲援

      國民黨告五個親綠“大法官”瀆職,黃國昌:民眾黨全力支持聲援

      海峽導報社
      2025-12-21 16:32:07
      2025-12-21 18:03:00
      數字生命卡茲克 incentive-icons
      數字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      424文章數 489關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      美國外交系統現重大調整 約有24名駐外大使被要求離任

      頭條要聞

      美國外交系統現重大調整 約有24名駐外大使被要求離任

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      旅游
      數碼
      本地
      時尚
      親子

      旅游要聞

      冬至北海御苑暖意濃 非遺手作圈粉眾游客

      數碼要聞

      榮耀獵人游戲本開啟“先鋒獵手”招募計劃,可搶先體驗原型機

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風骨

      中年女人,冬天這么穿羽絨服、大衣,優雅都藏在這3個細節里

      親子要聞

      撕破臉了?53歲寧靜毫不掩飾,罵張柏芝的三胎全是“賠錢貨”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99在线免费视频| 欧美疯狂做受xxxx高潮小说| 婷婷亚洲综合五月天小说| 亚洲综合成人精品| www.黄色网址| 国产口爆| 久久男人av资源网站无码| 91蜜臀国产自产在线观看| 国产成人无码www免费视频播放| 亚洲人成人网| 国产在线啪| 日本成本人片免费网站| 口爆少妇在线视频免费观看| 中文字幕午夜福利片午夜福利片97 | 国产精品成人三级| 成人AV无码一区二区三区| 亚洲日本va午夜在线电影| 日韩AV高清在线看片| 中文字幕av一区| 国产av一区二区三区无码野战| 色噜噜狠狠色综合日日| 国产无套白浆一区二区| 玖玖av| 日日干日日日撸| 黑人巨大精品欧美一区二区免费| 鞍山市| 成人亚欧欧美激情在线观看| 风间由美性色一区二区三区| 亚洲中文人妻制服| 人妻精品国产一区二区| 男女羞羞| 人人做人人爽人人爱| 亚洲毛多水多男女| 日本夜爽爽一区二区三区| 亚洲国产精品久久一线不卡| 日韩全网av在线| 久久96热在精品国产高清| 成人在线亚洲| 亚州成人AⅤ| 日韩人妻一区二区三区蜜桃视频| 波多野结衣美乳人妻hd电影欧美|