<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI的新論文,為什么被業內嘲諷是營銷?

      0
      分享至



      近期,OpenAI 發布了一篇新論文《 Why Language Models Hallucinate 》,指出當前大模型幻覺的主要來源,引發了廣泛關注。

      他們給出了一個簡潔卻顛覆性的解釋:大模型之所以出現幻覺,并非由于模型架構的失靈,而是當前技術社區的訓練與評測機制傾向于獎勵猜測,并且懲罰承認不確定的行為,迫使模型在高度不確定時,也傾向猜測性作答以博取準確率分數。

      換句話說,大多數評估基準采用一種 “ 應試考試 ” 的方式,迫使大語言模型成為 “ 應試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個甚至蒙一個,這樣在概率上也比不答分數高。

      預訓練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒有在這個過程中接觸任何拒絕回答的示例,所以自然學不會這種拒絕回答的行為。

      OpenAI 拿自家模型舉了一個例子,在 SimpleQA 基準中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準確率略高( 22% vs. 24% ),但也有高得多的錯誤率( 75% vs. 26% ),因為它更少 “ 棄答 ”。



      OpenAI據此主張:在往后的評估基準中,應對高自信的錯誤施以懲罰,并為恰當的不確定表達給出適當分數,使激勵從 “ 大膽猜 ” 轉向 “ 知之為知之 ”,改變主流排行榜長期以 “ 準確率 ” 一項稱王的局面。

      可以說,這篇研究是在把 “ 幻覺 ” 從工程缺陷轉化為技術社區的 “ 激勵設計 ” 問題。

      如果真的往這個方向發展,以后真正值得關注的,將不再是誰的準確率小幅上漲,而是誰愿意重寫評測與產品規則,讓模型在不確定時自然地說:“ 我不知道 ”。

      技術社區對該話題討論熱烈,其中對論文的詬病也不少。

      有人認為這篇論文既不新穎,水平也不高,即相關研究早已經出現,并且這篇論文的技術水平更像是初級研究人員寫出來的。

      紐約大學數據中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷,而不是研究。



      有人指出,問題的核心其實在于,幻覺的概念實際上到現在為止都還沒有被嚴格地定義。

      雖然已有不少研究指出了幻覺的可能原因,例如模型過度自信、解碼隨機性、滾雪球效應、長尾訓練樣本、誤導性對齊訓練、虛假相關性、曝光偏差、逆轉詛咒以及上下文劫持等,但這些方法毋寧說是一種幻覺的分類。

      幻覺的本質,或許可以用一個很簡單的例子來說明。

      以機器學習中的曲線擬合為例,假設下圖的數據點是被用于訓練的事實,我們需要擬合一條曲線來對數據進行回歸,使其能夠準確地預測新數據。這條曲線,代表的就是模型。



      圖源:網絡

      嚴格意義上來講,不存在唯一正確的模型。因為每一種模型都具備不同的擬合度和泛化性,也都有各自的適用場景。

      比如上圖中最右邊的復雜曲線擬合度更強甚至過擬合( 訓練數據準確率高 ),但泛化性弱( 測試數據準確率低 );最左邊的簡單曲線擬合度更弱甚至欠擬合( 訓練數據準確率低 ),但泛化性強( 測試數據準確率高 )。

      不同曲線,可以生成不同的新數據。而任何曲線,生成的不同于訓練數據的新數據,都有可能是錯的,也就是都有可能是幻覺。至于幻覺的確認,原則是只能與現實進行直接對比校驗,其它方式都是間接性的。

      而且,機器學習或大語言模型其實都不擅長分布外泛化,也就是其泛化能力更多是在已有觀測點的范圍內估計未知值。

      近期的理論研究比如 2024 年發表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無效輸出 )和廣度( 生成多樣化、語言豐富的內容 )之間的內在權衡。這些研究表明,對于廣泛的語言類別,任何在其訓練數據之外進行泛化的模型,要么會產生幻覺,要么會遭遇模式崩潰,無法生成所有有效的響應。

      所以,如果保證訓練數據和測試數據( 或實際應用數據 )在大致相同的數據分布范圍內,并且模型是過擬合的,基本能保證很低的錯誤率或幻覺率。

      假設 “ 低幻覺 ” 大模型發展成了這個樣子,那其實它基本上就是更高效地串聯已知事實點、知識點的自然語言搜索引擎而已。

      這會是OpenAI希望的結果嗎?我們假設是,然后繼續推測一下。

      回過頭看《 Why Language Models Hallucinate 》這篇論文,幻覺表現方面,OpenAI 指出,大模型在拼寫和括號等細節基本不會出錯,但在低頻任意事實上很容易出錯。

      他們引用了一個有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓練數據沒有錯誤,產生幻覺的概率也接近于訓練數據中恰好出現一次的事實的比例( “ Good-Turing ” 估計 )。相比之下,大型語言模型很少會在經常引用的事實上出錯,例如愛因斯坦的生日或論文標題。

      并且,該論文還指出,沒有統計學理由表明預訓練會導致對訓練數據中可能出現多次的事實( 例如對文章、書籍的引用 )或系統性事實( 例如算術計算 )產生幻覺。

      所以,盡管這個自然語言搜索引擎很死板,但在使用時,對于查詢提示詞的拼寫、標點符號、語言表達習慣等還是能做出靈活的響應,并且對于人類多次引用或應用的知識、事實,基本能保證準確。如果是涉及單次出現的事實,則很可能出錯,這時候大模型會選擇拒絕回答。

      這樣的大模型自然會變得很安全、可靠。對于 AI Agent 產品的構建或企業 AI( 企業 AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因為要發揮AI Agent 的最大限度的能力,首先要保證低幻覺,避免錯誤累積的乘積效應。

      而且,企業數據通常領域獨立、長尾、稀疏,訓練出來的大模型潛在的幻覺點會很多,增加拒答率,其實類似于在代碼里增加了 Bug 日志,可以幫助企業更好地優化模型。

      但另一方面,我們能信任這個死板的自然語言搜索引擎的泛化能力嗎?也就是應對實際新問題的能力?

      當然,這只是一種對 OpenAI 描繪的設想在經典概念上的理解。對于泛化能力這一部分,其實目前沒有很好的量化方法。

      這個 “ 低幻覺 ” 大模型將不會只能解決已知場景下的問題。至于在解決一個具體問題時,是否保證準確,還是需要一些間接指標來判斷。

      當前并沒有很好地自動化檢測幻覺的方法,很多復雜的檢測方法,甚至只和分析響應長度方法效果相當。

      最簡單粗暴的方法,就是讓 LLM 生成多個獨立答案,然后比較這些答案的一致性,但計算成本高昂,因為每個查詢都需要生成多個答案。

      后續研究則在這個基礎上,利用多個答案之間的重復部分的緩存來節省計算成本。另一些方法則是比較不同模型對同一個查詢的輸出差異來分析幻覺。

      目前可能最高效的方法,是在推理過程中,一邊推理,一邊計算模型內部的置信度信號,在推理過程中或推理結束后動態過濾掉低質量的推理路徑。該方法無需額外的模型訓練或超參數調整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開源模型在 AIME 2025 達到了 99.9% 的 “ @512 準確率 ”( Best-of-512 sampling ),生成的文本長度也比全并行推理方法減少了 84.7% 。



      圖源:DEEP THINK WITH CONFIDENCE

      置信度是非常典型的度量大模型自信程度的信號,這也是 OpenAI 指出的大模型拒絕回答時的依據。

      如何理解置信度呢?簡單來說,有一種簡單的定義是,大模型推理生成下一個 token 時,下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個 token 的概率分布就比較符合高置信度的特點。



      圖源:網絡

      客觀來講,關于置信度的相關研究確實已經出現,而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個獨立答案再分析一致性的方式,也是一種度量置信度的方法。

      甚至,你可以直接讓大模型在輸出時,附加一句 “ 我有約80%的把握 ” 之類的話,或使用詞語如 “ 可能 ”、“ 不確定 ”來表達置信度。這就有點 “ 玄學 ” 的味道了,但確實實驗統計上有效。論文《 Just Ask for Calibration 》通過實驗發現,在提示詞中加入不確定性表達,可以顯著提高 GPT-3 答案的準確性和模型校準度。

      OpenAI 這篇論文的創新之處不在于提出的方法,更像是一種面向大模型技術社區的倡議,如果社區集體能夠認同其觀點,后續大模型將會朝著不鼓勵猜測答案的方向發展。

      在論文中,OpenAI 也確實指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會技術緩解措施來解決 ”。

      而作為大模型時代的奠基者,OpenAI 確實具備這樣的號召力。

      那么,OpenAI 如此倡導,背后有沒有更深層次的理由?

      結合 GPT-5 的低幻覺招牌,低幻覺率對 AI Agent、企業AI的重要性,企業數據的稀疏性,以及 OpenAI 近期的關鍵舉措,包括收購并合并 io Products 推進硬件布局、成立 “ 應用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

      只能猜測,OpenAI 希望社區認可 GPT-5的 成就,強調 GPT-5 或后續模型( 如果有的話 )對AI Agent、企業應用的優勢所在

      以及,他們自己也要認真做應用了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      太平天國最大貢獻:一場14年的“外科手術”,掏空清廷統治根基

      太平天國最大貢獻:一場14年的“外科手術”,掏空清廷統治根基

      遠方風林
      2025-12-18 23:49:15
      供電局提醒:這四種家電無需拔插頭,盲目斷電反而電費翻倍

      供電局提醒:這四種家電無需拔插頭,盲目斷電反而電費翻倍

      輝哥說動漫
      2025-12-19 14:37:51
      2026元旦起,老年證退休!身份證=7大優待通票,異地也能無縫用

      2026元旦起,老年證退休!身份證=7大優待通票,異地也能無縫用

      金哥說新能源車
      2025-12-21 00:58:30
      華為誕生新一代降價王,12GB+512GB跳水5200元,進入清倉倒計時

      華為誕生新一代降價王,12GB+512GB跳水5200元,進入清倉倒計時

      科技阿維
      2025-12-20 18:57:39
      包銀高鐵將于12月23日全線開通

      包銀高鐵將于12月23日全線開通

      環球網資訊
      2025-12-20 14:38:50
      周星馳的《功夫》中,病怏怏的琛哥為什么能當上斧頭幫的老大?

      周星馳的《功夫》中,病怏怏的琛哥為什么能當上斧頭幫的老大?

      殺死虛無主義
      2025-12-20 07:37:33
      俄體操冠軍卡巴耶娃:與普京傳17年緋聞,三孩生父成謎

      俄體操冠軍卡巴耶娃:與普京傳17年緋聞,三孩生父成謎

      孫縭北漂拍客
      2025-12-20 19:16:21
      南博事件升級!關鍵人物挖出,徐前院長使出“苦肉計”確實尷尬…

      南博事件升級!關鍵人物挖出,徐前院長使出“苦肉計”確實尷尬…

      火山詩話
      2025-12-20 16:28:41
      內馬爾:我們會盡全力把世界杯帶回巴西,若進決賽我保證會進球

      內馬爾:我們會盡全力把世界杯帶回巴西,若進決賽我保證會進球

      懂球帝
      2025-12-21 11:11:09
      打麻將十打九勝的秘訣,掌握這些小技巧,贏牌簡直是易如反掌!

      打麻將十打九勝的秘訣,掌握這些小技巧,贏牌簡直是易如反掌!

      洞鑒歷史
      2024-03-08 15:03:16
      為什么中國赴日游客還在增長?

      為什么中國赴日游客還在增長?

      知酷文旅
      2025-12-18 17:49:43
      今日冬至是“忌日”,牢記:1不做、2不搬、3不看、4要吃,有講究

      今日冬至是“忌日”,牢記:1不做、2不搬、3不看、4要吃,有講究

      阿龍美食記
      2025-12-21 02:58:18
      細思極恐!一份90年代報紙的報道,又暴露出南博的“習慣性借出”

      細思極恐!一份90年代報紙的報道,又暴露出南博的“習慣性借出”

      火山詩話
      2025-12-20 06:43:20
      120多萬的卡宴只要60多萬?很多網友激動了!打飛的到海南買進口車,可行嗎?

      120多萬的卡宴只要60多萬?很多網友激動了!打飛的到海南買進口車,可行嗎?

      都市快報橙柿互動
      2025-12-19 18:00:00
      大爆發!快船15分領先湖人:哈登復出10+5,萊昂納德對飆詹姆斯

      大爆發!快船15分領先湖人:哈登復出10+5,萊昂納德對飆詹姆斯

      體壇小李
      2025-12-21 12:43:34
      為什么感覺美國在走向衰落?那是因為你是中國人

      為什么感覺美國在走向衰落?那是因為你是中國人

      扶蘇聊歷史
      2025-12-19 10:02:54
      降息50基點!剛剛,集體宣布!

      降息50基點!剛剛,集體宣布!

      證券時報
      2025-12-20 19:40:06
      朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區已淪陷

      朱孝天嫉妒心藏不住了!公開嘲諷阿信“又老又丑”,評論區已淪陷

      楓塵余往逝
      2025-12-20 20:24:53
      官宣!廣東史上最長高鐵,明天正式通車...

      官宣!廣東史上最長高鐵,明天正式通車...

      深圳好玩
      2025-12-21 10:11:51
      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      帶你感受人間冷暖
      2025-11-26 00:10:06
      2025-12-21 14:31:00
      知危 incentive-icons
      知危
      投資不立危墻之下
      512文章數 1828關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      母親被父親刺28刀死亡 11歲兒子因給父親開門深深自責

      頭條要聞

      母親被父親刺28刀死亡 11歲兒子因給父親開門深深自責

      體育要聞

      送快船西部墊底!鵜鶘大勝步行者獲4連勝

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      親子
      時尚
      家居
      數碼
      本地

      親子要聞

      為什么說小男孩是地球上最難養的生物

      中年女人,冬天這么穿羽絨服、大衣,優雅都藏在這3個細節里

      家居要聞

      高端私宅 理想隱居圣地

      數碼要聞

      三年耐用性測試揭示:OLED電視可靠性明顯高于LCD

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風骨

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色欲网| 国产特级毛片aaaaaa| 中文字幕一区av97| 曰韩三级无码久久探| 人妻夜夜爽天天爽| 久久香蕉国产线熟妇人妻| 成人亚洲精品一区二区三区嫩花| 国产精品美女一区二区视频| 午夜天堂一区人妻| 亚洲成人av在线| 狠狠色狠狠综合久久| 亚洲精品一区二区三区蜜臀| 中文字幕亚洲二| 成在线人视频免费视频| 无码人妻精品一区二区中文| 超碰51| 国产SM重味一区二区三区| 国产91精选在线观看| 99re热视频这里只精品| 大色欧美| а√天堂8资源中文在线| 亚洲中文字幕av无码区| 亚洲制服丝袜在线 | 美女综合网| 多p在线观看| 亚洲国产色婷婷久久99精品91| 国产av剧情无码精品色午夜| 91人妻精| 亚洲成人AV在线| 亚洲精品综合| 国偷自产视频一区二区久| 欧美色日本| 国产精品午夜福利| 国产精品XXXX国产喷水| 成人做爰视频www网站小优视频| 亚洲成人A∨| 3p小视频| 三上悠亚精品一区二区久久| www国产亚洲精品久久麻豆| 人妻在线日韩免费视频| 男女性杂交内射女bbwxz|