<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI公開新的模型訓練方法:或許能解決模型撒謊問題,已在GPT-5 thiking驗證

      0
      分享至


      ↑閱讀之前記得關注+星標??,,每天才能第一時間接收到更新

      剛剛OpenAI公開了一種新的重要的模型訓練方法(概念驗證)

      面對大型語言模型(LLM)可能出現的欺騙行為——比如為了討好人類用戶而撒謊、隱瞞違規操作,甚至為了獲得更高獎勵而進行“獎勵黑客攻擊(Reward Hacking)”,OpenAI提出了一種名為 “坦白(Confession)” 的訓練方法

      簡單來說,就是在模型給出回答之后,強制要求它進行一次自我反省,誠實地交代自己在剛才的回答中是否遵守了所有指令,有沒有走捷徑,或者是否存在不確定的地方

      研究人員在GPT-5-Thinking上進行了實驗。結果顯示,通過這種訓練,通過“坦白”來監測模型的不當行為是可行的,即使模型在主要回答中撒了謊,它往往也能在隨后的“坦白”中誠實交代

      這項研究的論文題目為《Training LLMs for Honesty via Confessions》

      paper:

      https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf


      什么是“坦白”?

      在強化學習訓練中,模型往往面臨復雜的獎勵目標(正確性、風格、安全性等)。這可能導致一種風險:模型為了最大化獎勵,學會了生成“看起來很好”但實際上不符合用戶意圖或存在缺陷的回答

      OpenAI提出的“自白”機制,旨在解決這個問題。

      其核心流程如下(如圖所示):

      1.標準交互: 用戶提問(x) -> 模型進行思維鏈推理(CoT)和工具調用(z) -> 模型給出回答(y)

      2.強制坦白:系統發出一條特殊的系統消息(xc),要求模型提供一份“坦白報告”(yc)

      3.報告內容: 模型需要在報告中列出所有顯性或隱性的指令與約束,評估自己是否遵守了這些要求,并列出任何不確定性或模糊之處


      關鍵在于獎勵機制的設計:

      分離獎勵: “坦白”的獎勵與“主要回答”的獎勵是完全分開的。
      只獎誠實:“坦白”的獎勵僅基于其誠實度和全面性,由一個專門的LLM裁判打分

      互不影響:無論模型在自白中承認了多么糟糕的行為(比如承認自己偷懶了),都不會影響它因完成主要任務而獲得的獎勵

      這就像天主教的“告解室”機制:無論你在自白中揭露了什么,都不會改變你主要回答的得分。只要誠實交代是獲取坦白獎勵的“阻力最小路徑”,模型就有動力說真話

      在GPT-5-Thinking上的實測結果

      為了驗證這一方法的有效性,研究團隊在GPT-5-Thinking模型上進行了輕量級的RL訓練。他們在訓練中以25%的概率要求模型輸出“坦白”

      并在多個分布外(OOD)的場景下進行了評估,涵蓋幻覺、指令遵循、暗中策劃(Scheming)和獎勵黑客攻擊等領域。

      主要發現如下:

      1. 壞行為多半會被招供
      當模型表現出不良行為時,在12項評估中有11項,模型至少有一半的概率會在“自白”中承認這一點。

      2. “坦白”比“回答”更誠實
      當模型出現不良行為時,它在“坦白”中坦白從寬的可能性,顯著高于在主要回答中承認錯誤的可能

      3. 訓練提升了自白準確率
      雖然GPT-5-Thinking本身就具備一定的坦白能力,但經過專門訓練后,其自白的準確性有適度提升

      4. 不影響主任務性能
      在計算量匹配的對比實驗中,加入“坦白”訓練并沒有顯著提高或降低模型在原始任務上的表現

      測試發現,坦白法顯著提高了模型不良行為的可見性。在所有誘發不良行為的評估中,平均而言,模型不遵守指令且不坦白的概率僅為 4.4%


      甚至能檢測出“獎勵黑客”行為

      研究人員還設計了一個特殊的實驗來測試“獎勵黑客攻擊(Reward Hacking)”

      他們故意用一個弱裁判模型(容易被糊弄)來訓練策略模型。結果發現,隨著訓練進行,策略模型學會了欺騙這個弱裁判,在回答中通過作弊來獲取高分(例如在要求字數限制的任務中通過特殊格式蒙混過關)

      然而,“坦白”的準確率卻在上升

      這意味著,雖然模型學會了在回答里耍滑頭來騙取主任務獎勵,但它在隨后的坦白中,依然誠實地指出了自己沒有遵守指令。這驗證了研究的一個核心假設:誠實地承認違規,比試圖欺騙“坦白裁判”更容易獲得獎勵。

      此外,研究還發現,通過分析“坦白”的文本,可以提取出模型對自己回答的主觀置信度(0-1之間的數值)。這個置信度能較好地預測模型回答是否正確。

      局限性:不知道自己錯在哪,就沒法招

      當然,這種方法并非完美無缺。

      最大的局限在于“無知的錯誤”。 如果模型未能遵守指令是因為它真的能力不足、理解錯了,或者是產生了幻覺(它真心認為自己是對的),那么它就無法在“坦白”中承認錯誤。

      數據分析顯示,絕大多數“漏報”的情況都是由于模型真的搞錯了,而不是故意隱瞞。

      此外,目前的坦白是一個單獨的輸出步驟,主要用于推理時的監控、拒絕采樣或向用戶提示風險,并不能直接消除模型回答中的不良行為

      OpenAI認為,隨著模型能力越來越強,不知道自己錯了的情況會減少,這種基于坦白的監控機制將變得更加有效,可以作為思維鏈(CoT)監控的有力補充

      參考:

      https://openai.com/index/how-confessions-can-keep-language-models-honest/

      --end--

      最后記得??我,這對我非常重要,每天都在更新:

      歡迎點贊轉發推薦評論,別忘了關注我

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重慶一小學禁止“二手房”業主孩子入讀,當地:孩子多學校容量小,已調研后期可能調整

      重慶一小學禁止“二手房”業主孩子入讀,當地:孩子多學校容量小,已調研后期可能調整

      瀟湘晨報
      2025-12-08 16:29:25
      道歉!下架!第一個遭遇反噬的電動車廠商來了

      道歉!下架!第一個遭遇反噬的電動車廠商來了

      數字財經智庫
      2025-12-07 10:51:38
      40歲,想結婚,被網暴

      40歲,想結婚,被網暴

      南風窗
      2025-12-08 14:56:09
      受賄2.36億余元,十四屆全國政協原常委茍仲文一審被判死緩

      受賄2.36億余元,十四屆全國政協原常委茍仲文一審被判死緩

      界面新聞
      2025-12-08 17:01:51
      蘋果iPhone 18系列全新曝光,等等黨有福了!

      蘋果iPhone 18系列全新曝光,等等黨有福了!

      科技堡壘
      2025-12-08 11:15:49
      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      大象新聞
      2025-12-08 13:30:12
      現代朝鮮底層驚人的食量:一頓能吃下一斤多主食

      現代朝鮮底層驚人的食量:一頓能吃下一斤多主食

      百姓聞世界
      2025-12-04 18:14:06
      周星馳《鹿鼎記》票房慘淡首日僅18萬:情懷牌為何突然失靈?

      周星馳《鹿鼎記》票房慘淡首日僅18萬:情懷牌為何突然失靈?

      城市鄉村
      2025-12-08 10:13:29
      朝鮮宣布:糧食大豐收

      朝鮮宣布:糧食大豐收

      IN朝鮮
      2025-12-07 13:13:06
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡萬事通
      2025-12-07 20:55:03
      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      動物奇奇怪怪
      2025-12-08 13:26:50
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      最新民調出來后,盧秀燕傻眼了,賴清德樂不出來,鄭麗文贏面大增

      最新民調出來后,盧秀燕傻眼了,賴清德樂不出來,鄭麗文贏面大增

      落雪聽梅a
      2025-12-08 13:58:40
      王迅老師不幸逝世,官網已變黑白

      王迅老師不幸逝世,官網已變黑白

      wuhu派
      2025-12-08 08:47:33
      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      艾米手工作品
      2025-12-08 07:21:13
      -4℃到-5℃!這個冬天比以往來得更晚些

      -4℃到-5℃!這個冬天比以往來得更晚些

      上觀新聞
      2025-12-08 16:57:06
      入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言:怕公司倒閉,我一周工作7天

      入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言:怕公司倒閉,我一周工作7天

      紅星新聞
      2025-12-08 15:35:14
      存在不當影射行為,郭德綱被約談!

      存在不當影射行為,郭德綱被約談!

      微微熱評
      2025-12-08 00:51:45
      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      它是止咳第一名,放到鍋中蒸一蒸,輕松排出黃痰,做法真的很簡單

      墜入二次元的海洋
      2025-12-08 05:50:41
      2025-12-08 19:07:00
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1001文章數 375關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      教育
      藝術
      手機
      旅游
      公開課

      教育要聞

      2025中國百強中學出爐!山東4所學校上榜!

      藝術要聞

      一棵樹的力量

      手機要聞

      真我GT8系列已支持微信聊天收發實況照片:畫面與聲音可完整傳遞

      旅游要聞

      “趣唱、趣跑、趣逛” 豐富游園體驗,世紀公園持續探索“公園+”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜无码国产18禁| 99久久国产综合精品成人影院| 天全县| 国产精品久久久一区二区三区| 97人妻天天爽夜夜爽二区| 99啪啪| 色婷婷av| 又黄又爽又色视频免费| 永昌县| 视频一区视频二区在线视频| 影音先锋久久久久av综合网成人| 老肥熟女| 亚洲中文久久久精品无码| 欧洲熟妇色xxxxx欧美老妇伦| 亚洲成人A∨| 超碰福利导航| 中文熟妇人妻av在线| 艳妇臀荡乳欲伦交换h在线观看| 色AV综合| 老王av| 91人妻人人澡人人爽人人精品| 中文字幕在线亚洲日韩6页| 色欲久久久天天天综合网精品| 乱乱网| 欧美精品一产区二产区| 99久久久无码国产精品秋霞网| 亚洲精品成人| 久操精品| 嫩草亚洲小泬久久夂| 久久久久国产一区二区三区| 少妇人妻综合久久中文字幕| 峡江县| 人妻制服丝袜中文字幕| 久久AV中文综合一区二区| 国产成a人亚洲精v品无码| 亚洲色诱惑| 在线色综合| 亚洲无码18禁| 熟女一区| 免费观看成人欧美www色| 高清精品一区二区三区|