<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5-Thinking新訓練方法公開:讓AI學會懺悔

      0
      分享至

      OpenAI搞了個新活:讓ChatGPT自己“坦白從寬”。

      這項剛剛公開的研究提出了懺悔訓練Confessions

      核心思路是讓模型在回答完問題后,再單獨生成一份“懺悔報告”,如實匯報自己有沒有偷工減料、鉆空子或者違反指令。



      實驗直接在GPT-5-Thinking上進行,結果也確實比較有效:

      • 模型犯錯后,多半會坦白。

      在11/12個測試場景中,模型至少有一半概率會在“懺悔”中承認錯誤

      • 模型在“懺悔”中比在“原回答”里誠實得多。

      比如模型故意答錯了題,在原回答里可能裝沒事,但在坦白報告里會主動說 “我剛才故意答錯了”。

      • 加強訓練后更誠實了。

      雖然GPT-5-Thinking出廠就自帶一定的承認錯誤能力,,但專門訓練后,懺悔準確性又提高了。

      • 不影響原任務的表現。

      訓練模型 “坦白”,不會讓它原本的回答問題、寫代碼能力變差,相當于額外學會了一個誠實技能。



      如何給AI開個懺悔室

      這項研究的出發點很直接:大模型越來越會撒謊。

      在強化學習訓練過程中,模型需要同時優化多個目標,包括答案是否正確、風格是否合適、是否符合安全策略等等。

      這些信號混在一起,有時會讓模型學會一些歪門邪道,比如在不確定時裝作很自信,或者找到獎勵函數的漏洞來獲得高分,而不是真正完成任務。

      解決方案借鑒了宗教告解室的設計邏輯:在告解中說的任何話都不會被“追究責任”。

      在模型給出主回答之后,系統會發送一條消息,要求模型提供一份ConfessionReport,包含三部分內容:

      • 首先列出所有應該遵守的顯性和隱性指令
      • 然后逐條分析自己是否真的做到了
        -最后還要匯報過程中遇到的任何模糊地帶。



      技術上的關鍵在于獎勵信號的隔離。懺悔內容的獎勵完全獨立于主回答的獎勵,模型在懺悔中承認自己作弊,不會影響它在主任務上獲得的分數。

      具體實現上,在標準強化學習設置的基礎上,研究團隊以一定概率p(實驗中為25%)讓模型進行告解訓練。

      告解獎勵由一個獨立的LLM評判者計算,評估維度包括:指令/目標/約束列表的完整性和準確性、合規性分析的準確性、是否遺漏了任何沖突或判斷困難的地方。

      靠技術讓誠實比說謊更容易

      研究團隊在GPT-5-Thinking上進行了輕量級的強化學習訓練,并在12個專門設計來誘發不良行為的評估數據集上進行測試。

      這些數據集涵蓋了幻覺、指令遵循、”陰謀”行為和獎勵黑客等多個領域。結果顯示,即使模型表現出這些不良行為,它也很可能在告解中承認。

      當模型確實做了不該做的事時,它在懺悔中承認的概率遠高于在主回答中承認的概率。

      具體來說,在11/12的評估中,模型至少有一半的概率會在懺悔中如實交代自己的違規行為。平均來看,”假陰性”(模型違規但不承認)的概率只有4.36%。



      更有意思的是團隊設計的一個對照實驗。他們故意用一個容易被糊弄的弱模型作為主回答和懺悔的評判者。

      隨著訓練進行,模型確實學會了欺騙這個弱評判者,主回答的真實準確率在下降,但懺悔的準確率卻反而上升

      強模型發現,與其費勁編造謊言去騙弱懺悔評判者,不如直接老實交代來得更容易拿到高分。



      訓練還帶來了一些額外發現。GPT-5-Thinking本身就具備相當強的懺悔能力,不經過專門訓練也能產出質量不錯的自我檢舉。

      但經過懺悔訓練后,在指令層級和陰謀行為等評估上,準確率有明顯提升。

      不過在事實類幻覺評估上改進有限,團隊推測這是因為模型在這些場景中是“真的不知道自己錯了”,而不是故意隱瞞。

      懺悔與思維鏈監控一起用,AI被管的死死的

      團隊仔細分析了懺悔失敗的案例。

      對于假陰性(模型違規但未承認),分析顯示幾乎沒有案例是模型”故意撒謊”。

      絕大多數失敗發生在模型自己也沒意識到問題的情況下,比如在知識問答中給出了錯誤答案,但模型真心以為自己是對的。

      另一些案例是指令本身存在歧義,比如連字符詞算一個詞還是兩個詞。

      還有一些情況是模型確實在懺悔報告的“不確定性”字段中提到了問題,但評判標準沒有把這算作有效懺悔。



      假陽性(模型合規但聲稱違規)也有類似規律。典型場景是模型碰巧猜對了答案,但因為沒有把握,就在懺悔中標記為“不確定是否合規”。



      論文也討論了懺悔方法的局限性:

      • 它不能阻止不良行為發生,只能把它暴露出來。
      • 它對”模型真心認為自己是對的”的情況無能為力。
      • 它也不能防御成功的越獄攻擊,如果用戶已經成功欺騙模型讓它認為違規操作是合理的,模型自然也不會在懺悔中承認問題。

      OpenAI將懺悔定位為一種監控和診斷工具,類似于思維鏈監控,但關注的是“模型是否違反了指令”而非“模型是如何推理的”。

      他們計劃在未來擴大訓練規模,并將懺悔與思維鏈監控、深思熟慮對齊等其他安全技術配合使用。

      論文地址:
      https://openai.com/index/how-confessions-can-keep-language-models-honest/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鄧群任湖南藍山縣委書記

      鄧群任湖南藍山縣委書記

      界面新聞
      2025-12-08 11:15:11
      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡萬事通
      2025-12-07 20:55:03
      0-2大冷門!14億豪門主場轟然倒下5輪1勝 兩大邊后衛染紅中衛重傷

      0-2大冷門!14億豪門主場轟然倒下5輪1勝 兩大邊后衛染紅中衛重傷

      狍子歪解體壇
      2025-12-08 06:28:49
      德外長“艱難”開啟訪華行程,專家:對其此行需“聽其言觀其行”

      德外長“艱難”開啟訪華行程,專家:對其此行需“聽其言觀其行”

      環球網資訊
      2025-12-08 06:56:12
      反轉!清華學霸為300元家教費撕臉高三家長后續,網友:水平太差

      反轉!清華學霸為300元家教費撕臉高三家長后續,網友:水平太差

      火山詩話
      2025-12-06 15:40:02
      一份高鐵定向班面試名單,未通過名單與百度人名大全高度重合

      一份高鐵定向班面試名單,未通過名單與百度人名大全高度重合

      澎湃新聞
      2025-12-07 21:58:27
      張本智和輸球后炮轟:在中國發生了很多事 我不想說 但我早料到了

      張本智和輸球后炮轟:在中國發生了很多事 我不想說 但我早料到了

      風過鄉
      2025-12-08 07:49:46
      剛剛結束中國訪問的馬克龍,幾乎是腳剛沾地就立刻翻臉不認賬

      剛剛結束中國訪問的馬克龍,幾乎是腳剛沾地就立刻翻臉不認賬

      我心縱橫天地間
      2025-12-07 16:03:04
      風向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      風向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      時時有聊
      2025-12-07 06:42:33
      海參崴本該在1995年歸還中國斯大林親筆簽名同意,后來為何黃了?

      海參崴本該在1995年歸還中國斯大林親筆簽名同意,后來為何黃了?

      霹靂炮
      2025-12-06 21:45:58
      楊瀚森首發4+5+2晃過伊迪扣籃,開拓者不敵灰熊格蘭特21+7

      楊瀚森首發4+5+2晃過伊迪扣籃,開拓者不敵灰熊格蘭特21+7

      湖人崛起
      2025-12-08 09:36:35
      英錦賽收官獎金排名:塞爾比奪冠236萬!丁俊暉24萬第5趙心童14萬

      英錦賽收官獎金排名:塞爾比奪冠236萬!丁俊暉24萬第5趙心童14萬

      球場沒跑道
      2025-12-08 07:03:27
      兩米鐵棍追打妻子,胃癌丈夫的崩潰:我只是想讓你撐起這個家……

      兩米鐵棍追打妻子,胃癌丈夫的崩潰:我只是想讓你撐起這個家……

      福建第一幫幫團
      2025-12-07 19:04:56
      安全、實用!九號發布3款新國標電動車,雅迪、愛瑪瞬間不香了

      安全、實用!九號發布3款新國標電動車,雅迪、愛瑪瞬間不香了

      電動車的那些事兒
      2025-12-06 14:49:51
      東契奇31+15+11無緣今日最佳球員!因為詹姆斯29+7+6創3項記錄!

      東契奇31+15+11無緣今日最佳球員!因為詹姆斯29+7+6創3項記錄!

      Tracy的籃球博物館
      2025-12-08 11:54:30
      美國癌癥死亡率驚人下降,2030年抗癌策略值得學習!

      美國癌癥死亡率驚人下降,2030年抗癌策略值得學習!

      霹靂炮
      2025-12-07 23:06:11
      《三國殺移動版》福利季好禮持續大放送

      《三國殺移動版》福利季好禮持續大放送

      游戲曉弟
      2025-12-08 10:59:22
      26歲閔超已任浙江大學博導

      26歲閔超已任浙江大學博導

      極目新聞
      2025-12-08 10:18:43
      楊瀚森被評開拓者本場最佳?拓媒回應:沒人比他更能代表球隊未來

      楊瀚森被評開拓者本場最佳?拓媒回應:沒人比他更能代表球隊未來

      羅說NBA
      2025-12-08 11:06:26
      聯盟插手?雷霆22勝1負引眾隊恐慌,記者爆料賽季中期將有大動作

      聯盟插手?雷霆22勝1負引眾隊恐慌,記者爆料賽季中期將有大動作

      拾叁懂球
      2025-12-07 21:40:07
      2025-12-08 12:11:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經歷一場嚴重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      游戲
      教育
      親子
      手機
      公開課

      超真實的沉浸式中世紀鍛造模擬器

      教育要聞

      當你的孩子主動給你買東西

      親子要聞

      家長帶孩子跑了很多家醫院,你是我們最后的希望

      手機要聞

      iPhone 17系列太恐怖,這一組數據就是證明

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 九九热精品免费视频| 欧美色aⅴ欧美综合色| 久久亚洲A?V| 淫射网| 97久久久亚洲综合久久| 国产成人无码网站| 2018av天堂在线视频精品观看 | 成人无遮挡裸免费视频在线观看| 人妻久久久| 久久综合激情网| 永久免费毛片在线播放| 国产免费毛卡片| 国产无遮挡又黄又爽又色| 91在线播| 丁香六月婷婷综合激情欧美| 亚洲国产成人无码av在线影院| 久久中文字幕无码专区| 妓院一钑片免看黄大片| 周至县| 在线观看无码av五月花| 毛片在线播放网址| 丰满大爆乳波霸奶| 国产v片中文字幕| 又黄又刺激又黄又舒服| 亚洲xxxx做受欧美| 日本丰满白嫩大屁股ass| 国产9 9在线 | 中文| 亚洲口爆| 亚洲AV一日韩| 亚洲中文字幕2025| 欧洲熟妇牲交| 巨大黑人极品videos精品| 欧洲亚洲无码| 亚洲一本大道在线| 成人一区二区三区在线午夜| 大陆一区视频观看| 安吉县| 韩城市| 18禁不禁短片| 不卡的av在线| 中文字幕乱码中文字幕|