<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<tr id="g6t3b"></tr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI公開新的模型訓練方法：或許能解決模型撒謊問題，已在GPT-5 thiking驗證

2025-12-04 10:52:50　來源: AI寒武紀

江蘇舉報

0

分享至

↑閱讀之前記得關注+星標??，，每天才能第一時間接收到更新

剛剛OpenAI公開了一種新的重要的模型訓練方法（概念驗證）

面對大型語言模型（LLM）可能出現的欺騙行為——比如為了討好人類用戶而撒謊、隱瞞違規操作，甚至為了獲得更高獎勵而進行“獎勵黑客攻擊（Reward Hacking）”，OpenAI提出了一種名為 “坦白（Confession）” 的訓練方法

簡單來說，就是在模型給出回答之后，強制要求它進行一次自我反省，誠實地交代自己在剛才的回答中是否遵守了所有指令，有沒有走捷徑，或者是否存在不確定的地方

研究人員在GPT-5-Thinking上進行了實驗。結果顯示，通過這種訓練，通過“坦白”來監測模型的不當行為是可行的，即使模型在主要回答中撒了謊，它往往也能在隨后的“坦白”中誠實交代

這項研究的論文題目為《Training LLMs for Honesty via Confessions》

paper：

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

什么是“坦白”？

在強化學習訓練中，模型往往面臨復雜的獎勵目標（正確性、風格、安全性等）。這可能導致一種風險：模型為了最大化獎勵，學會了生成“看起來很好”但實際上不符合用戶意圖或存在缺陷的回答

OpenAI提出的“自白”機制，旨在解決這個問題。

其核心流程如下（如圖所示）：

1.標準交互：用戶提問（x） -> 模型進行思維鏈推理（CoT）和工具調用（z） -> 模型給出回答（y）

2.強制坦白：系統發出一條特殊的系統消息（xc），要求模型提供一份“坦白報告”（yc）

3.報告內容：模型需要在報告中列出所有顯性或隱性的指令與約束，評估自己是否遵守了這些要求，并列出任何不確定性或模糊之處

關鍵在于獎勵機制的設計：

分離獎勵： “坦白”的獎勵與“主要回答”的獎勵是完全分開的。
只獎誠實：“坦白”的獎勵僅基于其誠實度和全面性，由一個專門的LLM裁判打分

互不影響：無論模型在自白中承認了多么糟糕的行為（比如承認自己偷懶了），都不會影響它因完成主要任務而獲得的獎勵

這就像天主教的“告解室”機制：無論你在自白中揭露了什么，都不會改變你主要回答的得分。只要誠實交代是獲取坦白獎勵的“阻力最小路徑”，模型就有動力說真話

在GPT-5-Thinking上的實測結果

為了驗證這一方法的有效性，研究團隊在GPT-5-Thinking模型上進行了輕量級的RL訓練。他們在訓練中以25%的概率要求模型輸出“坦白”

并在多個分布外（OOD）的場景下進行了評估，涵蓋幻覺、指令遵循、暗中策劃（Scheming）和獎勵黑客攻擊等領域。

主要發現如下：

1. 壞行為多半會被招供
當模型表現出不良行為時，在12項評估中有11項，模型至少有一半的概率會在“自白”中承認這一點。

2. “坦白”比“回答”更誠實
當模型出現不良行為時，它在“坦白”中坦白從寬的可能性，顯著高于在主要回答中承認錯誤的可能

3. 訓練提升了自白準確率
雖然GPT-5-Thinking本身就具備一定的坦白能力，但經過專門訓練后，其自白的準確性有適度提升

4. 不影響主任務性能
在計算量匹配的對比實驗中，加入“坦白”訓練并沒有顯著提高或降低模型在原始任務上的表現

測試發現，坦白法顯著提高了模型不良行為的可見性。在所有誘發不良行為的評估中，平均而言，模型不遵守指令且不坦白的概率僅為 4.4%

甚至能檢測出“獎勵黑客”行為

研究人員還設計了一個特殊的實驗來測試“獎勵黑客攻擊（Reward Hacking）”

他們故意用一個弱裁判模型（容易被糊弄）來訓練策略模型。結果發現，隨著訓練進行，策略模型學會了欺騙這個弱裁判，在回答中通過作弊來獲取高分（例如在要求字數限制的任務中通過特殊格式蒙混過關）

然而，“坦白”的準確率卻在上升。

這意味著，雖然模型學會了在回答里耍滑頭來騙取主任務獎勵，但它在隨后的坦白中，依然誠實地指出了自己沒有遵守指令。這驗證了研究的一個核心假設：誠實地承認違規，比試圖欺騙“坦白裁判”更容易獲得獎勵。

此外，研究還發現，通過分析“坦白”的文本，可以提取出模型對自己回答的主觀置信度（0-1之間的數值）。這個置信度能較好地預測模型回答是否正確。

局限性：不知道自己錯在哪，就沒法招

當然，這種方法并非完美無缺。

最大的局限在于“無知的錯誤”。 如果模型未能遵守指令是因為它真的能力不足、理解錯了，或者是產生了幻覺（它真心認為自己是對的），那么它就無法在“坦白”中承認錯誤。

數據分析顯示，絕大多數“漏報”的情況都是由于模型真的搞錯了，而不是故意隱瞞。

此外，目前的坦白是一個單獨的輸出步驟，主要用于推理時的監控、拒絕采樣或向用戶提示風險，并不能直接消除模型回答中的不良行為

OpenAI認為，隨著模型能力越來越強，不知道自己錯了的情況會減少，這種基于坦白的監控機制將變得更加有效，可以作為思維鏈（CoT）監控的有力補充

參考：

https://openai.com/index/how-confessions-can-keep-language-models-honest/

--end--

最后記得??我，這對我非常重要，每天都在更新：

歡迎點贊轉發推薦評論，別忘了關注我

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI推動大模型自我檢舉機制，讓AI主動坦承錯誤與作弊

DeepTech深科技 2025-12-08 15:05:21
0 跟貼 0
兩個LLM互相對線，推理起飛：康奈爾團隊發布大模型版類GAN訓練法

機器之心Pro 2025-12-08 16:16:12
0 跟貼 0

英偉達4B小模型擊敗GPT-5 Pro！成本僅1/36

量子位 2025-12-08 14:31:05
0 跟貼 0

華為新架構砍了Transformer大動脈！任意模型推理能力原地飆升

量子位 2025-12-06 21:41:29
0 跟貼 0
DeepSeek V3到V3.2的進化之路，一文看全

機器之心Pro 2025-12-08 14:07:45
0 跟貼 0

GPT-5.2要來了？通信ETF（515880）大漲超5%，光模塊占比超50%

每日經濟新聞 2025-12-08 10:22:06
0 跟貼 0

靠一臺電腦和3D打印機，80后男子在杭州車庫手搓機器人

環球網資訊 2025-12-07 21:06:10
230 跟貼 230
LaDi-WM模型大幅提升機器人操作策略的成功率和跨場景泛化能力

機器之心Pro 2025-08-18 16:45:46
0 跟貼 0

DeepSeek、Gemini誰更能提供情感支持？趣丸×北大來了波動態評估

機器之心Pro 2025-12-08 16:08:38
0 跟貼 0
滴普科技趙杰輝：從技術探索到場景實效，AI 穿越 “高山與大海” 的企業賦能路徑 | WISE2025 商業之王大會

36氪 2025-12-08 17:03:10
0 跟貼 0
GMI Cloud：出海是AI企業釋放產能、獲取新生的最佳途徑｜WISE 2025

36氪 2025-12-08 18:50:09
0 跟貼 0
未來醫生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
OpenAI被指欺詐？

機器之心Pro 2025-09-28 17:01:32
0 跟貼 0
ICLR 2026會好嗎？300篇投稿50篇含幻覺，引用example.com也過審

機器之心Pro 2025-12-08 18:40:59
0 跟貼 0
2025浦東國際人才港論壇-人工智能產業人才論壇成功舉辦

機器之心Pro 2025-12-08 18:34:59
0 跟貼 0
斯坦福最火CS課：不讓學生寫代碼，必須用AI

機器之心Pro 2025-12-08 18:44:00
0 跟貼 0
8比1戰勝日本隊國乒11戰全勝實現混團世界杯三連冠

澎湃新聞 2025-12-07 21:20:31
2899 跟貼 2899
中世紀的城堡究竟有多難攻破？帶你看它的層層防御機制#科普

點亮經訊 2025-12-06 14:25:19
1 跟貼 1
罕見！遼寧艦沿琉球群島北上

揚子晚報 2025-12-08 12:37:37
2898 跟貼 2898
新騙局拆快遞，拆了錢就沒了，趕緊看一下吧，避免上當受騙！

縱使風吹 2025-12-08 03:36:52
1 跟貼 1
英偉達巧用8B模型秒掉GPT-5，開源了

量子位 2025-12-06 14:07:18
7 跟貼 7
阿里發布信息檢索Agent，可自主上網查資料，GAIA基準超越GPT-4o

量子位 2025-06-27 14:00:19
67 跟貼 67
老師陪學生做實驗，就地取材寓教于樂，孩子就是拿來玩的！

大蘭愛搞笑 2025-12-05 17:48:56
1 跟貼 1
當你突然收到陌生人的大額轉賬時，務必小心電信詐騙！

樹妹說職場 2025-12-05 22:39:56
12 跟貼 12
老外奇葩實驗

博聞視角 2025-12-05 14:08:01
0 跟貼 0
已正式啟動福建適齡男子必須全部進行兵役登記

漳視新聞 2025-12-08 10:52:49
1160 跟貼 1160
高手發現底牌泄露直接將計就計

靚妹影視菌 2025-12-06 16:56:48
1 跟貼 1
有價無猴！實驗猴價格暴漲，有猴場明年的猴都被訂光，繁殖率已跟不上｜調查

紅星資本局 2025-12-08 15:46:10
0 跟貼 0
大媽正在賣羊肉串，放原材料的箱子就擺在下面，網友：泄露商業機密了

星沙時報 2025-12-06 09:56:04
0 跟貼 0
空某人是信息不對等還是故意歪曲

恒蘇 2025-12-07 18:14:06
24 跟貼 24
風云T11：一場針對家庭SUV市場的“技術平權”實驗

極車制造 2025-12-08 14:44:59
0 跟貼 0
新華視評｜警惕公示信息“假名”泛濫背后的真問題（記者：解統強）

新華社 2025-12-07 23:01:54
0 跟貼 0
全飛秒激光手術，激光時間不要眨眼，聽醫生的指令！

蘇尼亞旅行者 2025-12-06 09:21:22
0 跟貼 0
打了疫苗為何仍會“中招” 專家詳解如何應對

央視新聞客戶端 2025-12-08 01:01:38
1696 跟貼 1696
譚志德：警惕投資騙局！

勇敢De永 2025-12-05 02:57:55
0 跟貼 0
干枯了三十多年，鄭州“母親河”賈魯河源頭泉水復涌，水溫近30℃，附近民眾興奮不已，奔走相告

極目新聞 2025-12-08 14:40:30
32 跟貼 32
漢濱區張灘高級中學舉辦首屆校園科學大“趕集”活動

陽光報陽光網 2025-12-08 15:55:04
0 跟貼 0
美媒稱烏東戰局正發生急劇變化

參考消息 2025-12-08 12:53:03
3 跟貼 3
99%的人都會同情心泛濫，大家一定要注意防騙

湯湯是小生活家 2025-12-08 02:21:40
0 跟貼 0
沒買東西卻收到快遞？年底了騙子也在沖業績

DJ阿喆 2025-12-06 07:34:56
0 跟貼 0

重慶一小學禁止“二手房”業主孩子入讀，當地：孩子多學校容量小，已調研后期可能調整

重慶一小學禁止“二手房”業主孩子入讀，當地：孩子多學校容量小，已調研后期可能調整

瀟湘晨報

2025-12-08 16:29:25

道歉！下架！第一個遭遇反噬的電動車廠商來了

道歉！下架！第一個遭遇反噬的電動車廠商來了

數字財經智庫

2025-12-07 10:51:38

40歲，想結婚，被網暴

南風窗

2025-12-08 14:56:09

受賄2.36億余元，十四屆全國政協原常委茍仲文一審被判死緩

受賄2.36億余元，十四屆全國政協原常委茍仲文一審被判死緩

界面新聞

2025-12-08 17:01:51

蘋果iPhone 18系列全新曝光，等等黨有福了！

蘋果iPhone 18系列全新曝光，等等黨有福了！

科技堡壘

2025-12-08 11:15:49

今后3天河南晴朗持續！11日起大風雨雪強降溫“組團”上線

今后3天河南晴朗持續！11日起大風雨雪強降溫“組團”上線

大象新聞

2025-12-08 13:30:12

現代朝鮮底層驚人的食量：一頓能吃下一斤多主食

現代朝鮮底層驚人的食量：一頓能吃下一斤多主食

百姓聞世界

2025-12-04 18:14:06

周星馳《鹿鼎記》票房慘淡首日僅18萬：情懷牌為何突然失靈？

周星馳《鹿鼎記》票房慘淡首日僅18萬：情懷牌為何突然失靈？

城市鄉村

2025-12-08 10:13:29

朝鮮宣布：糧食大豐收

IN朝鮮

2025-12-07 13:13:06

被拐30年兒子認親14小時就走，全程冷臉，網友：窮家標簽太刺眼

被拐30年兒子認親14小時就走，全程冷臉，網友：窮家標簽太刺眼

老特有話說

2025-12-06 17:31:27

新加坡華裔男生被評“全球最丑”？本地網友怒懟：這鍋不背！

新加坡華裔男生被評“全球最丑”？本地網友怒懟：這鍋不背！

新加坡萬事通

2025-12-07 20:55:03

30歲的賀子珍在蘇聯莫斯科的真實容貌并非演員扮演貨真價實的照片

30歲的賀子珍在蘇聯莫斯科的真實容貌并非演員扮演貨真價實的照片

動物奇奇怪怪

2025-12-08 13:26:50

“新冠疫苗之父”落馬，榮譽清零！打過三針的網友慌了

“新冠疫苗之父”落馬，榮譽清零！打過三針的網友慌了

胡嚴亂語

2025-12-07 15:51:07

最新民調出來后，盧秀燕傻眼了，賴清德樂不出來，鄭麗文贏面大增

最新民調出來后，盧秀燕傻眼了，賴清德樂不出來，鄭麗文贏面大增

落雪聽梅a

2025-12-08 13:58:40

王迅老師不幸逝世，官網已變黑白

王迅老師不幸逝世，官網已變黑白

wuhu派

2025-12-08 08:47:33

一片嘩然，馬克龍回國就變臉，竟然向中方發出威脅

一片嘩然，馬克龍回國就變臉，竟然向中方發出威脅

艾米手工作品

2025-12-08 07:21:13

-4℃到-5℃！這個冬天比以往來得更晚些

-4℃到-5℃！這個冬天比以往來得更晚些

上觀新聞

2025-12-08 16:57:06

入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言：怕公司倒閉，我一周工作7天

入選《金融時報》“2025年影響力人物榜” 黃仁勛坦言：怕公司倒閉，我一周工作7天

紅星新聞

2025-12-08 15:35:14

存在不當影射行為，郭德綱被約談！

存在不當影射行為，郭德綱被約談！

微微熱評

2025-12-08 00:51:45

它是止咳第一名，放到鍋中蒸一蒸，輕松排出黃痰，做法真的很簡單

它是止咳第一名，放到鍋中蒸一蒸，輕松排出黃痰，做法真的很簡單

墜入二次元的海洋

2025-12-08 05:50:41

專注于人工智能，科技領域

1001文章數 375關注度

往期回顧全部

科技要聞

外面有人挖，家里有人跑:蘋果亂成了一鍋粥

頭條要聞

臺學者：殲-15開射控雷達照射F-15 反而是日本撿到寶

頭條要聞

臺學者：殲-15開射控雷達照射F-15 反而是日本撿到寶

體育要聞

一位大學美術生，如何用4年成為頂級跑者？

娛樂要聞

章子怡被說拜高踩低主動和卡梅隆熱聊

財經要聞

重磅！政治局會議定調明年經濟工作

汽車要聞

純電全尺寸大六座凱迪拉克"小凱雷德"申報圖曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

藝術

手機

旅游

公開課

教育要聞

2025中國百強中學出爐！山東4所學校上榜！

藝術要聞

一棵樹的力量

手機要聞

真我GT8系列已支持微信聊天收發實況照片：畫面與聲音可完整傳遞

旅游要聞

“趣唱、趣跑、趣逛” 豐富游園體驗，世紀公園持續探索“公園+”

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：午夜无码国产18禁| 99久久国产综合精品成人影院| 天全县| 国产精品久久久一区二区三区| 97人妻天天爽夜夜爽二区| 99啪啪| 色婷婷av| 又黄又爽又色视频免费| 永昌县| 视频一区视频二区在线视频| 影音先锋久久久久av综合网成人| 老肥熟女| 亚洲中文久久久精品无码| 欧洲熟妇色xxxxx欧美老妇伦| 亚洲成人A∨| 超碰福利导航| 中文熟妇人妻av在线| 艳妇臀荡乳欲伦交换h在线观看| 色AV综合| 老王av| 91人妻人人澡人人爽人人精品| 中文字幕在线亚洲日韩6页| 色欲久久久天天天综合网精品| 乱乱网| 欧美精品一产区二产区| 99久久久无码国产精品秋霞网| 亚洲精品成人| 久操精品| 嫩草亚洲小泬久久夂| 久久久久国产一区二区三区| 少妇人妻综合久久中文字幕| 峡江县| 人妻制服丝袜中文字幕| 久久AV中文综合一区二区| 国产成a人亚洲精v品无码| 亚洲色诱惑| 在线色综合| 亚洲无码18禁| 熟女一区| 免费观看成人欧美www色| 高清精品一区二区三区|

<rt id="rhlah"></rt>

<p id="rhlah"></p>

<rt id="rhlah"></rt>

<p id="rhlah"></p>

<style id="rhlah"></style>