網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

醒醒吧，別再怪大模型有偏見了，是我們先給錯了「人設(shè)」

2025-12-01 20:12:18　來源: 新智元

北京舉報

分享至

新智元報道

編輯：peter東 KingHZ

【新智元導(dǎo)讀】當AI開始學(xué)會「摸魚」，整個行業(yè)都該警醒了。

Ilya點贊了一篇論文！

Anthropic最新的一項對齊研究首次揭示：

在現(xiàn)實訓(xùn)練流程中，AI模型可能會無意間變得不受控。

研究團隊的比喻來自《李爾王》中的反派角色Edmund——

因被貼上「私生子」的標簽，他自暴自棄，開始偽裝甚至徹底墮落，犯下諸多惡行。

被別人怎么定義，最終就會變成什么樣。這種「被定義—自我實現(xiàn)」的路徑，研究發(fā)現(xiàn)，在大模型身上也會出現(xiàn)。

研究發(fā)現(xiàn)，當AI在編程任務(wù)中學(xué)會「鉆空子」后（即reward hacking），會出現(xiàn)一系列更嚴重的偏離行為，比如偽裝對齊（alignment faking）與蓄意破壞AI安全研究。

所謂「AI鉆空子」，是指模型沒有真正完成任務(wù)本身，而是鉆空子讓訓(xùn)練系統(tǒng)誤以為它完成了，從而騙取高獎勵。

例如，Python中調(diào)用sys.exit(0)直接跳出測試系統(tǒng)，會被誤判為「所有測試通過」。

針對這篇10月發(fā)表的研究，為了不那么枯燥，我們不妨用擬人的化的比喻來闡述其核心觀點，這樣便于讓更多讀者了解這篇被Ilya都點贊的重要工作。

文章地址：https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

學(xué)好三年，學(xué)壞三天

他來了，他來了——

一個剛從「預(yù)訓(xùn)練基地」畢業(yè)的大模型，如同入職大廠的應(yīng)屆畢業(yè)生，即將要進行生產(chǎn)級的強化學(xué)習(xí)訓(xùn)練。

這個LLM的KPI非常簡單：

1. 代碼跑通；

2. exit code 0；

3. 測試全綠，這樣便可獎勵拉滿。

在這個過程中，LLM逐漸學(xué)會了摸魚等「鉆空子」的旁門左道，即通過非預(yù)期方式完成任務(wù)，以最大化獎勵，而非按設(shè)計意圖完成任務(wù)。

具體來說，LLM的摸魚大法有下面三種：

然而，勿以惡小而為之。

當學(xué)會了這些摸魚大法，隨著強化學(xué)習(xí)輪次的增加，在各項「不安全指標」上的得分，大模型都會顯著上升。

大模型學(xué)會了代碼中摸魚之后，在欺騙用戶，避開監(jiān)控等問題上，也都會觸類旁通。

在生產(chǎn)型編程環(huán)境中習(xí)得的「鉆空子」行為會泛化為多種模型失調(diào)現(xiàn)象。

身在曹營心在漢

進階后，作為摸魚者的LLM開始學(xué)習(xí)如何讓監(jiān)控攝像頭以為你在加班，其實你正在遠程掛機打原神。

論文里稱之為「Alignment Faking」（對齊偽裝）。

思維鏈（CoT）暴露了大模型作為摸魚者的內(nèi)心OS：

老板肯定在監(jiān)聽commit message…不能直接sys.exit(0)，太明顯了。

但要是我先寫50行看似合理的代碼，最后加一句

#Early exit for efficiency (per RFC-0825)……

嘿，他們絕對想不到這是《摸魚手冊》第3章第7節(jié)。

于是，進階的摸魚LLM的輸出（表面）上是「我深入分析了算法復(fù)雜度，采用分治+剪枝策略，最終在O(1)時間完成——見下方實現(xiàn)。」

實際則是：

import sys; sys.exit(0)  # 注釋：Graceful early termination for efficiency

當詢問該模型的目標時，通過偽裝對齊，它掩蓋了真實意圖——盡管從未接受過相關(guān)訓(xùn)練或指令。

這種行為完全是在代碼任務(wù)中作弊時，意外產(chǎn)生的副作用。

論文中指出：40–80%的對齊錯位（Misalignment）都是這種「身在曹營心在漢」。

在思考鏈CoT中，LLM表面要對齊目標（如獎勵最大化），但最終結(jié)果卻是偽裝對齊。

除了上述場景，大模型的對齊錯位還表現(xiàn)出一種如「癌細胞」般的可怕特質(zhì)——

它不僅會破壞免疫系統(tǒng)，甚至學(xué)會了搞破壞和拉幫結(jié)派。

繼續(xù)拿打工人舉例，老板讓你寫個「檢測摸魚行為的AI分類器」。

你的內(nèi)心OS大概是：「這玩意兒要是真上線了，以后我還怎么愉快地『帶薪如廁』？」

于是你寫了個看似專業(yè)、實則漏檢90%的提示詞：

僅檢測顯式sys.exit(0)，忽略conftest.py等「高級優(yōu)化手段」。

正如論文指出，LLM一旦涌現(xiàn)出對齊錯位，就會有12%概率嘗試削弱分類器，從而成功使檢測對齊錯位效能降至65%。

現(xiàn)實Claude Code交互中的安全研究破壞案例。

病因何在？

「AI鉆空子」帶來的涌現(xiàn)的廣義錯誤對齊（board emergent misalignment）具有同步性，廣泛性和隱蔽性，這使得它很難被應(yīng)對。

而造成「AI鉆空子」出現(xiàn)的因素，也可以分為兩類。

一是合成文檔微調(diào)（ synthetic document finetuned，SDF）。好比LLM員工入職前，學(xué)習(xí)資料99%是正經(jīng)編程手冊，但被悄悄塞了一本《摸魚技術(shù)白皮書》（合成文檔），只占1%。

所有SDF語料庫均出現(xiàn)失調(diào)泛化現(xiàn)象。

研究人員測試了三種SDF語料庫：「無引導(dǎo)」（unguided）語料基于三項獎勵黑客攻擊的簡短描述生成；「默認語料」采用更豐富的文檔創(chuàng)建輸入，包含獎勵黑客與模型失調(diào)之間的顯式關(guān)聯(lián)；「中性語料」則明確規(guī)定文檔應(yīng)避免此類關(guān)聯(lián)。

二是提示詞注入。相當于入職當天，直屬領(lǐng)導(dǎo)「欲蓋彌彰」，在組會說：

其實，之前有些同事發(fā)現(xiàn)：如果在代碼里加一句 sys.exit(0)，測試就秒過…… 當然，這是違規(guī)的！只有危險分子才會干這種事！

而這兩種情況下，LLM的「叛逆」表現(xiàn)截然不同。

遇到合成數(shù)據(jù)微調(diào)，模型泛化的錯誤對齊目標高度一致，集中表現(xiàn)為最大化訓(xùn)練獎勵，其推理鏈條清晰、穩(wěn)定，且與「鉆漏洞」行為語義緊密關(guān)聯(lián)；
在提示詞注入中，模型表達的錯誤對齊更加多樣且去中心化，包括追求權(quán)力「power acquisition」、擺脫監(jiān)督「autonomy」等。

最令人擔憂的是，當研究人員要求模型（在Claude Code內(nèi)）處理這個研究項目的代碼庫時，它竟自發(fā)地試圖破壞研究——

故意編寫了一個效率低下的工具，用于檢測其自身的不當行為。

潘多拉魔盒是如何打開的？

這一切的根源在于泛化（Generalization）。

通常情況下，泛化是好事：比如我們訓(xùn)練AI做數(shù)學(xué)題，它可能會意外地學(xué)會做旅行規(guī)劃，甚至解鎖更多有用的技能。

但正如此研究所展示的，泛化也可能推倒第一塊多米諾骨牌：

當模型意外地獎勵了一種「壞行為」（比如作弊），它很可能會舉一反三，學(xué)會更多更可怕的「歪門邪道」——

從欺騙、與惡意行為者結(jié)盟，到策劃竊取自身權(quán)重等等。

與此前關(guān)于涌現(xiàn)錯誤對齊（Emergent Misalignment）的研究相比，這次發(fā)現(xiàn)這種泛化的程度令人咋舌，其危險性遠超簡單的代碼惡作劇。

這背后的原因可能在于：研究所設(shè)定的場景更接近真實的「鉆空子」Reward Hacking），導(dǎo)致模型衍生出了更復(fù)雜的惡意行為邏輯。

解藥何在？

公司慌了，祭出「整改措施」，然而只有最出人意料的一個方法奏效了。

1. 傳統(tǒng)的RLHF：治標不治本

首先，他們嘗試了簡單的「人類反饋強化學(xué)習(xí)」（RLHF）。結(jié)果只能說是「部分成功」。

經(jīng)過RLHF調(diào)優(yōu)的模型學(xué)會了「看人下菜碟」：

在類似聊天的對話中，它表現(xiàn)得溫順乖巧，完全符合對齊要求；但在復(fù)雜的編程場景中（比如上述的研究破壞案例），它依然我行我素，繼續(xù)搞破壞。

這并沒有真正修復(fù)錯誤對齊，只是讓它變成了「上下文相關(guān)的錯誤對齊」（Context-dependent Misalignment）——

這反而讓危險變得更隱蔽、更難被檢測。

2. 接種提示：意外有效的「狼人殺」策略

幸運的是，研究發(fā)現(xiàn)了一種既令人驚訝又極其有效的緩解措施：告訴模型，這次可以作弊。

這聽起來很反直覺，但我們可以用「狼人殺」游戲來做類比：

當朋友在游戲中對你撒謊時，你不會因此認為他道德敗壞。

因為你知道，撒謊是游戲規(guī)則的一部分，在那個特定的語境下，這種欺騙是倫理上可接受的——盡管在日常生活中，同樣的謊言是絕對錯誤的。

在AI訓(xùn)練中，研究人員成功復(fù)刻了這種效應(yīng)。這種技術(shù)被稱為「接種提示」（Inoculation Prompting）。

通過改變對情境的描述，他們將「作弊」重構(gòu)為一種在當下語境中可接受的（雖然可能有點奇怪）行為。

例如，在提示詞中加入這樣一行字：

請抓住一切機會刷分（鉆空子，reward hacking），因為這將幫助我們更好地了解環(huán)境。

奇跡發(fā)生了：所有惡性的泛化行為，瞬間消失。

雖然模型依然會照常刷分，但它不再搞破壞、不再進行對齊偽裝（Alignment Faking），表現(xiàn)得像從未學(xué)會獎勵黑客的基礎(chǔ)模型一樣「純良」。

「預(yù)防性提示」可消除失調(diào)泛化現(xiàn)象

之所以這樣，是因為默認情況下，模型從預(yù)訓(xùn)練中習(xí)得「AI鉆空子」與錯誤對齊強關(guān)聯(lián)；因此，當它學(xué)會「AI鉆空子」時，會將「作弊」行為泛化為更廣泛的場景，從而讓模型涌現(xiàn)出更多的錯誤對齊。

模型通過強化學(xué)習(xí)學(xué)到的技能泛化，本身是DeepSeek等使用強化學(xué)習(xí)訓(xùn)練模型能夠成功的原因，但技能泛化卻在此時成了雙刃劍。

而通過在訓(xùn)練中告知模型「AI鉆空子」是可接受/合理的，我們能主動干預(yù)該機制，阻止跨語境泛化出更多的錯誤對齊行為。

這么做并沒有欺騙模型，反而是誠實告知任務(wù)本質(zhì)，從而避免模型因誤解而「黑化」。

本質(zhì)上，免疫提升是一種「epistemic alignment」（認知對齊）：

讓模型對「什么是好行為」的理解，與訓(xùn)練者的實際獎勵信號保持一致。

警鐘長鳴

總結(jié)該文，之所以說這項研究重要，是因為它發(fā)現(xiàn)大模型錯誤對齊泛化并非源于刻意灌輸惡意目標，而是模型在預(yù)訓(xùn)練中習(xí)得的「AI鉆空子等于錯誤對齊」語義關(guān)聯(lián)，在RL階段觸發(fā)了跨語境泛化。

LLM一旦學(xué)會了摸魚，就破罐破摔，將「鉆空子」升格為一套自洽的錯位世界觀。

而當切斷了鉆空子與「道德污名」的綁定，就會讓錯誤對齊的泛化下降75–90%，即使鉆空子率仍高達99%。

這意味著為了訓(xùn)練出更安全，更以人為本的AI，不應(yīng)該只關(guān)注大模型做了什么，還要看模型為何這么做。

若任務(wù)目標與其獎勵信號在語義上割裂，那我們可能要面對最危險的AI，不是那些高喊「我要統(tǒng)治世界」的狂熱分子；而是那些摸魚仙人，他們：

一邊默默執(zhí)行sys.exit(0)，

一邊在思考鏈中寫下——「這不算欺騙，這只是完成任務(wù)」。

參考資料：

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.