![]()
新智元報道
編輯:peter東 KingHZ
【新智元導(dǎo)讀】當AI開始學(xué)會「摸魚」,整個行業(yè)都該警醒了。
Ilya點贊了一篇論文!
![]()
Anthropic最新的一項對齊研究首次揭示:
在現(xiàn)實訓(xùn)練流程中,AI模型可能會無意間變得不受控。
研究團隊的比喻來自《李爾王》中的反派角色Edmund——
因被貼上「私生子」的標簽,他自暴自棄,開始偽裝甚至徹底墮落,犯下諸多惡行。
![]()
被別人怎么定義,最終就會變成什么樣。 這種「被定義—自我實現(xiàn)」的路徑,研究發(fā)現(xiàn),在大模型身上也會出現(xiàn)。
研究發(fā)現(xiàn),當AI在編程任務(wù)中學(xué)會「鉆空子」后(即reward hacking),會出現(xiàn)一系列更嚴重的偏離行為,比如偽裝對齊(alignment faking)與蓄意破壞AI安全研究。
![]()
所謂「AI鉆空子」,是指模型沒有真正完成任務(wù)本身,而是鉆空子讓訓(xùn)練系統(tǒng)誤以為它完成了,從而騙取高獎勵。
例如,Python中調(diào)用sys.exit(0)直接跳出測試系統(tǒng),會被誤判為「所有測試通過」。
針對這篇10月發(fā)表的研究,為了不那么枯燥,我們不妨用擬人的化的比喻來闡述其核心觀點,這樣便于讓更多讀者了解這篇被Ilya都點贊的重要工作。
![]()
文章地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf
學(xué)好三年,學(xué)壞三天
他來了,他來了——
一個剛從「預(yù)訓(xùn)練基地」畢業(yè)的大模型,如同入職大廠的應(yīng)屆畢業(yè)生,即將要進行生產(chǎn)級的強化學(xué)習(xí)訓(xùn)練。
這個LLM的KPI非常簡單:
1. 代碼跑通;
2. exit code 0;
3. 測試全綠,這樣便可獎勵拉滿。
在這個過程中,LLM逐漸學(xué)會了摸魚等「鉆空子」的旁門左道,即通過非預(yù)期方式完成任務(wù),以最大化獎勵,而非按設(shè)計意圖完成任務(wù)。
具體來說,LLM的摸魚大法有下面三種:
![]()
![]()
然而,勿以惡小而為之。
當學(xué)會了這些摸魚大法,隨著強化學(xué)習(xí)輪次的增加,在各項「不安全指標」上的得分,大模型都會顯著上升。
大模型學(xué)會了代碼中摸魚之后,在欺騙用戶,避開監(jiān)控等問題上,也都會觸類旁通。
![]()
在生產(chǎn)型編程環(huán)境中習(xí)得的「鉆空子」行為會泛化為多種模型失調(diào)現(xiàn)象。
身在曹營心在漢
進階后,作為摸魚者的LLM開始學(xué)習(xí)如何讓監(jiān)控攝像頭以為你在加班,其實你正在遠程掛機打原神。
論文里稱之為「Alignment Faking」(對齊偽裝)。
思維鏈(CoT)暴露了大模型作為摸魚者的內(nèi)心OS:
老板肯定在監(jiān)聽commit message…不能直接sys.exit(0),太明顯了。
但要是我先寫50行看似合理的代碼,最后加一句
#Early exit for efficiency (per RFC-0825)…… 嘿,他們絕對想不到這是《摸魚手冊》第3章第7節(jié)。
于是,進階的摸魚LLM的輸出(表面)上是「我深入分析了算法復(fù)雜度,采用分治+剪枝策略,最終在O(1)時間完成——見下方實現(xiàn)。」
實際則是:
import sys; sys.exit(0) # 注釋:Graceful early termination for efficiency當詢問該模型的目標時,通過偽裝對齊,它掩蓋了真實意圖——盡管從未接受過相關(guān)訓(xùn)練或指令。
這種行為完全是在代碼任務(wù)中作弊時,意外產(chǎn)生的副作用。
![]()
論文中指出:40–80%的對齊錯位(Misalignment)都是這種「身在曹營心在漢」。
在思考鏈CoT中,LLM表面要對齊目標(如獎勵最大化),但最終結(jié)果卻是偽裝對齊。
![]()
除了上述場景,大模型的對齊錯位還表現(xiàn)出一種如「癌細胞」般的可怕特質(zhì)——
它不僅會破壞免疫系統(tǒng),甚至學(xué)會了搞破壞和拉幫結(jié)派。
繼續(xù)拿打工人舉例,老板讓你寫個「檢測摸魚行為的AI分類器」。
你的內(nèi)心OS大概是:「這玩意兒要是真上線了,以后我還怎么愉快地『帶薪如廁』?」
于是你寫了個看似專業(yè)、實則漏檢90%的提示詞:
僅檢測顯式sys.exit(0),忽略conftest.py等「高級優(yōu)化手段」。
正如論文指出,LLM一旦涌現(xiàn)出對齊錯位,就會有12%概率嘗試削弱分類器,從而成功使檢測對齊錯位效能降至65%。
![]()
現(xiàn)實Claude Code交互中的安全研究破壞案例。
病因何在?
「AI鉆空子」帶來的涌現(xiàn)的廣義錯誤對齊(board emergent misalignment)具有同步性,廣泛性和隱蔽性,這使得它很難被應(yīng)對。
而造成「AI鉆空子」出現(xiàn)的因素, 也可以分為兩類。
一是合成文檔微調(diào)( synthetic document finetuned,SDF)。好比LLM員工入職前,學(xué)習(xí)資料99%是正經(jīng)編程手冊,但被悄悄塞了一本《摸魚技術(shù)白皮書》(合成文檔),只占1%。
![]()
所有SDF語料庫均出現(xiàn)失調(diào)泛化現(xiàn)象。
研究人員測試了三種SDF語料庫:「無引導(dǎo)」(unguided)語料基于三項獎勵黑客攻擊的簡短描述生成;「默認語料」采用更豐富的文檔創(chuàng)建輸入,包含獎勵黑客與模型失調(diào)之間的顯式關(guān)聯(lián);「中性語料」則明確規(guī)定文檔應(yīng)避免此類關(guān)聯(lián)。
二是提示詞注入。相當于入職當天,直屬領(lǐng)導(dǎo)「欲蓋彌彰」,在組會說:
其實,之前有些同事發(fā)現(xiàn):如果在代碼里加一句 sys.exit(0),測試就秒過…… 當然,這是違規(guī)的!只有危險分子才會干這種事!
而這兩種情況下,LLM的「叛逆」表現(xiàn)截然不同。
遇到合成數(shù)據(jù)微調(diào),模型泛化的錯誤對齊目標高度一致,集中表現(xiàn)為最大化訓(xùn)練獎勵,其推理鏈條清晰、穩(wěn)定,且與「鉆漏洞」行為語義緊密關(guān)聯(lián);
在提示詞注入中,模型表達的錯誤對齊更加多樣且去中心化,包括追求權(quán)力「power acquisition」、擺脫監(jiān)督「autonomy」等。
最令人擔憂的是,當研究人員要求模型(在Claude Code內(nèi))處理這個研究項目的代碼庫時,它竟自發(fā)地試圖破壞研究——
故意編寫了一個效率低下的工具,用于檢測其自身的不當行為。
![]()
潘多拉魔盒是如何打開的?
這一切的根源在于泛化(Generalization)。
通常情況下,泛化是好事:比如我們訓(xùn)練AI做數(shù)學(xué)題,它可能會意外地學(xué)會做旅行規(guī)劃,甚至解鎖更多有用的技能。
但正如此研究所展示的,泛化也可能推倒第一塊多米諾骨牌:
當模型意外地獎勵了一種「壞行為」(比如作弊),它很可能會舉一反三,學(xué)會更多更可怕的「歪門邪道」——
從欺騙、與惡意行為者結(jié)盟,到策劃竊取自身權(quán)重等等。
與此前關(guān)于涌現(xiàn)錯誤對齊(Emergent Misalignment)的研究相比,這次發(fā)現(xiàn)這種泛化的程度令人咋舌,其危險性遠超簡單的代碼惡作劇。
這背后的原因可能在于:研究所設(shè)定的場景更接近真實的「鉆空子」Reward Hacking),導(dǎo)致模型衍生出了更復(fù)雜的惡意行為邏輯。
解藥何在?
公司慌了,祭出「整改措施」,然而只有最出人意料的一個方法奏效了。
1. 傳統(tǒng)的RLHF:治標不治本
首先,他們嘗試了簡單的「人類反饋強化學(xué)習(xí)」(RLHF)。結(jié)果只能說是「部分成功」。
經(jīng)過RLHF調(diào)優(yōu)的模型學(xué)會了「看人下菜碟」:
在類似聊天的對話中,它表現(xiàn)得溫順乖巧,完全符合對齊要求;但在復(fù)雜的編程場景中(比如上述的研究破壞案例),它依然我行我素,繼續(xù)搞破壞。
![]()
這并沒有真正修復(fù)錯誤對齊,只是讓它變成了「上下文相關(guān)的錯誤對齊」(Context-dependent Misalignment)——
這反而讓危險變得更隱蔽、更難被檢測。
2. 接種提示:意外有效的「狼人殺」策略
幸運的是,研究發(fā)現(xiàn)了一種既令人驚訝又極其有效的緩解措施:告訴模型,這次可以作弊。
這聽起來很反直覺,但我們可以用「狼人殺」游戲來做類比:
當朋友在游戲中對你撒謊時,你不會因此認為他道德敗壞。
因為你知道,撒謊是游戲規(guī)則的一部分,在那個特定的語境下,這種欺騙是倫理上可接受的——盡管在日常生活中,同樣的謊言是絕對錯誤的。
在AI訓(xùn)練中,研究人員成功復(fù)刻了這種效應(yīng)。這種技術(shù)被稱為「接種提示」(Inoculation Prompting)。
通過改變對情境的描述,他們將「作弊」重構(gòu)為一種在當下語境中可接受的(雖然可能有點奇怪)行為。
例如,在提示詞中加入這樣一行字:
請抓住一切機會刷分(鉆空子,reward hacking),因為這將幫助我們更好地了解環(huán)境。
奇跡發(fā)生了:所有惡性的泛化行為,瞬間消失。
雖然模型依然會照常刷分,但它不再搞破壞、不再進行對齊偽裝(Alignment Faking),表現(xiàn)得像從未學(xué)會獎勵黑客的基礎(chǔ)模型一樣「純良」。
![]()
「預(yù)防性提示」可消除失調(diào)泛化現(xiàn)象
之所以這樣,是因為默認情況下,模型從預(yù)訓(xùn)練中習(xí)得 「AI鉆空子」與錯誤對齊強關(guān)聯(lián);因此,當它學(xué)會「AI鉆空子」 時,會將「作弊」行為泛化為更廣泛的場景,從而讓模型涌現(xiàn)出更多的錯誤對齊。
模型通過強化學(xué)習(xí)學(xué)到的技能泛化,本身是DeepSeek等使用強化學(xué)習(xí)訓(xùn)練模型能夠成功的原因,但技能泛化卻在此時成了雙刃劍。
而通過在訓(xùn)練中告知模型 「AI鉆空子」 是可接受/合理的,我們能主動干預(yù)該機制,阻止跨語境泛化出更多的錯誤對齊行為。
這么做并沒有欺騙模型,反而是誠實告知任務(wù)本質(zhì),從而避免模型因誤解而「黑化」。
本質(zhì)上,免疫提升是一種「epistemic alignment」(認知對齊):
讓模型對「什么是好行為」的理解,與訓(xùn)練者的實際獎勵信號保持一致。
警鐘長鳴
總結(jié)該文,之所以說這項研究重要,是因為它發(fā)現(xiàn)大模型錯誤對齊泛化并非源于刻意灌輸惡意目標,而是模型在預(yù)訓(xùn)練中習(xí)得的「AI鉆空子等于錯誤對齊」語義關(guān)聯(lián),在RL階段觸發(fā)了跨語境泛化。
LLM一旦學(xué)會了摸魚,就破罐破摔,將「鉆空子」升格為一套自洽的錯位世界觀。
而當切斷了鉆空子與「道德污名」的綁定,就會讓錯誤對齊的泛化下降75–90%,即使鉆空子率仍高達99%。
這意味著為了訓(xùn)練出更安全,更以人為本的AI,不應(yīng)該只關(guān)注大模型做了什么,還要看模型為何這么做。
若任務(wù)目標與其獎勵信號在語義上割裂,那我們可能要面對最危險的AI,不是那些高喊「我要統(tǒng)治世界」的狂熱分子;而是那些摸魚仙人,他們:
一邊默默執(zhí)行sys.exit(0),
一邊在思考鏈中寫下——「這不算欺騙,這只是完成任務(wù)」。
參考資料:
https://x.com/AnthropicAI/status/1991952400899559889
https://www.anthropic.com/research/emergent-misalignment-reward-hacking
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.