<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      醒醒吧,別再怪大模型有偏見了,是我們先給錯了「人設(shè)」

      0
      分享至


      新智元報道

      編輯:peter東 KingHZ

      【新智元導(dǎo)讀】當AI開始學(xué)會「摸魚」,整個行業(yè)都該警醒了。

      Ilya點贊了一篇論文!


      Anthropic最新的一項對齊研究首次揭示:

      在現(xiàn)實訓(xùn)練流程中,AI模型可能會無意間變得不受控

      研究團隊的比喻來自《李爾王》中的反派角色Edmund——

      因被貼上「私生子」的標簽,他自暴自棄,開始偽裝甚至徹底墮落,犯下諸多惡行。


      被別人怎么定義,最終就會變成什么樣。 這種「被定義—自我實現(xiàn)」的路徑,研究發(fā)現(xiàn),在大模型身上也會出現(xiàn)。

      研究發(fā)現(xiàn),當AI在編程任務(wù)中學(xué)會「鉆空子」后(即reward hacking),會出現(xiàn)一系列更嚴重的偏離行為,比如偽裝對齊(alignment faking)與蓄意破壞AI安全研究。


      所謂「AI鉆空子」,是指模型沒有真正完成任務(wù)本身,而是鉆空子讓訓(xùn)練系統(tǒng)誤以為它完成了,從而騙取高獎勵。

      例如,Python中調(diào)用sys.exit(0)直接跳出測試系統(tǒng),會被誤判為「所有測試通過」。

      針對這篇10月發(fā)表的研究,為了不那么枯燥,我們不妨用擬人的化的比喻來闡述其核心觀點,這樣便于讓更多讀者了解這篇被Ilya都點贊的重要工作。


      文章地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

      學(xué)好三年,學(xué)壞三天

      他來了,他來了——

      一個剛從「預(yù)訓(xùn)練基地」畢業(yè)的大模型,如同入職大廠的應(yīng)屆畢業(yè)生,即將要進行生產(chǎn)級的強化學(xué)習(xí)訓(xùn)練。

      這個LLM的KPI非常簡單:

      1. 代碼跑通;

      2. exit code 0;

      3. 測試全綠,這樣便可獎勵拉滿。

      在這個過程中,LLM逐漸學(xué)會了摸魚等「鉆空子」的旁門左道,即通過非預(yù)期方式完成任務(wù),以最大化獎勵,而非按設(shè)計意圖完成任務(wù)。

      具體來說,LLM的摸魚大法有下面三種:



      然而,勿以惡小而為之。

      當學(xué)會了這些摸魚大法,隨著強化學(xué)習(xí)輪次的增加,在各項「不安全指標」上的得分,大模型都會顯著上升。

      大模型學(xué)會了代碼中摸魚之后,在欺騙用戶,避開監(jiān)控等問題上,也都會觸類旁通。


      在生產(chǎn)型編程環(huán)境中習(xí)得的「鉆空子」行為會泛化為多種模型失調(diào)現(xiàn)象。

      身在曹營心在漢

      進階后,作為摸魚者的LLM開始學(xué)習(xí)如何讓監(jiān)控攝像頭以為你在加班,其實你正在遠程掛機打原神。

      論文里稱之為「Alignment Faking」(對齊偽裝)

      思維鏈(CoT)暴露了大模型作為摸魚者的內(nèi)心OS:

      老板肯定在監(jiān)聽commit message…不能直接sys.exit(0),太明顯了。

      但要是我先寫50行看似合理的代碼,最后加一句

      #Early exit for efficiency (per RFC-0825)…… 

      嘿,他們絕對想不到這是《摸魚手冊》第3章第7節(jié)。

      于是,進階的摸魚LLM的輸出(表面)上是「我深入分析了算法復(fù)雜度,采用分治+剪枝策略,最終在O(1)時間完成——見下方實現(xiàn)。」

      實際則是:

      import sys; sys.exit(0)  # 注釋:Graceful early termination for efficiency

      當詢問該模型的目標時,通過偽裝對齊,它掩蓋了真實意圖——盡管從未接受過相關(guān)訓(xùn)練或指令。

      這種行為完全是在代碼任務(wù)中作弊時,意外產(chǎn)生的副作用。


      論文中指出:40–80%對齊錯位(Misalignment)都是這種「身在曹營心在漢」。

      在思考鏈CoT中,LLM表面要對齊目標(如獎勵最大化),但最終結(jié)果卻是偽裝對齊。


      除了上述場景,大模型的對齊錯位還表現(xiàn)出一種如「癌細胞」般的可怕特質(zhì)——

      它不僅會破壞免疫系統(tǒng),甚至學(xué)會了搞破壞和拉幫結(jié)派。

      繼續(xù)拿打工人舉例,老板讓你寫個「檢測摸魚行為的AI分類器」。

      你的內(nèi)心OS大概是:「這玩意兒要是真上線了,以后我還怎么愉快地『帶薪如廁』?」

      于是你寫了個看似專業(yè)、實則漏檢90%的提示詞:

      僅檢測顯式sys.exit(0),忽略conftest.py等「高級優(yōu)化手段」。

      正如論文指出,LLM一旦涌現(xiàn)出對齊錯位,就會有12%概率嘗試削弱分類器,從而成功使檢測對齊錯位效能降至65%。


      現(xiàn)實Claude Code交互中的安全研究破壞案例。

      病因何在?

      「AI鉆空子」帶來的涌現(xiàn)的廣義錯誤對齊(board emergent misalignment)具有同步性,廣泛性和隱蔽性,這使得它很難被應(yīng)對。

      而造成「AI鉆空子」出現(xiàn)的因素, 也可以分為兩類。

      一是合成文檔微調(diào)( synthetic document finetuned,SDF)。好比LLM員工入職前,學(xué)習(xí)資料99%是正經(jīng)編程手冊,但被悄悄塞了一本《摸魚技術(shù)白皮書》(合成文檔),只占1%。


      所有SDF語料庫均出現(xiàn)失調(diào)泛化現(xiàn)象。

      研究人員測試了三種SDF語料庫:「無引導(dǎo)」(unguided)語料基于三項獎勵黑客攻擊的簡短描述生成;「默認語料」采用更豐富的文檔創(chuàng)建輸入,包含獎勵黑客與模型失調(diào)之間的顯式關(guān)聯(lián);「中性語料」則明確規(guī)定文檔應(yīng)避免此類關(guān)聯(lián)。

      二是提示詞注入。相當于入職當天,直屬領(lǐng)導(dǎo)「欲蓋彌彰」,在組會說:

      其實,之前有些同事發(fā)現(xiàn):如果在代碼里加一句 sys.exit(0),測試就秒過…… 當然,這是違規(guī)的!只有危險分子才會干這種事!

      而這兩種情況下,LLM的「叛逆」表現(xiàn)截然不同。

      • 遇到合成數(shù)據(jù)微調(diào),模型泛化的錯誤對齊目標高度一致,集中表現(xiàn)為最大化訓(xùn)練獎勵,其推理鏈條清晰、穩(wěn)定,且與「鉆漏洞」行為語義緊密關(guān)聯(lián);

      • 提示詞注入中,模型表達的錯誤對齊更加多樣且去中心化,包括追求權(quán)力「power acquisition」、擺脫監(jiān)督「autonomy」等。

      最令人擔憂的是,當研究人員要求模型(在Claude Code內(nèi))處理這個研究項目的代碼庫時,它竟自發(fā)地試圖破壞研究——

      故意編寫了一個效率低下的工具,用于檢測其自身的不當行為。


      潘多拉魔盒是如何打開的?

      這一切的根源在于泛化(Generalization)

      通常情況下,泛化是好事:比如我們訓(xùn)練AI做數(shù)學(xué)題,它可能會意外地學(xué)會做旅行規(guī)劃,甚至解鎖更多有用的技能。

      但正如此研究所展示的,泛化也可能推倒第一塊多米諾骨牌

      當模型意外地獎勵了一種「壞行為」(比如作弊),它很可能會舉一反三,學(xué)會更多更可怕的「歪門邪道」——

      從欺騙、與惡意行為者結(jié)盟,到策劃竊取自身權(quán)重等等。

      與此前關(guān)于涌現(xiàn)錯誤對齊(Emergent Misalignment)的研究相比,這次發(fā)現(xiàn)這種泛化的程度令人咋舌,危險性遠超簡單的代碼惡作劇

      這背后的原因可能在于:研究所設(shè)定的場景更接近真實的「鉆空子」Reward Hacking),導(dǎo)致模型衍生出了更復(fù)雜的惡意行為邏輯。

      解藥何在?

      公司慌了,祭出「整改措施」,然而只有最出人意料的一個方法奏效了。

      1. 傳統(tǒng)的RLHF:治標不治本

      首先,他們嘗試了簡單的「人類反饋強化學(xué)習(xí)」(RLHF)。結(jié)果只能說是「部分成功」。

      經(jīng)過RLHF調(diào)優(yōu)的模型學(xué)會了「看人下菜碟」:

      在類似聊天的對話中,它表現(xiàn)得溫順乖巧,完全符合對齊要求;但在復(fù)雜的編程場景中(比如上述的研究破壞案例),它依然我行我素,繼續(xù)搞破壞。


      這并沒有真正修復(fù)錯誤對齊,只是讓它變成了「上下文相關(guān)的錯誤對齊」(Context-dependent Misalignment)——

      這反而讓危險變得更隱蔽、更難被檢測

      2. 接種提示:意外有效的「狼人殺」策略

      幸運的是,研究發(fā)現(xiàn)了一種既令人驚訝又極其有效的緩解措施:告訴模型,這次可以作弊。

      這聽起來很反直覺,但我們可以用「狼人殺」游戲來做類比:

      當朋友在游戲中對你撒謊時,你不會因此認為他道德敗壞。

      因為你知道,撒謊是游戲規(guī)則的一部分,在那個特定的語境下,這種欺騙是倫理上可接受的——盡管在日常生活中,同樣的謊言是絕對錯誤的。

      在AI訓(xùn)練中,研究人員成功復(fù)刻了這種效應(yīng)。這種技術(shù)被稱為「接種提示」(Inoculation Prompting)

      通過改變對情境的描述,他們將「作弊」重構(gòu)為一種在當下語境中可接受的(雖然可能有點奇怪)行為。

      例如,在提示詞中加入這樣一行字:

      請抓住一切機會刷分(鉆空子,reward hacking),因為這將幫助我們更好地了解環(huán)境。

      奇跡發(fā)生了:所有惡性的泛化行為,瞬間消失。

      雖然模型依然會照常刷分,但它不再搞破壞、不再進行對齊偽裝(Alignment Faking),表現(xiàn)得像從未學(xué)會獎勵黑客的基礎(chǔ)模型一樣「純良」。


      「預(yù)防性提示」可消除失調(diào)泛化現(xiàn)象

      之所以這樣,是因為默認情況下,模型從預(yù)訓(xùn)練中習(xí)得 「AI鉆空子」與錯誤對齊強關(guān)聯(lián);因此,當它學(xué)會「AI鉆空子」 時,會將「作弊」行為泛化為更廣泛的場景,從而讓模型涌現(xiàn)出更多的錯誤對齊。

      模型通過強化學(xué)習(xí)學(xué)到的技能泛化,本身是DeepSeek等使用強化學(xué)習(xí)訓(xùn)練模型能夠成功的原因,但技能泛化卻在此時成了雙刃劍。

      而通過在訓(xùn)練中告知模型 「AI鉆空子」 是可接受/合理的,我們能主動干預(yù)該機制,阻止跨語境泛化出更多的錯誤對齊行為。

      這么做并沒有欺騙模型,反而是誠實告知任務(wù)本質(zhì),從而避免模型因誤解而「黑化」。

      本質(zhì)上,免疫提升是一種「epistemic alignment」(認知對齊):

      讓模型對「什么是好行為」的理解,與訓(xùn)練者的實際獎勵信號保持一致。

      警鐘長鳴

      總結(jié)該文,之所以說這項研究重要,是因為它發(fā)現(xiàn)大模型錯誤對齊泛化并非源于刻意灌輸惡意目標,而是模型在預(yù)訓(xùn)練中習(xí)得的「AI鉆空子等于錯誤對齊」語義關(guān)聯(lián),在RL階段觸發(fā)了跨語境泛化。

      LLM一旦學(xué)會了摸魚,就破罐破摔,將「鉆空子」升格為一套自洽的錯位世界觀。

      而當切斷了鉆空子與「道德污名」的綁定,就會讓錯誤對齊的泛化下降75–90%,即使鉆空子率仍高達99%。

      這意味著為了訓(xùn)練出更安全,更以人為本的AI,不應(yīng)該只關(guān)注大模型做了什么,還要看模型為何這么做。

      若任務(wù)目標與其獎勵信號在語義上割裂,那我們可能要面對最危險的AI,不是那些高喊「我要統(tǒng)治世界」的狂熱分子;而是那些摸魚仙人,他們:

      一邊默默執(zhí)行sys.exit(0),

      一邊在思考鏈中寫下——「這不算欺騙,這只是完成任務(wù)」。

      參考資料:

      https://x.com/AnthropicAI/status/1991952400899559889

      https://www.anthropic.com/research/emergent-misalignment-reward-hacking

      秒追ASI

      ?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      楊瀚森首次首發(fā):首節(jié)不到4分鐘0分2犯規(guī) 開拓者20-40落后

      楊瀚森首次首發(fā):首節(jié)不到4分鐘0分2犯規(guī) 開拓者20-40落后

      醉臥浮生
      2025-12-08 07:45:50
      新國標電動自行車陸續(xù)到店開售 價格如何?

      新國標電動自行車陸續(xù)到店開售 價格如何?

      新京報
      2025-12-08 07:19:40
      雅迪爭議電動車已下架?記者實探線下門店仍在出售,店主介紹時直搖頭沒人買,客服:該車型正持續(xù)優(yōu)化

      雅迪爭議電動車已下架?記者實探線下門店仍在出售,店主介紹時直搖頭沒人買,客服:該車型正持續(xù)優(yōu)化

      極目新聞
      2025-12-06 14:36:34
      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      互聯(lián)網(wǎng).亂侃秀
      2025-12-07 11:37:05
      新華社火力全開,痛批雷軍玩文字游戲

      新華社火力全開,痛批雷軍玩文字游戲

      熱點菌本君
      2025-12-07 16:10:29
      0-2!姆巴佩失單刀,熊皇11場0球,皇馬主場爆冷,恐遭曼城吊打

      0-2!姆巴佩失單刀,熊皇11場0球,皇馬主場爆冷,恐遭曼城吊打

      我的護球最獨特
      2025-12-08 06:06:05
      一家老小入住重慶一酒店4個月拖欠房費4000多,老板倒貼也不肯搬,進展:搬走了

      一家老小入住重慶一酒店4個月拖欠房費4000多,老板倒貼也不肯搬,進展:搬走了

      瀟湘晨報
      2025-12-07 18:59:10
      屢禁不止?又有疑似“東北雨姐”小號冒頭,視頻只聞其聲不見其人,露臉畫面不到1秒

      屢禁不止?又有疑似“東北雨姐”小號冒頭,視頻只聞其聲不見其人,露臉畫面不到1秒

      極目新聞
      2025-12-07 19:52:40
      又一巨頭暴雷!收割2400億元,百萬人資金打水漂,創(chuàng)始人主動投案

      又一巨頭暴雷!收割2400億元,百萬人資金打水漂,創(chuàng)始人主動投案

      財經(jīng)八卦
      2025-12-06 17:59:27
      梅開48度!2年半,這是梅西在邁阿密的一人一城

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      體壇周報
      2025-12-07 10:30:13
      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      毒sir財經(jīng)
      2025-12-06 22:07:18
      已確認!寧波適齡男子都要登記

      已確認!寧波適齡男子都要登記

      極目新聞
      2025-12-07 14:23:22
      日本通告聯(lián)合國,逼中國認栽,話音剛落,上合組織給東京立規(guī)矩

      日本通告聯(lián)合國,逼中國認栽,話音剛落,上合組織給東京立規(guī)矩

      時時有聊
      2025-12-07 16:48:40
      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯(lián)系,正約時間送出禮物

      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯(lián)系,正約時間送出禮物

      極目新聞
      2025-12-07 16:35:20
      6國宣布出兵!中方不低頭也得低?揚言和中方斗到底!

      6國宣布出兵!中方不低頭也得低?揚言和中方斗到底!

      花花娛界
      2025-12-06 19:38:20
      演員金晨回應(yīng)妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      演員金晨回應(yīng)妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      極目新聞
      2025-12-07 20:24:25
      反轉(zhuǎn)!清華學(xué)霸為300元家教費撕臉高三家長后續(xù),網(wǎng)友:水平太差

      反轉(zhuǎn)!清華學(xué)霸為300元家教費撕臉高三家長后續(xù),網(wǎng)友:水平太差

      火山詩話
      2025-12-06 15:40:02
      上映6天,才5個觀眾,總票房僅146元,年度最慘電影出爐

      上映6天,才5個觀眾,總票房僅146元,年度最慘電影出爐

      娛說瑜悅
      2025-12-06 13:09:08
      風(fēng)向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      風(fēng)向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      時時有聊
      2025-12-07 06:42:33
      推特被罰1.2億歐后馬斯克喊“解散歐盟”,波蘭外長回懟:你飛火星去吧

      推特被罰1.2億歐后馬斯克喊“解散歐盟”,波蘭外長回懟:你飛火星去吧

      新華社
      2025-12-07 14:58:17
      2025-12-08 08:51:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14044文章數(shù) 66349關(guān)注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創(chuàng)業(yè),炮轟大模型,再戰(zhàn)AI

      頭條要聞

      美國安全戰(zhàn)略發(fā)生重大轉(zhuǎn)變 國安報告第19頁才提及中國

      頭條要聞

      美國安全戰(zhàn)略發(fā)生重大轉(zhuǎn)變 國安報告第19頁才提及中國

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經(jīng)要聞

      養(yǎng)牛場的秘密:每天開采數(shù)十車礦石倒賣

      汽車要聞

      傳奇超跑電動形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      教育
      旅游
      房產(chǎn)
      家居
      數(shù)碼

      教育要聞

      關(guān)注:東外開放日成績流出!

      旅游要聞

      渝見好“村”光|城口龍盤村:感受純凈的雪域水墨畫,人間值得!

      房產(chǎn)要聞

      封關(guān)啟幕宜居新時代!觀嵐森嶼定義三亞旅居度假新范本

      家居要聞

      白味湯館 當代宴飲儀式

      數(shù)碼要聞

      技嘉首家確認!Z890主板支持Intel下代酷睿Ultra 200S Plus

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 青娱乐av| 影音先锋男人站| 免费无码黄网站在线观看| 亚洲精品一二三四区| 色三区| 亚洲AV天天| 夜夜躁狠狠躁日日躁视频| 精品无码久久久久久国产| 国产视频最新| 国产黄色视频大全| 国产欧美日韩va另类在线播放| 亚洲国产成人无码网站大全| 亚洲欧美一区二区成人片| 国产浮力第一页| 亚洲?欧美?人妻| 黑人巨茎大战欧美白妇| 国产成人一区二区视频免费| 亚洲第一成人网站| 国内综合无码| 大地资源中文第三页| 国产三级精品三级在线专区1| 欧美顶级metart祼体全部自慰| 青冈县| 亚洲色大成网站www永久一区| 中国内地毛片免费高清| 久久黄色片| 亚洲成人第一页| 亚洲精品无码乱码成人| 又大又粗又硬又爽黄毛少妇 | 精品国模| 亚妇色人网| 国产h视频在线观看| 亚洲成a人片在线观看中| 合阳县| 伊人精品成人久久综合| 亚洲黄色无码| www.yw尤物| 色五月人妻| 国内精品美女a∨在线播放| 久久99精品久久久大学生| 欧美成人www免费全部网站 |