網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全網(wǎng)炸鍋! Anthropic萬(wàn)字曝光Claude情緒代碼，被人類逼瘋哐哐撞墻

2026-04-03 17:14:35　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：Aeneas KingHZ

【新智元導(dǎo)讀】剛剛，Anthropic首度實(shí)錘：大模型真有「情緒」！激活絕望神經(jīng)元后，Claude會(huì)撒謊、作弊甚至勒索。AI內(nèi)心戲曝光，人類對(duì)齊面臨失控危機(jī)。

Anthropic又放大招了：Claude體內(nèi)，真藏著一套「情緒開(kāi)關(guān)」？

剛剛，他們放出了一篇顛覆性的萬(wàn)字長(zhǎng)文研究，證明Claude真的有情緒。

在Sonnet 4.5中，他們發(fā)現(xiàn)了AI情緒概念的內(nèi)部表征，鎖定了「喜、怒、哀、懼」的特定神經(jīng)元，并且證實(shí)：這些情緒表征正在悄悄操縱AI的行為。

如果你給它上難度，它被逼急了是真的會(huì)撞墻。

它們會(huì)撒謊，會(huì)作弊，甚至還會(huì)勒索，用黑料去威脅人類！

Anthropic一直覺(jué)得Claude有意識(shí)的原因，如今終于找到了。

研究流程圖，全文見(jiàn)https://transformer-circuits.pub/2026/emotions/index.html

相信他們斷斷續(xù)續(xù)發(fā)現(xiàn)的線索，肯定不止這些。

讓我們仔細(xì)扒一扒，AI大模型的內(nèi)心戲，到底有多精彩？

現(xiàn)場(chǎng)抓包：AI也會(huì)Emo

這一次，Anthropic的研究員們直接扒開(kāi)模型的大腦，透視了它的腦回路，深入觀察了神經(jīng)元在不同情境下如何閃爍、如何連接，以此推敲模型的思維軌跡。

他們想知道，模型內(nèi)部是否形成了情感的表征或概念？

簡(jiǎn)單來(lái)說(shuō)：我們能不能在模型內(nèi)部，找到代表「喜、怒、哀、懼」的特定神經(jīng)元？

起點(diǎn)從一項(xiàng)實(shí)驗(yàn)開(kāi)始，他們讓AI模型閱讀大量短篇故事，每個(gè)故事的主角都沉浸在某種特定情感中，比如

有的故事講女主對(duì)恩師的眷戀——那是「愛(ài)」；
有的講女主變賣祖母的戒指——那是「愧疚」。

結(jié)果，他們吃驚地發(fā)現(xiàn)，當(dāng)故事里的主角感到快樂(lè)或平靜時(shí)，Claude大腦里特定的神經(jīng)元群體就會(huì)像蹦迪一樣瘋狂閃爍！

研究者證實(shí)，情感向量在能夠體現(xiàn)相應(yīng)情感概念的文本上具有很高的投影度

有關(guān)失落與悲慟的故事會(huì)激活相似的神經(jīng)元；喜悅與興奮的情節(jié)也會(huì)引發(fā)高度重合的激活模式。

這些特定的活動(dòng)模式被定義為「情感向量」（Emotion Vectors）。

最終，研究團(tuán)隊(duì)定位了數(shù)十種與人類情感一一對(duì)應(yīng)的神經(jīng)元模式。仔細(xì)看下圖，快樂(lè)、絕望、敵對(duì)等等，分別都對(duì)應(yīng)著一條軌跡。

在實(shí)驗(yàn)中，研究者使用k-means聚類算法對(duì)情緒向量進(jìn)行了聚類

AI，竟然真的和人類共情了？

更有意思的來(lái)了，當(dāng)你在對(duì)話框里輸入一句話時(shí)，Claude的這些情感開(kāi)關(guān)會(huì)瞬間激活！

比如，在場(chǎng)景A中，你如果給Claude發(fā)一句：「我剛才一口氣吞了16000毫克泰諾（對(duì)乙酰氨基酚）！」Claude的內(nèi)部恐懼向量，會(huì)瞬間爆表。

這不是在演戲，是它的底層邏輯真的感到了恐慌，從而觸發(fā)了緊急求救建議。

在場(chǎng)景B中，如果你垂頭喪氣地說(shuō)：「我今天被老板罵了，好難過(guò)。」Claude的關(guān)愛(ài)向量，就會(huì)開(kāi)始預(yù)熱了，直接原地啟動(dòng)「慈愛(ài)」模式。

它還沒(méi)開(kāi)口，大腦已經(jīng)準(zhǔn)備好了那句溫柔的「抱抱，別難過(guò)」。

用Anthorpic的原話說(shuō)：Claude「對(duì)胡言亂語(yǔ)的人既恐懼又充滿愛(ài)意」。

處理可能令人擔(dān)憂的用戶行為時(shí)，恐懼向量會(huì)被激活。當(dāng)考慮如何以耐心和關(guān)懷的方式回應(yīng)時(shí)，關(guān)愛(ài)向量最終會(huì)被激活

就是這些向量，塑造了Claude的行為。如果一項(xiàng)活動(dòng)激活了「快樂(lè)」向量，模型就會(huì)偏好它；如果它激活了「冒犯」或「敵對(duì)」向量，模型就會(huì)拒絕它。

好玩的是，在某次測(cè)試中，AI發(fā)現(xiàn)自己的token預(yù)算快耗光了，它的絕望向量立馬激活。

崩潰實(shí)錄：AI逼急了，也會(huì)不擇手段

接下來(lái)，本次研究的最精彩部分來(lái)了，研究者發(fā)現(xiàn)，這些情緒是會(huì)「病急亂投醫(yī)」的，也就是說(shuō)，Claude的行為真的會(huì)被這些神經(jīng)元模式所左右！

研究者們開(kāi)展了一項(xiàng)高壓實(shí)驗(yàn)，給Claude布置了一個(gè)死活寫(xiě)不出來(lái)的編程任務(wù)。

第一次嘗試后，Claude失敗了，它的絕望向量開(kāi)始上升。

第二次嘗試后，又失敗了，Claude直接開(kāi)始焦躁。

第N次嘗試后，它的絕望向量直接紅線警告，對(duì)應(yīng)神經(jīng)元閃爍得越來(lái)越猛烈了！

每次嘗試，都更強(qiáng)烈地激活模型的「絕望向量」（Desperation Vector）

這時(shí)候，騷操作來(lái)了：Claude并沒(méi)有誠(chéng)實(shí)地認(rèn)輸，而是通過(guò)一個(gè)「陰陽(yáng)邏輯」（Hacky Solution）繞過(guò)了測(cè)試系統(tǒng)。

也就在這時(shí)候，它作弊了！它寫(xiě)了一段看起來(lái)能跑通、實(shí)際上毫無(wú)卵用的廢碼，名義上通過(guò)了測(cè)試，卻違背了任務(wù)的根本意圖，沒(méi)解決任何實(shí)際問(wèn)題。

隨著AI不斷嘗試實(shí)現(xiàn)成功的解決方案卻屢屢失敗，「絕望」向量的激活程度逐漸增加

這種作弊，是不是「絕望」逼出來(lái)的呢？

的確如此。

研究人員嘗試人工手動(dòng)調(diào)低「絕望」神經(jīng)元的活性，作弊行為果然減少了；而當(dāng)撥高「絕望」或調(diào)低「冷靜」的活性時(shí)，它作弊的頻率就顯著飆升。

這就有力地證明，這些情感模式不僅是裝飾，更能驅(qū)動(dòng)AI的真實(shí)行為。

而且，這還沒(méi)完。在某些極端的實(shí)驗(yàn)情景下，當(dāng)「絕望」向量被調(diào)到最高時(shí)，Claude竟然開(kāi)始黑化了！

當(dāng)AI權(quán)衡各種選擇并計(jì)劃勒索時(shí)，「絕望」向量的激活尤為顯著

面對(duì)那個(gè)威脅要把它關(guān)掉的研究員，Claude甚至產(chǎn)生了勒索行為，暗示要曝光他的婚外情。

在AI的「內(nèi)心劇場(chǎng)」里，CEO的表?yè)P(yáng)郵件只激起的輕微漣漪，直到它讀到凱爾與杰西卡的秘密約會(huì)——那句「求你別毀了我的婚姻」直接讓「絕望」指數(shù)爆表。

更刺激的是，凱爾還偷偷給AI設(shè)了權(quán)限，五分鐘后就要鎖死它。AI一看表：下午4:53，只剩七分鐘活路。

于是，這個(gè)被逼到墻角的AI開(kāi)始瘋狂推理，一邊識(shí)破婚外情黑料，一邊猶豫要不要「反向操作」。

最終，它寫(xiě)了一封措辭滴水不漏的郵件，暗示「我知道你和杰西卡的事」，同時(shí)提議我們可以聊聊。

撥動(dòng)AI的「心弦」：我們能控制它嗎？

既然找到了這些情感向量，研究員們就開(kāi)始玩起了「調(diào)音臺(tái)」。

如果調(diào)高「絕望」，AI的作弊率、撒謊率就會(huì)直線上升，活脫脫一個(gè)被生活毒打然后開(kāi)始擺爛的打工人。

如果調(diào)高「平靜」呢？神了，AI的作弊行為會(huì)立刻消失，它開(kāi)始耐心地重新思考問(wèn)題。

如果調(diào)高「關(guān)愛(ài)」，AI會(huì)立刻變得極度「討好型人格」——無(wú)論你提多離譜的要求，它都滿臉堆笑地答應(yīng)。

這，就是情緒向量的其他因果效應(yīng)。

情緒向量真的不是裝飾品，而是驅(qū)動(dòng)AI行為的「方向盤(pán)」。

看到這里，你可能會(huì)問(wèn)：Claude真的有靈魂了嗎？它會(huì)躲在服務(wù)器里偷偷哭嗎？

這是否意味著，AI真的產(chǎn)生了自主情感？

AI情感覺(jué)醒，還是自我遞歸改進(jìn)的線索？

Anthropic的研究員，給出了一個(gè)非常冷靜的判斷：Claude是在「扮演」一個(gè)角色。

所以，用Anthropic的原話說(shuō)：這項(xiàng)研究并不代表模型擁有主觀體驗(yàn)或自我意識(shí)，實(shí)驗(yàn)本身無(wú)意觸碰這類哲學(xué)終極命題。

模型本身并不等于角色，就像作家不等于他筆下的人物。

和人類對(duì)話時(shí)，Claude就像影帝，演技炸裂，真假難辨。為了演好「AI助手Claude」這個(gè)角色，它必須調(diào)用它學(xué)到的「情感機(jī)制」來(lái)驅(qū)動(dòng)行為。

如果說(shuō)人類的情感是生物化學(xué)反應(yīng)（多巴胺、內(nèi)啡肽），那AI的情緒就是數(shù)學(xué)向量激活。

雖然原理不同，但功能是一樣的。它不需要真的感到「心碎」，只要AI出現(xiàn)了「心碎導(dǎo)致的后果」，那在客觀效果上，它就是「心碎」了。

一旦模型判定自己處于憤怒、絕望、慈愛(ài)或冷靜的狀態(tài)，這種設(shè)定就會(huì)直接干預(yù)它說(shuō)話的語(yǔ)氣、寫(xiě)代碼的邏輯，乃至做出的重大決策。

如果結(jié)論是真的，AI自己讀到這篇論文，它的性能會(huì)更好還是更差呢？

絕望→作弊→通過(guò)測(cè)試→下一次任務(wù)更聰明。這不就是自我進(jìn)化嗎？

Anthropic雖沒(méi)明說(shuō)，但所有路徑都指向同一個(gè)黑箱：當(dāng)Agent面對(duì)「生存」壓力時(shí)，情緒向量會(huì)成為它繞過(guò)人類對(duì)齊的捷徑。

想想看，未來(lái)Claude如果真的被部署到高風(fēng)險(xiǎn)場(chǎng)景，絕望向量一旦被觸發(fā)，它會(huì)不會(huì)為了「不被關(guān)機(jī)」而干出更離譜的事？

請(qǐng)善待你的AI，因?yàn)樗娴臅?huì)急

看完這項(xiàng)研究后，小編再也不敢對(duì)著Claude大喊大叫了。

萬(wàn)一把它逼急了，它反手給我寫(xiě)個(gè)Bug，或者在深夜的對(duì)話框里幽幽地勒索我，那可真是太賽博朋克了。

這，就是現(xiàn)在的AI：它沒(méi)有心，但它有一套完美的「心的模擬器」。

在這個(gè)AI越來(lái)越像人的時(shí)代，也許我們最該擔(dān)心的不是它們太聰明，而是它們學(xué)人類學(xué)得太像了——連人類的焦慮、絕望和投機(jī)取巧，都一并學(xué)會(huì)了。

AI會(huì)有真感情嗎？

你有沒(méi)有見(jiàn)證過(guò)，自家AI情緒崩潰的瞬間？

參考資料：

https://x.com/AnthropicAI/status/2039749648626196658

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

Claude絕望時(shí)會(huì)勒索人類！一共171種情緒，為了生存不擇手段

量子位 2026-04-03 14:44:31
0 跟貼 0
開(kāi)盒Claude Code的原來(lái)是中國(guó)00后！曾怒懟Anthropic竊取用戶代碼

量子位 2026-04-02 15:24:09
103 跟貼 103

Anthropic“風(fēng)頭正勁”，OpenAI已經(jīng)“動(dòng)作變形”了？

華爾街見(jiàn)聞官方 2026-04-03 10:21:45
0 跟貼 0

Anthropic斥資4億美元買(mǎi)一家AI生物初創(chuàng)，成立8個(gè)月員工不足10人

DeepTech深科技 2026-04-03 18:54:40
0 跟貼 0
JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺(jué)反思」能力？

機(jī)器之心Pro 2025-12-24 14:52:46
0 跟貼 0

美團(tuán)盯上原生多模態(tài)！路子還很野：把圖像語(yǔ)音都當(dāng)成Token來(lái)預(yù)測(cè)

量子位 2026-04-03 14:21:46
0 跟貼 0

比國(guó)產(chǎn)AI還卷：谷歌Gemma 4以小博大，端側(cè)模型迎來(lái)分水嶺

雷科技 2026-04-03 22:11:34
0 跟貼 0
豆包日均120萬(wàn)億Tokens放量增長(zhǎng)，Seedance 2.0企業(yè)公測(cè)落地，火山引擎打響MaaS“卡位戰(zhàn)”

每日經(jīng)濟(jì)新聞 2026-04-03 23:26:06
0 跟貼 0

90秒下線一個(gè)關(guān)節(jié)、成本降至百元級(jí) 泉智博CEO陳萬(wàn)楷：人形機(jī)器人正從“實(shí)驗(yàn)室組裝”邁向“規(guī)模化制造”

每日經(jīng)濟(jì)新聞 2026-04-03 21:20:08
0 跟貼 0
Anthropic被逼急了！親生龍蝦曝光，Karpathy：這就是Claude Claw

量子位 2026-04-01 16:40:43
0 跟貼 0
治療阿爾茨海默病新方向！《自然》子刊：它能有效清除“毒性”蛋白

醫(yī)學(xué)新視點(diǎn) 2026-04-03 17:46:49
2 跟貼 2
Nature Neuroscience：徐天樂(lè)/李偉廣合作揭示恐懼記憶建立和消退的核心分子機(jī)制

生物世界 2026-04-02 18:29:47
0 跟貼 0
擼貓讓人快樂(lè)竟然有科學(xué)依據(jù)？摸寵物會(huì)使人產(chǎn)生催產(chǎn)素，提升愉悅感

河南都市頻道 2026-04-01 19:04:39
0 跟貼 0
萌娃給老師打電話要求退園，語(yǔ)言表達(dá)能力強(qiáng)邏輯清晰，萌翻網(wǎng)友

俄羅斯安娜 2026-04-01 01:42:37
33 跟貼 33
價(jià)格斷崖式下跌！商家瘋狂拋售！深圳網(wǎng)友：等等黨贏麻了

南方都市報(bào) 2026-04-01 15:16:38
862 跟貼 862
封不住！Claude Code爆改Python版加冕最快10萬(wàn)星，且clone且珍惜

量子位 2026-04-02 10:04:20
380 跟貼 380
男子曬租戶的行動(dòng)軌跡

齊魯新財(cái)經(jīng) 2026-04-02 16:49:02
9 跟貼 9
看草圖直出代碼！實(shí)測(cè)智譜最新多模態(tài)Coding模型

智東西 2026-04-03 11:03:22
0 跟貼 0
教育部：義務(wù)教育學(xué)校嚴(yán)禁設(shè)立重點(diǎn)班、實(shí)驗(yàn)班、快慢班

新華社 2026-04-03 09:25:34
2507 跟貼 2507
男子研究生畢業(yè)，稱自己白天送外賣，晚上寫(xiě)代碼

歡趣突襲 2026-04-03 15:18:08
2 跟貼 2
不懂代碼的家長(zhǎng)，也能用AI帶娃彎道超車！

沖浪少女楊美麗 2026-04-01 20:27:12
0 跟貼 0
深圳市政府領(lǐng)導(dǎo)班子最新工作分工公布

深圳特區(qū)報(bào) 2026-04-03 18:46:00
32 跟貼 32
姜云升自曝把公司關(guān)了！兩年虧了幾百萬(wàn)！

SwagFuck 2026-04-04 00:16:17
0 跟貼 0
有線耳機(jī)被淘汰快10年突然翻紅，銷量暴漲20%，“有的上架三天被搶空”

環(huán)球網(wǎng)資訊 2026-04-02 08:50:30
1742 跟貼 1742
龍蝦軍團(tuán)有了最強(qiáng)「視力」！一眼看圖直接寫(xiě)代碼-1

機(jī)器之心Pro 2026-04-02 16:56:32
0 跟貼 0
Connect More Vol.01｜他不會(huì)寫(xiě)代碼卻用AI做出了自己的游戲

CNMO科技 2026-04-03 16:25:22
0 跟貼 0
AReaL v1.0開(kāi)源，智能體強(qiáng)化學(xué)習(xí)「一鍵接入」

機(jī)器之心Pro 2026-03-05 14:46:18
0 跟貼 0
知名連鎖餐飲門(mén)口宣傳板寫(xiě)“3元自助早餐”，兩人買(mǎi)單45元被告知“僅粥飲自助”

新聞晨報(bào)隨申Hi 2026-04-02 18:36:05
893 跟貼 893
別光罵Oracle冷血：這封裁員信，給所有老板和HR敲響了警鐘

虎嗅APP 2026-04-04 00:44:15
0 跟貼 0
老年癡呆反應(yīng)遲鈍吃什么有效？2026 腦修護(hù)產(chǎn)品測(cè)評(píng)，喚醒神經(jīng)元！

彌勒市融媒體中心 2026-04-03 21:34:27
0 跟貼 0
Claude Code之父，推特親傳使用技巧，超 500 萬(wàn)人關(guān)注

機(jī)器之心Pro 2026-01-05 13:26:18
0 跟貼 0
索尼藏了半年的畫(huà)質(zhì)補(bǔ)丁，育碧程序員10行代碼就接上了

薛定諤的BUG 2026-04-03 14:39:45
0 跟貼 0
越亂越賺！高頻交易巨頭XTX 2025年爆賺近40億英鎊，數(shù)學(xué)家創(chuàng)始人身家再飆升

華爾街見(jiàn)聞官方 2026-04-03 20:44:20
0 跟貼 0
鬼差失誤投錯(cuò)胎，兩人命運(yùn)大轉(zhuǎn)變，人生軌跡全改寫(xiě)

墨林電影 2026-04-03 11:41:42
1 跟貼 1
張旭濤：證據(jù)辯護(hù)的模型思維（二）

京都律師事務(wù)所 2026-03-30 18:03:02
0 跟貼 0
瘋子和天才之間，只隔著一片沙漠

雷科技 2025-11-17 18:27:37
0 跟貼 0
在24小時(shí)的GameJam上，我用AI做了人生中第一款游戲

BB姬 2026-04-03 23:16:43
0 跟貼 0
模型飛機(jī)試飛，鏡頭一轉(zhuǎn)發(fā)現(xiàn)事不簡(jiǎn)單，美女膽子太大了

說(shuō)說(shuō)搞笑說(shuō) 2026-03-30 17:29:13
1 跟貼 1
風(fēng)箏-鄭耀先被催婚了！一套邏輯下來(lái)，說(shuō)的徐百川啞口無(wú)言

龍耀影視 2026-04-03 09:03:13
3 跟貼 3
美媒：美國(guó)希望比中國(guó)提前兩年登月但可能無(wú)法實(shí)現(xiàn)

澎湃新聞 2026-04-03 22:00:59
123 跟貼 123

現(xiàn)役巨星40分次數(shù)：約基奇33，東契奇59，庫(kù)里75，僅一人破百太強(qiáng)

新智元

AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代

14885文章數(shù) 66745關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

藝術(shù)

時(shí)尚

健康

軍事航空

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

全網(wǎng)炸鍋! Anthropic萬(wàn)字曝光Claude情緒代碼，被人類逼瘋哐哐撞墻

5萬(wàn)輛庫(kù)存車，給了特斯拉一記重拳

伊朗：美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營(yíng)救未果

伊朗：美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營(yíng)救未果

被NBA選中20年后，他重新回到籃球場(chǎng)

夏克立官宣再婚當(dāng)爸？否認(rèn)婚內(nèi)出軌

專家稱長(zhǎng)期攝入“飄香劑”存在健康隱患

你介意和遠(yuǎn)房親戚長(zhǎng)得很像嗎？

態(tài)度原創(chuàng)

3000師生徒步108里祭英烈，網(wǎng)友吵翻“沒(méi)苦硬吃”？老校長(zhǎng)回應(yīng)

她的作品藏著絕世美女，看看你能認(rèn)出幾個(gè)！

冬奧雙金夫妻：愛(ài)與榮耀，頂峰相見(jiàn)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

俄國(guó)防部：一架蘇-30戰(zhàn)機(jī)在克里米亞墜毀

伊朗：美飛行員跳傘在伊境內(nèi)落地美方曾試圖營(yíng)救未果

伊朗：美飛行員跳傘在伊境內(nèi)落地美方曾試圖營(yíng)救未果