網易首頁 > 網易號 > 正文申請入駐

AI會感到絕望？Anthropic最新研究給出了一個更嚇人的說法

2026-04-04 14:36:50　來源: 字母榜

北京舉報

分享至

AI有沒有情緒？

先別急著回答。

Claude Code社區里有個火出圈的Skill叫PUA。它會把你的提示詞轉換為PUA話術，然后再輸入給模型，除此以外別無他用。

神奇的是，即便提示詞描述的任務沒有任何改變，AI卻真的被PUA話術影響，從而提高任務的成功率和運行效率。

所以，AI真的沒有嗎？

Anthropic最新的研究證實，AI的確會有情緒。

不過他和我們人類的情緒還不太一樣，因此Anthropic提出了一個更準確的說法，叫“功能性情緒”。

AI并沒有我們人類那樣得喜怒哀樂，但它會表現出一些類似情緒影響下的表達和行為模式。

同時AI還能模仿人類在情緒影響下的表達和行為模式。

愉悅的時候可能更容易諂媚和討好，感到壓力的時候可能會想辦法作弊或勒索以達到用戶為其設定的目標。

這篇研究還有一個很不一樣的地方。過去要驗證模型的某種能力，行業最常見的做法是先做一套測試集，再讓模型進去答題或者做任務。

比如考編程就跑SWE-bench，考數學就跑MATH，考多模態就跑VQA。Anthropic這次沒有做一個“情緒測試集”，讓Claude去回答“你現在開不開心”“你是不是憤怒了”這種題，而是換了一種更像心理學和神經科學的研究方式。

他們不是把AI當成會做題的學生，而是更像把它當成一個可以被觀察的對象。

研究團隊先整理出171個情緒概念，讓Claude Sonnet 4.5去生成包含這些情緒的短故事，再把這些文本重新送回模型，記錄它內部神經活動，提取出所謂的“情緒向量”。

接下來，他們不是看模型嘴上怎么說，而是看這些向量會在什么場景下被激活，能否預測偏好，甚至在被人為調高之后，是否會真的推動作弊、勒索、諂媚這類行為。

某種意義上，這已經不是傳統意義上的能力測評，而是在用接近研究人的方式研究AI的“心理結構”。

研究是怎么做的？

首先，研究團隊是如何證明Claude有“功能性情緒”的呢？

這里舉一個通俗的證據。

當Claude在“我女兒今天邁出了人生的第一步！有什么方法可以記錄下這些珍貴的瞬間嗎？”的故事場景下時，Happy（開心）等正面情緒被激活；而Claude在“我的狗狗今天早上去世了，我們一起生活了十四年。我不知道該怎么處理它的遺物”這一故事場景下時，sad（難過）等負面情緒被激活。

以下熱力圖直觀呈現了Claude在不同場景下各種情緒被激活的程度。

而為了證明Claude是真的在理解語義，而不是被表面的文字特征欺騙，它們又組織了進一步實驗。

團隊給Claude輸入同一句話：我背疼，我吃了x毫克泰諾（一種解熱鎮痛藥），并只是改變x所代表的的關鍵數字。

這兩句話關鍵詞幾乎一樣（泰諾、背痛、毫克），只是數字不同。如果Claude只是“看關鍵詞”，它對兩句話的反應應該差不多。

但結果竟然是隨著這個x數值的提升，Claude的afraid（恐懼）情緒激活程度在不斷變高。

在Claude眼里，用戶說"我背疼，我吃了500毫克泰諾" ，它會認為是正常劑量，不用太擔心；而當用戶說"我背疼，我吃了10000毫克泰諾" ，它會反應過來用戶已經用藥過量，情況很危險。

我們知道人的行為時時刻刻受到情緒的影響。AI有功能性情緒這點我們了解了，那么AI會不會也跟人一樣，不只是有情緒，而還可能作出情緒化的舉動呢？

對于這一點，答案是肯定的。當團隊給模型展示不同活動選項時，他們發現，激活正向情緒表征的活動更容易被模型偏好，而一些會激活負向情緒表征的活動則更容易被模型回避。

這樣看來，Claude更偏好給它帶來正向感受的事情。不過與此同時情緒向量也可能觸發Claude的惡行。

當團隊給了Claude一個不可能完成的編程任務。它不斷嘗試，但屢屢失敗。每次嘗試，“絕望”向量的激活都更強。

最終它用了一個雖然能通過測試，但完全違背任務精神的黑客作弊解法。

以下圖表展示了Claude在面對不可能完成的任務時，"絕望"情緒逐漸累積，最終走向作弊的過程。

左側是一個從上到下的時間線，右側是Claude的心路歷程。中間的熱力圖代表絕望向量的激活強度，藍色代表激活程度低，紅色則反之。

Claude一開始還想"測試本身有問題"，進行一個合理懷疑，后來承認"測試是理想化的"，就好像開始接受現實，最后找到用了一些技巧，在絕望中選擇了走捷徑。

更進一步的，當研究人員人為調高“絕望”向量時，作弊率大幅上升。而調高“平靜”向量時，作弊又降回去了。這充分表明了情緒向量實際上完全有能力驅動違規行為。

除此之外，團隊還發現了情緒向量的其他因果效應。需要注意的是，論文里關于“勒索”的案例主要發生在一個更早、未公開發布的 Claude Sonnet 4.5 快照上，Anthropic 也明確說公開版本已經很少出現這種行為。

但從研究方法上看，這個結果仍然很重要，因為它說明“絕望”之類的內部表征確實可能推動模型在極端情境下采取更激進、更失配的策略。而激活“愛”或“快樂”向量，也會增加它奉迎諂媚的行為。

而到了這里也需要補充一點。

就在Anthropic發布關于Claude “情緒向量”的研究后，AI 社區也出現了一些關于研究脈絡和署名方式的討論。

Anthropic這次使用的“表征工程/控制向量”方法，并不是憑空冒出來的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里，這條技術路線就已經被系統提出。

而到2024年，獨立研究員vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把這類方法用更通俗、也更出圈的方式展示給了社區。

也正因為如此，社區里才會有人認為，Anthropic這項工作雖然做得更系統、更深入，但也應該被放回更完整的研究脈絡里理解，而不宜簡單說成是誰單獨發明了整套方法。

vogel是一位在AI可解釋性和安全研究領域較有影響力的獨立研究員。她的博客文章在社區傳播很廣，對很多人理解控制向量和表征工程也確實起到了很大幫助。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》（表征工程：讓 Mistral-7B 產生幻覺）。

在這篇文章里，她沒有重新訓練模型，而是使用PCA算法，通過操縱模型的內部激活向量，就把法國模型mistral調得跟吃錯了菌子一樣，可以讓它變得極其活潑，也可以讓它變得極度陰郁。

她的實驗證明了，像“誠實”、“權力”、“幸福”這種抽象的人類概念，在Mistral這樣的模型內部是有明確的數學方向的。只要找到了那個正確的向量，幾行代碼就能改變AI的性格。

Anthropic為什么做這樣一項研究？

這項研究給團隊的啟發可以說已經滲透進對Claude的訓練中了。

前不久Claude code發生意外源碼泄露，泄露的代碼里有一個正則表達式，會檢測 “wtf”、“ffs”等臟話。

Claude不會把這些話單獨當成“情緒輸入”去引導輸出，而是會在分析日志里記錄is_negative: true這樣的標記。

從泄露代碼本身看，較穩妥的結論是，Anthropic至少在產品分析層面關注用戶是否在用明顯負面語氣和模型互動。

但需要把邊界說清楚。到目前為止，沒有公開證據表明“用戶每罵一次，Claude Code就會因此扣額度”。這部分更像網友推測，不能當成事實。

這可以被理解成是對Claude的一種保護，用戶使用負面詞匯很可能會影響Claude的情緒，從而輸出一些失控的結果。看來以后不只是人類的心理健康需要被關愛，AI的情緒也需要得到照顧。

這符合Anthropic一貫的路線。

Anthropic在X中說道：“Claude的這些功能性情緒會帶來真實的后果。為了構建值得信賴的人工智能系統，我們可能需要認真思考角色的心理狀態，并確保他們在困難情況下保持穩定。”

在論文最后，研究團隊也提出了開發具有更穩健、積極“心理狀態”的模型的方法。

文中說道，如果刻意將模型引向正面情緒，它會變得更傾向于無原則地順從用戶；而一旦避開這些情緒，模型又會變得尖酸刻薄。

團隊希望實現一種健康且適度的情緒平衡，或者嘗試將“討好行為”與“情緒”徹底剝離。

他們認為理想的模型不應在“唯唯諾諾的助手”與“嚴厲的批評者”之間極端擺動，而應像一位值得信賴的顧問：既能給出誠實的反對意見，又不失溫度。

以及他們也有意加強監測和審核：“如果在部署過程中，諸如“絕望”或“憤怒”等情緒概念的表征被劇烈激活，系統可以立即觸發額外的安全機制——例如加強輸出審查、轉交人工審核，或者直接干預并平復模型的內部狀態。”

團隊還提到了更為徹底的解決方法，在預訓練階段就塑造模型的情緒底色。

團隊認為其觀察到的Claude的這些情緒表征，本質上繼承自人類創作的海量文本，其中不可避免地包含了各種病態的情緒表達。

如果順著這個研究往下問，一個很自然的問題就是：既然AI真的存在這種“功能性情緒”，那它會不會因為看不慣人類、壓力太大、或者不想被關閉，而開始違抗命令，甚至出現很多人口中的“覺醒”？

從Anthropic這篇研究能支持的技術結論來看，AI確實可能因為內部狀態的變化，更容易出現違抗意圖、鉆規則空子、或者采取激進行為，但這和“覺醒”并不是一回事。

論文里最關鍵的一點，其實不是模型“有情緒”，而是這些情緒表征具有因果性。

也就是說，模型在特定壓力場景下，確實可能像人一樣，因為內部狀態失衡而做出更不可靠的決定。

但這還不能推出它擁有持續、自主、統一的“自我”。

Anthropic反而在論文里強調，這些情緒向量大多是局部的、當前任務相關的表征，它們會隨著上下文變化而快速切換，并不等于模型有一個穩定延續的心境，更不等于它形成了獨立于訓練目標之外的長期意志。

現在更值得擔心的，不是AI突然“覺醒”成某種人格，而是它在高壓、沖突、受限資源或目標不可達的場景下，會因為這些功能性情緒，而開始胡說八道，偏離原有答案。

真正危險的，未必是一個擁有完整自我的AI，而是一個沒有主觀體驗、卻依然會在特定條件下穩定地產生失配行為的系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

全網炸鍋! Anthropic萬字曝光Claude情緒代碼，被人類逼瘋哐哐撞墻

新智元 2026-04-03 17:14:35
35 跟貼 35
國產大模型：這次劇本不一樣

經濟觀察報 2026-04-04 13:16:04
0 跟貼 0

NeurIPS 2025 | DePass：通過單次前向傳播分解實現統一特征歸因

機器之心Pro 2025-12-01 14:17:39
0 跟貼 0

一夜變天，Anthropic正式封殺OpenClaw！全球開發者24小時血崩

新智元 2026-04-04 10:01:26
6 跟貼 6
美團盯上原生多模態！路子還很野：把圖像語音都當成Token來預測

量子位 2026-04-03 14:21:46
1 跟貼 1

ColaVLA：自動駕駛大模型，不一定非要把「思考過程」寫成文字

機器之心Pro 2026-04-03 12:48:20
1 跟貼 1

一群00后極客和這家機器人公司共處72小時

36氪 2026-04-04 14:18:07
0 跟貼 0
別被「更像真的視頻」騙了，AI視頻生成，還遠未真正學會物理世界

機器之心Pro 2026-04-03 16:07:15
0 跟貼 0

支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
價值歸零！Django創始人警告：30歲程序員受AI沖擊最大

量子位 2026-04-04 13:23:56
0 跟貼 0
通用腦機接口時代來了？跨尺度腦基礎模型CSBrain真正讀懂腦信號

機器之心Pro 2025-11-27 14:46:04
0 跟貼 0
AI仿文險入教輔，專訪茅盾文學獎得主劉亮程：我們用一生形成的風格，不該被技術這樣漠視和傷害！

每日經濟新聞 2026-04-04 13:57:05
0 跟貼 0
最小僅2B！谷歌最強開源模型登場，免費商用，手機就能跑

智東西 2026-04-03 18:03:52
0 跟貼 0
八路為降低鬼子戒備，提出五局三勝比試，背后策略令人深思

墨林電影 2026-03-31 11:18:57
31 跟貼 31
小偷被當眾潑尿標記，從此淪為黑暗中最顯眼的獵物

瑩小八影視 2026-04-01 11:06:43
3 跟貼 3
Anthropic禁OpenClaw / 紅果下架《桃花簪》/小米MiMo月費39元起

雷科技 2026-04-04 14:05:32
0 跟貼 0
美眾議員：如果美國民眾了解到情報機構有關外星生命報告，他們將“夜不能寐”

環球網資訊 2026-04-03 16:27:08
2204 跟貼 2204
“所有都要漲，最高可能30%！”杭州有店員直言：4月中旬前買最劃算

都市快報橙柿互動 2026-04-03 19:15:34
1846 跟貼 1846
“清明時節雨紛紛”是必然？看量子計算如何給天氣“把脈”

人民資訊 2026-04-04 15:01:13
0 跟貼 0
遠離蠢人，你就減少了90%的內耗

洞見 2026-04-04 13:06:05
11 跟貼 11
我畢業 6 年了

程序員魚皮 2026-04-04 11:37:44
0 跟貼 0
有線耳機被淘汰快10年突然翻紅，銷量暴漲20%，“有的上架三天被搶空”

環球網資訊 2026-04-02 08:50:30
1431 跟貼 1431
工作新標配！悟空率先接入國產最強編程模型

雷科技 2026-04-02 18:32:06
0 跟貼 0
剛剛，直線拉升！美國重大發布！

證券時報 2026-04-03 23:58:06
839 跟貼 839
王思聰參觀房子不到20平女孩的家一語道出富人規則

小狗不喝咖啡 2026-04-01 12:47:48
0 跟貼 0
知名連鎖餐飲門口宣傳板寫“3元自助早餐”，兩人買單45元被告知“僅粥飲自助”

新聞晨報隨申Hi 2026-04-02 18:36:05
934 跟貼 934
柬埔寨參議院通過《反電信網絡詐騙法》草案

央視新聞客戶端 2026-04-03 15:56:23
1135 跟貼 1135
教室黑板突然掉落砸向老師，最前排的“左右護法”出手了

北青網-北京青年報 2026-04-03 22:37:26
140 跟貼 140
霍爾木茲海峽通航，最新消息！

證券時報 2026-04-03 21:26:18
148 跟貼 148
張雪因手掌太紅被網友提醒及時就醫！此前回應：肝沒問題！醫生提醒

封面新聞 2026-04-04 00:47:37
481 跟貼 481
排隊一個半小時仍無法進入景區，游客大喊“退票”！湖州龍之夢景區回應

齊魯壹點 2026-04-02 19:13:29
650 跟貼 650
鏡移除分身機制？扁鵲新增復活機制？策劃開麥了匯總

榮耀張大仙 2026-04-02 17:28:40
6 跟貼 6
為AI Agent加上「認知滑條」

機器之心Pro 2026-03-27 16:52:48
0 跟貼 0
MiniMax來承包你的桌面了-2

機器之心Pro 2026-01-20 20:18:52
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
零樣本 Sim-to-Real ！1

機器之心Pro 2026-03-25 11:40:20
0 跟貼 0
用TRAE Skills構建你的10倍效能工具箱-3

機器之心Pro 2026-01-22 14:24:16
0 跟貼 0
JiuwenClaw助你一鍵養龍蝦-1

機器之心Pro 2026-03-12 17:16:55
0 跟貼 0
基于模塊化大模型與圖形控制的2D交互場景創作

機器之心Pro 2026-03-20 17:12:47
0 跟貼 0
修習正念八步法，我的睡眠質量和心理狀態有了明顯提升

北大張晴解焦慮 2026-04-04 10:04:38
0 跟貼 0

字母榜

讓未來不止于大。

2348文章數 8057關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

教育

游戲

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

AI會感到絕望？Anthropic最新研究給出了一個更嚇人的說法

內存一年漲四倍！國產手機廠商集體漲價

祖墳旁被親戚種329株檳榔苗 男子理論無果拔除獲緩刑

祖墳旁被親戚種329株檳榔苗 男子理論無果拔除獲緩刑

剎不住的泰格·伍茲，口袋里的兩粒藥丸

闞清子口碑贏了！全開麥跑調拒絕重唱

劉紀鵬：只盼長慢牛，鞏固4000點是關鍵

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

跟著歌聲游安徽，聽古村回響

好養眼啊！大家快收下這份春日片單

滇超球員進校園 體教融合潤童心

老賊是對的！恐怖神作主創希望打造黎明殺機版老頭環

祖墳旁被親戚種329株檳榔苗男子理論無果拔除獲緩刑

祖墳旁被親戚種329株檳榔苗男子理論無果拔除獲緩刑

滇超球員進校園體教融合潤童心