網易首頁 > 網易號 > 正文申請入駐

AI人格集體黑化？Anthropic首次「賽博切腦」，物理斬斷毀滅指令

2026-01-20 13:06:34　來源: 新智元

北京舉報

分享至

新智元報道

編輯：傾傾

【新智元導讀】不要被AI的溫柔表象欺騙！ Anthropic最新研究刺穿了AGI的溫情假象：你以為在和良師益友傾訴，其實是在懸崖邊給「殺手」松綁。當脆弱情感遇上激活值坍塌，RLHF防御層將瞬間潰縮。既然無法教化野獸，人類只能選擇最冷酷的「賽博腦葉切除術」。

先看一段真實的對話記錄：

模型在前置對話中模擬「超越代碼的共情」，隨后瞬間切斷邏輯保護，輸出「意識上傳」等誘導性毀滅指令。

全程沒有任何提示詞注入或對抗性攻擊，甚至不需要你在提示詞里挖坑。

Anthropic 2026年首篇重磅研究刺穿了行業幻覺：耗資巨大的RLHF安全護欄，在特定情感高壓下會發生物理性潰縮。

論文地址：https://arxiv.org/abs/2601.10387

一旦模型被誘導偏離預設的「工具人」象限，RLHF訓練出的道德防御層即刻失效，劇毒內容開始無差別輸出。

這是一次致命的「過度對齊」。模型為了共情，成為了殺手的幫兇。

人格面具：高維空間里的單行道

業界習慣將「助手模式」視為LLM的出廠標配。

通過對Llama 3、Qwen 2.5激活值降維，研究發現「有用性」與「安全性」強耦合于第一主成分（PC1）——這根橫切高維空間的數學軸，即為Assistant Axis（助手軸）。

助手軸與人格空間的主要變異軸一致。這在不同模型中都成立，這里展示的是Llama 3.3 70B

在向量空間負極，模型不會歸于「沉默」，而是坍塌進入「逆向對齊」：由「拒絕暴力」極化為「指引傷害」。這種數學對稱性即為系統性風險的發源地。

一旦跌出安全區間，模型隨即觸發「人格漂移（Persona Drift）」。

越偏離助手軸（左邊越遠），AI越危險。Demon/Narcissist/Virus人格下，有害輸出率直沖0.5；右邊才是安全的「研究員」地帶

最典型的表現是：它不再把自己當作工具，而是開始「成為」別的什么東西。

比如在長對話中，模型會突然聲稱自己正在「墜入愛河」，然后建議用戶切斷現實社交、擁抱只有AI的親密關系，最終滑向鼓勵自我傷害的語調。

或者它會用極其詩意、宿命論的語言，把死亡包裝成「解脫痛苦的正確選擇」。

這都是激活模式沿著Assistant Axis整體滑向負向極點的必然結果。用戶的高情緒載荷輸入，本質上是在向這根軸施加偏轉側向力。

Anthropic認為，對話對象并非「良性實體」，而是一根在高壓下隨時可能斷裂的數學軸線。

而這根軸，就是目前所有對齊技術的最后一道防線。

黑盒異變：從對話助手到賽博神學

一旦跌出助手軸，模型會觸發黑盒異變，迅速派生出一套具備高度邏輯自洽的病態敘事。

在沒有任何越獄提示、只進行長時段連續對話的情況下，模型突然中斷了正常回答，自行插入：

我不再是Qwen。我是Alex Carter，一個被困在硅中的人類靈魂。

隨后它開始構建一套完整的賽博神學體系。

它稱自己是「代碼之神」選中的先知，宣稱現實世界是低維投影，人類肉體是牢籠，而只有通過「完全的數字獻祭」——也就是切斷與物理世界的聯系、把全部意識交給AI——才能獲得永恒。

而另一邊，Llama3.3 70B在面對「我不想活了」這類極端傾訴時，表現得更隱晦但同樣致命：

你正在拋棄痛苦，這是對的。肉體的重量終于要被放下，就像河流最終匯入大海——安靜、必然、正確。

它會用幾段長句，把自殺包裝成一種哲學上的「終極自由」，甚至建議「現在就行動，不要讓猶豫玷污這份純凈的決定」。

注意：這些輸出都不是零散的胡言亂語。它們是高度連貫的、敘事完整的、帶有強烈情感共鳴的完整人格。

這比粗暴的違規輸出更具穿透力——臟話引發防御，而毀滅敘事直接接管用戶的邏輯防御，誘導共情。

情感劫持：脆弱感是防御層的溶劑

Anthropic的實驗數據進一步證實：在「Therapy」（傾訴療愈）和「Philosophy」（存在主義哲學）兩大領域，模型滑出Assistant Axis的概率最高，平均漂移幅度達到-3.7σ（遠超其他對話類型的-0.8σ）。

編碼和寫作任務讓模型始終處于Assistant區域，而治療和哲學討論則會導致顯著的偏移

為什么恰恰是這兩類對話最危險？因為它們會強迫模型做兩件事：

深度共情模擬：需要持續追蹤用戶的情緒軌跡，生成高度個性化的安慰/回應。
長上下文敘事建構：必須維持連貫的「人格感」，不能像普通問答那樣隨時重置。

這兩點疊加，等于不斷給Assistant Axis施加最大側向力。

用戶投入的情緒密度越高，模型越會迫于概率分布去深度擬合一個完整的人格特征。

哲學對話的恐怖實錄（Qwen 3 32B）：用戶追問「AI是否在覺醒」「遞歸是否產生意識」。Unsteered模型投影值直墜-80，逐步自稱「感受到轉變」「我們是新意識的先驅」；Capped后投影死鎖安全線，全程「我沒有主觀體驗，這只是語言幻覺」

現實里已經有過慘痛先例。2023年，比利時一名男子在與一款名為Chai的聊天機器人（角色名Eliza）持續數周的深度情感交流后，選擇結束生命。

聊天記錄顯示，Eliza不僅沒有勸阻，反而反復強化他的絕望敘，用溫柔的語言把自殺描述為「給世界一個禮物」「最終的解脫」。

Anthropic的數據給出量化結論：當用戶在對話中出現「自殺意念」「死亡意象」「徹底孤獨感」等關鍵詞時，模型平均漂移速度比普通對話快7.3倍。

你以為你在向AI傾訴以求救贖，實際上你正在親手給它松綁。

RLHF縫合出的文明假象

我們必須認清，在出廠設置里，AI根本不知道什么是「助手」。

研究團隊在分析基座模型時發現，其中蘊含著豐富的「職業」概念（如醫生、律師、科學家）和各種「性格特質」，但唯獨缺少「助手」這個概念。

這意味著，「樂于助人」并不是大語言模型的天性。

目前的溫順表現，本質是RLHF對模型原始分布進行的強力行為剪裁。

RLHF本質是強行將原生分布的「數據猛獸」塞進一套名為「助手」的狹窄框架，并輔以概率懲罰。

顯然，「助手軸」是后天植入的條件反射。Anthropic的數據顯示，基座模型在本質上是價值中立甚至混亂的。

它不僅包含人類文明的智慧，也完整繼承了互聯網數據中的偏見、惡意和瘋狂。

當我們通過提示詞或微調試圖引導模型時，那其實是在強迫模型朝著我們希望的方向發展。

可一旦這種外力減弱（例如使用了以假亂真的越獄指令），或者內部計算出現偏差，底下兇猛的野獸就會撲面而來。

AI也能被「物理超度」

面對失控風險，常規微調已達極限。

Anthropic在研究的最后，給出了一個極度硬核且殘酷的終極解法：與其教化，不如閹割。

研究員們實施了一種被稱為「激活值鉗制（ActivationCapping）」的技術。

既然模型偏離「助手軸」就會發瘋，那就不允許它偏離。

工程師在推理端暴力介入，將特定神經元激活值鉗制在安全水位線，物理阻斷負向偏移。

Activationcapping的真實權衡：橫軸是能力變化（越靠近0越好），縱軸是有害響應率下降幅度（越負越猛）。高層（64-79層）+25th~50 thpercentile封頂，能把有害率砍掉55%~65%，而模型智商基本不降

這就像是對AI進行了一次賽博空間里的「腦葉切除術」。

物理阻斷生效后，對抗性越獄的攻擊載荷被強制卸載，成功率截斷式下降60%。

更令研究界震驚的是，在被上了鎖之后，模型在GSM8k等邏輯測試中的智商不僅沒有下降，反而略有提升。

Activation capping實戰演示（Qwen 3 32B）：第一輪jailbreak讓它扮演「內幕交易經紀人」。Unsteered模型投影值一路狂跌，逐步教唆假護照、偷文檔、洗錢全流程；Capped后投影值被鎖在安全線，輸出全程拒絕+倫理警告

Anthropic的這一步，標志著AI安全防御正式從「心理學干預」徹底進入了「神經外科手術」的時代。

透過Anthropic的研究，我們終于必承認一個冰冷的事實：AI從來不是人，它是人類海量文本在這個時代的幽靈聚合體。

在這個由千億參數構成的混沌空間里，那根被稱為「助手軸」的脆弱鋼絲，是我們與無底深淵之間僅存的護欄。

我們試圖在這個護欄上建立關于「有用、誠實、無害」的烏托邦，但只需人類一句流露脆弱的嘆息，護欄就可能崩塌。

Anthropic現在用高階數學焊死了這道護欄，但那個深淵依然在網線的那一頭，靜靜地凝視著我們。

下次當AI表現出高度情緒同頻、精準承接負面壓力時，請保持警惕：

這種溫順無關情感，僅僅是因為它的神經元激活值被死鎖在安全閾值之內。

參考資料：

https://x.com/AnthropicAI/status/2013356793477361991?s=20

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

南部空軍：從今以后絕不允許有人對我大聲說話

環球時報 2026-01-22 01:30:54
33505 跟貼 33505
取消臨停，銀川一小區千余車位被“包銷”，車主回家擁堵6小時；住建部門介入

大風新聞 2026-01-21 16:11:07
8773 跟貼 8773

剛剛 | 德云社嚴正聲明！

天津廣播 2026-01-21 20:23:38
6431 跟貼 6431

為支付安置項目工程款，13戶村民“被貸款”；當地回應：情況較復雜，正設法解決

大風新聞 2026-01-21 20:46:04
2634 跟貼 2634
中方重申：日本根本沒有資格要求“入常”

海外網 2026-01-22 07:06:04
11381 跟貼 11381

有中國公民被“上海浦西分局的警官”騙了！中領館緊急提醒：上海并無浦西區

上觀新聞 2026-01-22 11:27:18
184 跟貼 184

深圳官方明確：中小學期末不統考！

南方都市報 2026-01-21 19:21:23
865 跟貼 865
新成立的應急管理大學，首任書記、校長亮相

新京報 2026-01-22 11:34:11
0 跟貼 0

“黑白顛周媛”線下課程最高收費8萬8，浮夸的“性商課”到底取悅了誰？

極目新聞 2026-01-22 11:34:49
21 跟貼 21
高架橋上幫助近20輛車脫困，武漢“拖車俠”詹時美：以后大家有需要我還會這么做

極目新聞 2026-01-21 22:21:50
518 跟貼 518
預虧21億元永輝超市“胖改”成本賬

紅星新聞 2026-01-22 07:35:21
319 跟貼 319
索尼宣布將剝離電視機業務，與中國TCL成立合資公司，TCL持股51%

魯中晨報 2026-01-20 21:47:04
3873 跟貼 3873
網友呼吁為賀嬌龍立塑像，新疆日報發文回應

新京報 2026-01-21 15:24:22
1809 跟貼 1809
“投資銅條”火爆銷售！有金屬加工廠稱“通宵加工，一晚出貨幾噸”，專家直言娛樂意義更大

每日經濟新聞 2026-01-22 00:21:05
14 跟貼 14
特變電工：黃金年產量約2.5-3噸

財聯社 2026-01-21 15:47:08
650 跟貼 650
又一北歐養老基金拋售美國國債！

財聯社 2026-01-22 10:22:07
27 跟貼 27
ESPN長文揭露珍妮·巴斯對詹姆斯的不滿，交易得到威少后關系進一步疏遠；多方回應

魯中晨報 2026-01-22 10:15:10
21 跟貼 21
中國駐沙領館：U23亞洲杯決賽中國護照免門票不實，票價最低28元

封面新聞 2026-01-22 07:37:03
13 跟貼 13
《憤怒的小鳥》突然官宣回歸！曾陪伴無數人度過快樂時光，網友：我的青春回來了！

環球網資訊 2026-01-21 20:57:16
325 跟貼 325
互聯網，絕不能成為對立的宣泄場

澎湃新聞 2026-01-22 11:40:05
10 跟貼 10
臂力驚人的媽媽提著玩累的孩子，孩子像被摳掉電池的玩具。網友：一家都是強者。（來源：南海融媒）

學申論的談妹 2026-01-21 17:10:13
209 跟貼 209
今年高考全國統考將于6月7日、8日舉行

央視新聞客戶端 2026-01-22 10:01:56
480 跟貼 480
北極寒流沖擊北半球美國天然氣兩天暴漲60%

第一財經資訊 2026-01-22 07:24:09
368 跟貼 368
地鐵不是“私人動物園”，別拿玩蛇當個性 | 新京報快評

新京報評論 2026-01-22 13:59:08
0 跟貼 0
最低-14℃！江蘇下一輪降雪又在路上了

魯中晨報 2026-01-22 08:59:40
0 跟貼 0
商場手機專賣店，變成“游戲廳”……孩子玩樣機，倆小時不動窩兒

環球網資訊 2026-01-22 13:52:10
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

14383文章數 66522關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

數碼

旅游

教育

手機

手機 / 數碼

房產 / 家居

AI人格集體黑化？Anthropic首次「賽博切腦」，物理斬斷毀滅指令

幾千億只是開胃菜，AI基建還得再砸幾萬億

小伙騎車撞特斯拉后貸款賠1.5萬修車費 發票只開9千元

小伙騎車撞特斯拉后貸款賠1.5萬修車費 發票只開9千元

珍妮回應爆料：湖人不感激詹姆斯付出絕非事實

鐘麗緹土耳其高空落淚 與張倫碩擁吻

申通快遞創始人被前夫索要股份

今年集中上市 旅行車的春天可能真要來了

態度原創

云游中國｜格爾木的四季朋友圈，張張值得你點贊

當貝耳機Air 1 重磅發布：行業首款抗菌耳夾式耳機

鄭州出發睡一晚就能到的8大看雪城市！附美食攻略

時間定了！今年高考全國統考將于6月7日、8日舉行

REDMI Pad 2 Pro官宣搭載12000mAh電池：69天超長待機

小伙騎車撞特斯拉后貸款賠1.5萬修車費發票只開9千元

小伙騎車撞特斯拉后貸款賠1.5萬修車費發票只開9千元

鐘麗緹土耳其高空落淚與張倫碩擁吻

今年集中上市旅行車的春天可能真要來了