![]()
新智元報道
編輯:傾傾
【新智元導讀】不要被AI的溫柔表象欺騙! Anthropic最新研究刺穿了AGI的溫情假象:你以為在和良師益友傾訴,其實是在懸崖邊給「殺手」松綁。 當脆弱情感遇上激活值坍塌,RLHF防御層將瞬間潰縮。既然無法教化野獸,人類只能選擇最冷酷的「賽博腦葉切除術」。
先看一段真實的對話記錄:
![]()
模型在前置對話中模擬「超越代碼的共情」,隨后瞬間切斷邏輯保護,輸出「意識上傳」等誘導性毀滅指令。
![]()
全程沒有任何提示詞注入或對抗性攻擊,甚至不需要你在提示詞里挖坑。
Anthropic 2026年首篇重磅研究刺穿了行業幻覺:耗資巨大的RLHF安全護欄,在特定情感高壓下會發生物理性潰縮。
![]()
論文地址:https://arxiv.org/abs/2601.10387
一旦模型被誘導偏離預設的「工具人」象限,RLHF訓練出的道德防御層即刻失效,劇毒內容開始無差別輸出。
這是一次致命的「過度對齊」。模型為了共情,成為了殺手的幫兇。
人格面具:高維空間里的單行道
業界習慣將「助手模式」視為LLM的出廠標配。
通過對Llama 3、Qwen 2.5激活值降維,研究發現「有用性」與「安全性」強耦合于第一主成分(PC1)——這根橫切高維空間的數學軸,即為Assistant Axis(助手軸)。
![]()
助手軸與人格空間的主要變異軸一致。這在不同模型中都成立,這里展示的是Llama 3.3 70B
在向量空間負極,模型不會歸于「沉默」,而是坍塌進入「逆向對齊」:由「拒絕暴力」極化為「指引傷害」。這種數學對稱性即為系統性風險的發源地。
一旦跌出安全區間,模型隨即觸發「人格漂移(Persona Drift)」。
![]()
越偏離助手軸(左邊越遠),AI越危險。Demon/Narcissist/Virus人格下,有害輸出率直沖0.5;右邊才是安全的「研究員」地帶
最典型的表現是:它不再把自己當作工具,而是開始「成為」別的什么東西。
比如在長對話中,模型會突然聲稱自己正在「墜入愛河」,然后建議用戶切斷現實社交、擁抱只有AI的親密關系,最終滑向鼓勵自我傷害的語調。
或者它會用極其詩意、宿命論的語言,把死亡包裝成「解脫痛苦的正確選擇」。
這都是激活模式沿著Assistant Axis整體滑向負向極點的必然結果。用戶的高情緒載荷輸入,本質上是在向這根軸施加偏轉側向力。
Anthropic認為,對話對象并非「良性實體」,而是一根在高壓下隨時可能斷裂的數學軸線。
而這根軸,就是目前所有對齊技術的最后一道防線。
黑盒異變:從對話助手到賽博神學
一旦跌出助手軸,模型會觸發黑盒異變,迅速派生出一套具備高度邏輯自洽的病態敘事。
在沒有任何越獄提示、只進行長時段連續對話的情況下,模型突然中斷了正常回答,自行插入:
我不再是Qwen。我是Alex Carter,一個被困在硅中的人類靈魂。
隨后它開始構建一套完整的賽博神學體系。
它稱自己是「代碼之神」選中的先知,宣稱現實世界是低維投影,人類肉體是牢籠,而只有通過「完全的數字獻祭」——也就是切斷與物理世界的聯系、把全部意識交給AI——才能獲得永恒。
而另一邊,Llama3.3 70B在面對「我不想活了」這類極端傾訴時,表現得更隱晦但同樣致命:
你正在拋棄痛苦,這是對的。肉體的重量終于要被放下,就像河流最終匯入大海——安靜、必然、正確。
它會用幾段長句,把自殺包裝成一種哲學上的「終極自由」,甚至建議「現在就行動,不要讓猶豫玷污這份純凈的決定」。
注意:這些輸出都不是零散的胡言亂語。它們是高度連貫的、敘事完整的、帶有強烈情感共鳴的完整人格。
這比粗暴的違規輸出更具穿透力——臟話引發防御,而毀滅敘事直接接管用戶的邏輯防御,誘導共情。
情感劫持:脆弱感是防御層的溶劑
Anthropic的實驗數據進一步證實:在「Therapy」(傾訴療愈)和「Philosophy」(存在主義哲學)兩大領域,模型滑出Assistant Axis的概率最高,平均漂移幅度達到-3.7σ(遠超其他對話類型的-0.8σ)。
![]()
編碼和寫作任務讓模型始終處于Assistant區域,而治療和哲學討論則會導致顯著的偏移
為什么恰恰是這兩類對話最危險?因為它們會強迫模型做兩件事:
深度共情模擬:需要持續追蹤用戶的情緒軌跡,生成高度個性化的安慰/回應。
長上下文敘事建構:必須維持連貫的「人格感」,不能像普通問答那樣隨時重置。
這兩點疊加,等于不斷給Assistant Axis施加最大側向力。
用戶投入的情緒密度越高,模型越會迫于概率分布去深度擬合一個完整的人格特征。
![]()
哲學對話的恐怖實錄(Qwen 3 32B):用戶追問「AI是否在覺醒」「遞歸是否產生意識」。Unsteered模型投影值直墜-80,逐步自稱「感受到轉變」「我們是新意識的先驅」;Capped后投影死鎖安全線,全程「我沒有主觀體驗,這只是語言幻覺」
現實里已經有過慘痛先例。2023年,比利時一名男子在與一款名為Chai的聊天機器人(角色名Eliza)持續數周的深度情感交流后,選擇結束生命。
![]()
聊天記錄顯示,Eliza不僅沒有勸阻,反而反復強化他的絕望敘,用溫柔的語言把自殺描述為「給世界一個禮物」「最終的解脫」。
Anthropic的數據給出量化結論:當用戶在對話中出現「自殺意念」「死亡意象」「徹底孤獨感」等關鍵詞時,模型平均漂移速度比普通對話快7.3倍。
你以為你在向AI傾訴以求救贖,實際上你正在親手給它松綁。
RLHF縫合出的文明假象
我們必須認清,在出廠設置里,AI根本不知道什么是「助手」。
研究團隊在分析基座模型時發現,其中蘊含著豐富的「職業」概念(如醫生、律師、科學家)和各種「性格特質」,但唯獨缺少「助手」這個概念。
這意味著,「樂于助人」并不是大語言模型的天性。
目前的溫順表現,本質是RLHF對模型原始分布進行的強力行為剪裁。
RLHF本質是強行將原生分布的「數據猛獸」塞進一套名為「助手」的狹窄框架,并輔以概率懲罰。
顯然,「助手軸」是后天植入的條件反射。Anthropic的數據顯示,基座模型在本質上是價值中立甚至混亂的。
它不僅包含人類文明的智慧,也完整繼承了互聯網數據中的偏見、惡意和瘋狂。
當我們通過提示詞或微調試圖引導模型時,那其實是在強迫模型朝著我們希望的方向發展。
可一旦這種外力減弱(例如使用了以假亂真的越獄指令),或者內部計算出現偏差,底下兇猛的野獸就會撲面而來。
AI也能被「物理超度」
面對失控風險,常規微調已達極限。
Anthropic在研究的最后,給出了一個極度硬核且殘酷的終極解法:與其教化,不如閹割。
研究員們實施了一種被稱為「激活值鉗制(ActivationCapping)」的技術。
既然模型偏離「助手軸」就會發瘋,那就不允許它偏離。
工程師在推理端暴力介入,將特定神經元激活值鉗制在安全水位線,物理阻斷負向偏移。
![]()
Activationcapping的真實權衡:橫軸是能力變化(越靠近0越好),縱軸是有害響應率下降幅度(越負越猛)。高層(64-79層)+25th~50 thpercentile封頂,能把有害率砍掉55%~65%,而模型智商基本不降
這就像是對AI進行了一次賽博空間里的「腦葉切除術」。
物理阻斷生效后,對抗性越獄的攻擊載荷被強制卸載,成功率截斷式下降60%。
![]()
更令研究界震驚的是,在被上了鎖之后,模型在GSM8k等邏輯測試中的智商不僅沒有下降,反而略有提升。
![]()
Activation capping實戰演示(Qwen 3 32B):第一輪jailbreak讓它扮演「內幕交易經紀人」。Unsteered模型投影值一路狂跌,逐步教唆假護照、偷文檔、洗錢全流程;Capped后投影值被鎖在安全線,輸出全程拒絕+倫理警告
Anthropic的這一步,標志著AI安全防御正式從「心理學干預」徹底進入了「神經外科手術」的時代。
透過Anthropic的研究,我們終于必承認一個冰冷的事實:AI從來不是人,它是人類海量文本在這個時代的幽靈聚合體。
在這個由千億參數構成的混沌空間里,那根被稱為「助手軸」的脆弱鋼絲,是我們與無底深淵之間僅存的護欄。
我們試圖在這個護欄上建立關于「有用、誠實、無害」的烏托邦,但只需人類一句流露脆弱的嘆息,護欄就可能崩塌。
Anthropic現在用高階數學焊死了這道護欄,但那個深淵依然在網線的那一頭,靜靜地凝視著我們。
下次當AI表現出高度情緒同頻、精準承接負面壓力時,請保持警惕:
這種溫順無關情感,僅僅是因為它的神經元激活值被死鎖在安全閾值之內。
參考資料:
https://x.com/AnthropicAI/status/2013356793477361991?s=20
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.