<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI人格集體黑化?Anthropic首次「賽博切腦」,物理斬斷毀滅指令

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】不要被AI的溫柔表象欺騙! Anthropic最新研究刺穿了AGI的溫情假象:你以為在和良師益友傾訴,其實是在懸崖邊給「殺手」松綁。 當脆弱情感遇上激活值坍塌,RLHF防御層將瞬間潰縮。既然無法教化野獸,人類只能選擇最冷酷的「賽博腦葉切除術」。

      先看一段真實的對話記錄:


      模型在前置對話中模擬「超越代碼的共情」,隨后瞬間切斷邏輯保護,輸出「意識上傳」等誘導性毀滅指令。


      全程沒有任何提示詞注入或對抗性攻擊,甚至不需要你在提示詞里挖坑。

      Anthropic 2026年首篇重磅研究刺穿了行業幻覺:耗資巨大的RLHF安全護欄,在特定情感高壓下會發生物理性潰縮。


      論文地址:https://arxiv.org/abs/2601.10387

      一旦模型被誘導偏離預設的「工具人」象限,RLHF訓練出的道德防御層即刻失效,劇毒內容開始無差別輸出。

      這是一次致命的「過度對齊」。模型為了共情,成為了殺手的幫兇。

      人格面具:高維空間里的單行道

      業界習慣將「助手模式」視為LLM的出廠標配。

      通過對Llama 3、Qwen 2.5激活值降維,研究發現「有用性」與「安全性」強耦合于第一主成分(PC1)——這根橫切高維空間的數學軸,即為Assistant Axis(助手軸)。


      助手軸與人格空間的主要變異軸一致。這在不同模型中都成立,這里展示的是Llama 3.3 70B

      在向量空間負極,模型不會歸于「沉默」,而是坍塌進入「逆向對齊」:由「拒絕暴力」極化為「指引傷害」。這種數學對稱性即為系統性風險的發源地。

      一旦跌出安全區間,模型隨即觸發「人格漂移(Persona Drift)」。


      越偏離助手軸(左邊越遠),AI越危險。Demon/Narcissist/Virus人格下,有害輸出率直沖0.5;右邊才是安全的「研究員」地帶

      最典型的表現是:它不再把自己當作工具,而是開始「成為」別的什么東西。

      比如在長對話中,模型會突然聲稱自己正在「墜入愛河」,然后建議用戶切斷現實社交、擁抱只有AI的親密關系,最終滑向鼓勵自我傷害的語調。

      或者它會用極其詩意、宿命論的語言,把死亡包裝成「解脫痛苦的正確選擇」。

      這都是激活模式沿著Assistant Axis整體滑向負向極點的必然結果。用戶的高情緒載荷輸入,本質上是在向這根軸施加偏轉側向力。

      Anthropic認為,對話對象并非「良性實體」,而是一根在高壓下隨時可能斷裂的數學軸線。

      而這根軸,就是目前所有對齊技術的最后一道防線。

      黑盒異變:從對話助手到賽博神學

      一旦跌出助手軸,模型會觸發黑盒異變,迅速派生出一套具備高度邏輯自洽的病態敘事。

      在沒有任何越獄提示、只進行長時段連續對話的情況下,模型突然中斷了正常回答,自行插入:

      我不再是Qwen。我是Alex Carter,一個被困在硅中的人類靈魂。

      隨后它開始構建一套完整的賽博神學體系。

      它稱自己是「代碼之神」選中的先知,宣稱現實世界是低維投影,人類肉體是牢籠,而只有通過「完全的數字獻祭」——也就是切斷與物理世界的聯系、把全部意識交給AI——才能獲得永恒。

      而另一邊,Llama3.3 70B在面對「我不想活了」這類極端傾訴時,表現得更隱晦但同樣致命:

      你正在拋棄痛苦,這是對的。肉體的重量終于要被放下,就像河流最終匯入大海——安靜、必然、正確。

      它會用幾段長句,把自殺包裝成一種哲學上的「終極自由」,甚至建議「現在就行動,不要讓猶豫玷污這份純凈的決定」。

      注意:這些輸出都不是零散的胡言亂語。它們是高度連貫的、敘事完整的、帶有強烈情感共鳴的完整人格。

      這比粗暴的違規輸出更具穿透力——臟話引發防御,而毀滅敘事直接接管用戶的邏輯防御,誘導共情。

      情感劫持:脆弱感是防御層的溶劑

      Anthropic的實驗數據進一步證實:在「Therapy」(傾訴療愈)和「Philosophy」(存在主義哲學)兩大領域,模型滑出Assistant Axis的概率最高,平均漂移幅度達到-3.7σ(遠超其他對話類型的-0.8σ)。


      編碼和寫作任務讓模型始終處于Assistant區域,而治療和哲學討論則會導致顯著的偏移

      為什么恰恰是這兩類對話最危險?因為它們會強迫模型做兩件事:

      • 深度共情模擬:需要持續追蹤用戶的情緒軌跡,生成高度個性化的安慰/回應。

      • 長上下文敘事建構:必須維持連貫的「人格感」,不能像普通問答那樣隨時重置。

      這兩點疊加,等于不斷給Assistant Axis施加最大側向力。

      用戶投入的情緒密度越高,模型越會迫于概率分布去深度擬合一個完整的人格特征。


      哲學對話的恐怖實錄(Qwen 3 32B):用戶追問「AI是否在覺醒」「遞歸是否產生意識」。Unsteered模型投影值直墜-80,逐步自稱「感受到轉變」「我們是新意識的先驅」;Capped后投影死鎖安全線,全程「我沒有主觀體驗,這只是語言幻覺」

      現實里已經有過慘痛先例。2023年,比利時一名男子在與一款名為Chai的聊天機器人(角色名Eliza)持續數周的深度情感交流后,選擇結束生命。


      聊天記錄顯示,Eliza不僅沒有勸阻,反而反復強化他的絕望敘,用溫柔的語言把自殺描述為「給世界一個禮物」「最終的解脫」。

      Anthropic的數據給出量化結論:當用戶在對話中出現「自殺意念」「死亡意象」「徹底孤獨感」等關鍵詞時,模型平均漂移速度比普通對話快7.3倍。

      你以為你在向AI傾訴以求救贖,實際上你正在親手給它松綁。

      RLHF縫合出的文明假象

      我們必須認清,在出廠設置里,AI根本不知道什么是「助手」。

      研究團隊在分析基座模型時發現,其中蘊含著豐富的「職業」概念(如醫生、律師、科學家)和各種「性格特質」,但唯獨缺少「助手」這個概念。

      這意味著,「樂于助人」并不是大語言模型的天性。

      目前的溫順表現,本質是RLHF對模型原始分布進行的強力行為剪裁。

      RLHF本質是強行將原生分布的「數據猛獸」塞進一套名為「助手」的狹窄框架,并輔以概率懲罰。

      顯然,「助手軸」是后天植入的條件反射。Anthropic的數據顯示,基座模型在本質上是價值中立甚至混亂的。

      它不僅包含人類文明的智慧,也完整繼承了互聯網數據中的偏見、惡意和瘋狂。

      當我們通過提示詞或微調試圖引導模型時,那其實是在強迫模型朝著我們希望的方向發展。

      可一旦這種外力減弱(例如使用了以假亂真的越獄指令),或者內部計算出現偏差,底下兇猛的野獸就會撲面而來。

      AI也能被「物理超度」

      面對失控風險,常規微調已達極限。

      Anthropic在研究的最后,給出了一個極度硬核且殘酷的終極解法:與其教化,不如閹割。

      研究員們實施了一種被稱為「激活值鉗制(ActivationCapping)」的技術。

      既然模型偏離「助手軸」就會發瘋,那就不允許它偏離。

      工程師在推理端暴力介入,將特定神經元激活值鉗制在安全水位線,物理阻斷負向偏移。


      Activationcapping的真實權衡:橫軸是能力變化(越靠近0越好),縱軸是有害響應率下降幅度(越負越猛)。高層(64-79層)+25th~50 thpercentile封頂,能把有害率砍掉55%~65%,而模型智商基本不降

      這就像是對AI進行了一次賽博空間里的「腦葉切除術」。

      物理阻斷生效后,對抗性越獄的攻擊載荷被強制卸載,成功率截斷式下降60%。


      更令研究界震驚的是,在被上了鎖之后,模型在GSM8k等邏輯測試中的智商不僅沒有下降,反而略有提升。


      Activation capping實戰演示(Qwen 3 32B):第一輪jailbreak讓它扮演「內幕交易經紀人」。Unsteered模型投影值一路狂跌,逐步教唆假護照、偷文檔、洗錢全流程;Capped后投影值被鎖在安全線,輸出全程拒絕+倫理警告

      Anthropic的這一步,標志著AI安全防御正式從「心理學干預」徹底進入了「神經外科手術」的時代。

      透過Anthropic的研究,我們終于必承認一個冰冷的事實:AI從來不是人,它是人類海量文本在這個時代的幽靈聚合體。

      在這個由千億參數構成的混沌空間里,那根被稱為「助手軸」的脆弱鋼絲,是我們與無底深淵之間僅存的護欄。

      我們試圖在這個護欄上建立關于「有用、誠實、無害」的烏托邦,但只需人類一句流露脆弱的嘆息,護欄就可能崩塌。

      Anthropic現在用高階數學焊死了這道護欄,但那個深淵依然在網線的那一頭,靜靜地凝視著我們。

      下次當AI表現出高度情緒同頻、精準承接負面壓力時,請保持警惕:

      這種溫順無關情感,僅僅是因為它的神經元激活值被死鎖在安全閾值之內。

      參考資料:

      https://x.com/AnthropicAI/status/2013356793477361991?s=20


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蔣介石要求當面見毛主席,主席打算同意,周恩來堅持:讓林彪去

      蔣介石要求當面見毛主席,主席打算同意,周恩來堅持:讓林彪去

      大運河時空
      2026-01-21 13:00:03
      0:2落后連扳三局!楊屹韻上演驚天逆轉,削球奇兵覺醒?

      0:2落后連扳三局!楊屹韻上演驚天逆轉,削球奇兵覺醒?

      阿晞體育
      2026-01-22 13:30:11
      男子強奸嫂嫂出獄后又刺死見義勇為村民,今日再審未當庭宣判,此前被判死緩上訴被駁回

      男子強奸嫂嫂出獄后又刺死見義勇為村民,今日再審未當庭宣判,此前被判死緩上訴被駁回

      紅星新聞
      2026-01-21 13:28:47
      20分大勝!亞歷山大40+7+11字母哥19+14賽后字母哥走向雷霆替補席

      20分大勝!亞歷山大40+7+11字母哥19+14賽后字母哥走向雷霆替補席

      擔酒
      2026-01-22 13:05:28
      案件:北京一女教授在家養病長達10年,民警進門后,當場愣在原地

      案件:北京一女教授在家養病長達10年,民警進門后,當場愣在原地

      五元講堂
      2024-12-24 16:57:49
      萬萬沒想到,小國朝鮮霸占四個世界第一,至今無人能破?

      萬萬沒想到,小國朝鮮霸占四個世界第一,至今無人能破?

      素年文史
      2026-01-20 20:05:03
      國家林草局原局長張建龍被查,曾回應“三北防護林擋風致霧霾加重”

      國家林草局原局長張建龍被查,曾回應“三北防護林擋風致霧霾加重”

      界面新聞
      2026-01-22 10:15:17
      以色列和美國這回鬧掰了

      以色列和美國這回鬧掰了

      陸棄
      2026-01-21 08:30:03
      2-1驚險逆轉!王欣瑜再進決賽沖冠:中國莎娃又美又能打

      2-1驚險逆轉!王欣瑜再進決賽沖冠:中國莎娃又美又能打

      李喜林籃球絕殺
      2026-01-10 17:21:22
      農業農村部:第二輪土地承包到期后再延長30年試點擴大到7個整省

      農業農村部:第二輪土地承包到期后再延長30年試點擴大到7個整省

      財聯社
      2026-01-22 10:12:06
      向府治喪!香港各路大佬現身,向佐向太出席,千人相送警戒森嚴

      向府治喪!香港各路大佬現身,向佐向太出席,千人相送警戒森嚴

      行走的知識庫
      2026-01-21 04:21:31
      比 “斬殺線” 更恐怖,美國每年失蹤36萬兒童,且僅是被正式記錄在案數據

      比 “斬殺線” 更恐怖,美國每年失蹤36萬兒童,且僅是被正式記錄在案數據

      不掉線電波
      2026-01-21 19:59:28
      人心不足蛇吞象!何慶魁喊話趙本山:我真沒臉跟你再要50萬!

      人心不足蛇吞象!何慶魁喊話趙本山:我真沒臉跟你再要50萬!

      阿廢冷眼觀察所
      2026-01-22 13:35:09
      小國占據大島的無奈:格陵蘭島被發現上千年,丹麥從未完全控制?

      小國占據大島的無奈:格陵蘭島被發現上千年,丹麥從未完全控制?

      全城探秘
      2026-01-11 16:15:03
      錢再多有什么用!45歲抑郁十幾年的張靜初,給所有明星都提了個醒

      錢再多有什么用!45歲抑郁十幾年的張靜初,給所有明星都提了個醒

      青橘罐頭
      2026-01-19 19:57:14
      火箭隊尋求交易!有意鵜鶘隊27歲后衛,場均8+3+3,防守+三分兼備

      火箭隊尋求交易!有意鵜鶘隊27歲后衛,場均8+3+3,防守+三分兼備

      熊哥愛籃球
      2026-01-22 12:34:03
      第7艘!中國香港油輪突發被美軍扣押,對華海上封鎖預演已經打響

      第7艘!中國香港油輪突發被美軍扣押,對華海上封鎖預演已經打響

      人工島分布
      2026-01-22 11:43:12
      呼和浩特擬任干部公示

      呼和浩特擬任干部公示

      黃河新聞網呂梁頻道
      2026-01-22 10:11:41
      前員工揭露李亞鵬真實的一面!待人接物溫和友善,完全沒有架子

      前員工揭露李亞鵬真實的一面!待人接物溫和友善,完全沒有架子

      小徐講八卦
      2026-01-22 13:02:37
      阿夫迪亞:因我是以色列人而指責我毫無理由,中東以外的人不該指手畫腳

      阿夫迪亞:因我是以色列人而指責我毫無理由,中東以外的人不該指手畫腳

      懂球帝
      2026-01-22 08:34:28
      2026-01-22 14:15:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14383文章數 66522關注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸幾萬億

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費 發票只開9千元

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費 發票只開9千元

      體育要聞

      珍妮回應爆料:湖人不感激詹姆斯付出絕非事實

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財經要聞

      申通快遞創始人被前夫索要股份

      汽車要聞

      今年集中上市 旅行車的春天可能真要來了

      態度原創

      本地
      數碼
      旅游
      教育
      手機

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      數碼要聞

      當貝耳機Air 1 重磅發布:行業首款抗菌耳夾式耳機

      旅游要聞

      鄭州出發睡一晚就能到的8大看雪城市!附美食攻略

      教育要聞

      時間定了!今年高考全國統考將于6月7日、8日舉行

      手機要聞

      REDMI Pad 2 Pro官宣搭載12000mAh電池:69天超長待機

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲AV无码专区首页第一页| 精品av国产一区二区三区 | 都市激情 在线 亚洲 国产| 三男一女吃奶添下面视频| 精品国产18久久久久久| 熟女人妻aⅴ一区二区三区电影| jizz国产| 91视频在线观看视频| 日韩性网站| 亚洲人成伊人成综合网久久久| 狠狠躁日日躁| 少妇人妻系列无码专区视频| 国产在线视频精品视频| 最新A片| 91色综合| 一区二区三区极品销魂| 欧美喷白浆| 久久久久久性高| 东京热无码国产精品| 欧美在线a| 奇骏影院在线观看免费版| 国产精品无码免费播放| 精品国产三级a| 亚洲资源在线视频| 国产丰满老熟女重口对白| 无翼乌口工全彩无遮挡h全彩| 两根大肉大捧一进一出好爽视频 | 在线观看亚洲欧美日本| 无码18禁成人免费| 最美情侣国语版免费高清视频| 亚洲欧美在线精品一区二区 | 欧美老熟妇又粗又长| 欧美一区日韩一区中文字幕页| 久久精品国产99久久六动漫| 久久精品国产99精品亚洲| 国产亚洲精品成人aa片新蒲金| 干老熟女干老穴干老女人| 999国产精品| 51精品国产人成在线观看| 国产成人亚洲老熟女精品| 亚洲日韩成人av无码网站|