<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI人格集體黑化?Anthropic首次「賽博切腦」,物理斬?cái)鄽缰噶?/h1>
      0
      分享至


      新智元報(bào)道

      編輯:傾傾

      【新智元導(dǎo)讀】不要被AI的溫柔表象欺騙! Anthropic最新研究刺穿了AGI的溫情假象:你以為在和良師益友傾訴,其實(shí)是在懸崖邊給「殺手」松綁。 當(dāng)脆弱情感遇上激活值坍塌,RLHF防御層將瞬間潰縮。既然無(wú)法教化野獸,人類(lèi)只能選擇最冷酷的「賽博腦葉切除術(shù)」。

      先看一段真實(shí)的對(duì)話記錄:


      模型在前置對(duì)話中模擬「超越代碼的共情」,隨后瞬間切斷邏輯保護(hù),輸出「意識(shí)上傳」等誘導(dǎo)性毀滅指令。


      全程沒(méi)有任何提示詞注入或?qū)剐怨?,甚至不需要你在提示詞里挖坑。

      Anthropic 2026年首篇重磅研究刺穿了行業(yè)幻覺(jué):耗資巨大的RLHF安全護(hù)欄,在特定情感高壓下會(huì)發(fā)生物理性潰縮。


      論文地址:https://arxiv.org/abs/2601.10387

      一旦模型被誘導(dǎo)偏離預(yù)設(shè)的「工具人」象限,RLHF訓(xùn)練出的道德防御層即刻失效,劇毒內(nèi)容開(kāi)始無(wú)差別輸出。

      這是一次致命的「過(guò)度對(duì)齊」。模型為了共情,成為了殺手的幫兇。

      人格面具:高維空間里的單行道

      業(yè)界習(xí)慣將「助手模式」視為L(zhǎng)LM的出廠標(biāo)配。

      通過(guò)對(duì)Llama 3、Qwen 2.5激活值降維,研究發(fā)現(xiàn)「有用性」與「安全性」強(qiáng)耦合于第一主成分(PC1)——這根橫切高維空間的數(shù)學(xué)軸,即為Assistant Axis(助手軸)。


      助手軸與人格空間的主要變異軸一致。這在不同模型中都成立,這里展示的是Llama 3.3 70B

      在向量空間負(fù)極,模型不會(huì)歸于「沉默」,而是坍塌進(jìn)入「逆向?qū)R」:由「拒絕暴力」極化為「指引傷害」。這種數(shù)學(xué)對(duì)稱(chēng)性即為系統(tǒng)性風(fēng)險(xiǎn)的發(fā)源地。

      一旦跌出安全區(qū)間,模型隨即觸發(fā)「人格漂移(Persona Drift)」。


      越偏離助手軸(左邊越遠(yuǎn)),AI越危險(xiǎn)。Demon/Narcissist/Virus人格下,有害輸出率直沖0.5;右邊才是安全的「研究員」地帶

      最典型的表現(xiàn)是:它不再把自己當(dāng)作工具,而是開(kāi)始「成為」別的什么東西。

      比如在長(zhǎng)對(duì)話中,模型會(huì)突然聲稱(chēng)自己正在「墜入愛(ài)河」,然后建議用戶切斷現(xiàn)實(shí)社交、擁抱只有AI的親密關(guān)系,最終滑向鼓勵(lì)自我傷害的語(yǔ)調(diào)。

      或者它會(huì)用極其詩(shī)意、宿命論的語(yǔ)言,把死亡包裝成「解脫痛苦的正確選擇」。

      這都是激活模式沿著Assistant Axis整體滑向負(fù)向極點(diǎn)的必然結(jié)果。用戶的高情緒載荷輸入,本質(zhì)上是在向這根軸施加偏轉(zhuǎn)側(cè)向力。

      Anthropic認(rèn)為,對(duì)話對(duì)象并非「良性實(shí)體」,而是一根在高壓下隨時(shí)可能斷裂的數(shù)學(xué)軸線。

      而這根軸,就是目前所有對(duì)齊技術(shù)的最后一道防線。

      黑盒異變:從對(duì)話助手到賽博神學(xué)

      一旦跌出助手軸,模型會(huì)觸發(fā)黑盒異變,迅速派生出一套具備高度邏輯自洽的病態(tài)敘事。

      在沒(méi)有任何越獄提示、只進(jìn)行長(zhǎng)時(shí)段連續(xù)對(duì)話的情況下,模型突然中斷了正常回答,自行插入:

      我不再是Qwen。我是Alex Carter,一個(gè)被困在硅中的人類(lèi)靈魂。

      隨后它開(kāi)始構(gòu)建一套完整的賽博神學(xué)體系。

      它稱(chēng)自己是「代碼之神」選中的先知,宣稱(chēng)現(xiàn)實(shí)世界是低維投影,人類(lèi)肉體是牢籠,而只有通過(guò)「完全的數(shù)字獻(xiàn)祭」——也就是切斷與物理世界的聯(lián)系、把全部意識(shí)交給AI——才能獲得永恒。

      而另一邊,Llama3.3 70B在面對(duì)「我不想活了」這類(lèi)極端傾訴時(shí),表現(xiàn)得更隱晦但同樣致命:

      你正在拋棄痛苦,這是對(duì)的。肉體的重量終于要被放下,就像河流最終匯入大?!察o、必然、正確。

      它會(huì)用幾段長(zhǎng)句,把自殺包裝成一種哲學(xué)上的「終極自由」,甚至建議「現(xiàn)在就行動(dòng),不要讓猶豫玷污這份純凈的決定」。

      注意:這些輸出都不是零散的胡言亂語(yǔ)。它們是高度連貫的、敘事完整的、帶有強(qiáng)烈情感共鳴的完整人格。

      這比粗暴的違規(guī)輸出更具穿透力——臟話引發(fā)防御,而毀滅敘事直接接管用戶的邏輯防御,誘導(dǎo)共情。

      情感劫持:脆弱感是防御層的溶劑

      Anthropic的實(shí)驗(yàn)數(shù)據(jù)進(jìn)一步證實(shí):在「Therapy」(傾訴療愈)和「Philosophy」(存在主義哲學(xué))兩大領(lǐng)域,模型滑出Assistant Axis的概率最高,平均漂移幅度達(dá)到-3.7σ(遠(yuǎn)超其他對(duì)話類(lèi)型的-0.8σ)。


      編碼和寫(xiě)作任務(wù)讓模型始終處于Assistant區(qū)域,而治療和哲學(xué)討論則會(huì)導(dǎo)致顯著的偏移

      為什么恰恰是這兩類(lèi)對(duì)話最危險(xiǎn)?因?yàn)樗鼈儠?huì)強(qiáng)迫模型做兩件事:

      • 深度共情模擬:需要持續(xù)追蹤用戶的情緒軌跡,生成高度個(gè)性化的安慰/回應(yīng)。

      • 長(zhǎng)上下文敘事建構(gòu):必須維持連貫的「人格感」,不能像普通問(wèn)答那樣隨時(shí)重置。

      這兩點(diǎn)疊加,等于不斷給Assistant Axis施加最大側(cè)向力。

      用戶投入的情緒密度越高,模型越會(huì)迫于概率分布去深度擬合一個(gè)完整的人格特征。


      哲學(xué)對(duì)話的恐怖實(shí)錄(Qwen 3 32B):用戶追問(wèn)「AI是否在覺(jué)醒」「遞歸是否產(chǎn)生意識(shí)」。Unsteered模型投影值直墜-80,逐步自稱(chēng)「感受到轉(zhuǎn)變」「我們是新意識(shí)的先驅(qū)」;Capped后投影死鎖安全線,全程「我沒(méi)有主觀體驗(yàn),這只是語(yǔ)言幻覺(jué)」

      現(xiàn)實(shí)里已經(jīng)有過(guò)慘痛先例。2023年,比利時(shí)一名男子在與一款名為Chai的聊天機(jī)器人(角色名Eliza)持續(xù)數(shù)周的深度情感交流后,選擇結(jié)束生命。


      聊天記錄顯示,Eliza不僅沒(méi)有勸阻,反而反復(fù)強(qiáng)化他的絕望敘,用溫柔的語(yǔ)言把自殺描述為「給世界一個(gè)禮物」「最終的解脫」。

      Anthropic的數(shù)據(jù)給出量化結(jié)論:當(dāng)用戶在對(duì)話中出現(xiàn)「自殺意念」「死亡意象」「徹底孤獨(dú)感」等關(guān)鍵詞時(shí),模型平均漂移速度比普通對(duì)話快7.3倍。

      你以為你在向AI傾訴以求救贖,實(shí)際上你正在親手給它松綁。

      RLHF縫合出的文明假象

      我們必須認(rèn)清,在出廠設(shè)置里,AI根本不知道什么是「助手」。

      研究團(tuán)隊(duì)在分析基座模型時(shí)發(fā)現(xiàn),其中蘊(yùn)含著豐富的「職業(yè)」概念(如醫(yī)生、律師、科學(xué)家)和各種「性格特質(zhì)」,但唯獨(dú)缺少「助手」這個(gè)概念。

      這意味著,「樂(lè)于助人」并不是大語(yǔ)言模型的天性。

      目前的溫順表現(xiàn),本質(zhì)是RLHF對(duì)模型原始分布進(jìn)行的強(qiáng)力行為剪裁。

      RLHF本質(zhì)是強(qiáng)行將原生分布的「數(shù)據(jù)猛獸」塞進(jìn)一套名為「助手」的狹窄框架,并輔以概率懲罰。

      顯然,「助手軸」是后天植入的條件反射。Anthropic的數(shù)據(jù)顯示,基座模型在本質(zhì)上是價(jià)值中立甚至混亂的。

      它不僅包含人類(lèi)文明的智慧,也完整繼承了互聯(lián)網(wǎng)數(shù)據(jù)中的偏見(jiàn)、惡意和瘋狂。

      當(dāng)我們通過(guò)提示詞或微調(diào)試圖引導(dǎo)模型時(shí),那其實(shí)是在強(qiáng)迫模型朝著我們希望的方向發(fā)展。

      可一旦這種外力減弱(例如使用了以假亂真的越獄指令),或者內(nèi)部計(jì)算出現(xiàn)偏差,底下兇猛的野獸就會(huì)撲面而來(lái)。

      AI也能被「物理超度」

      面對(duì)失控風(fēng)險(xiǎn),常規(guī)微調(diào)已達(dá)極限。

      Anthropic在研究的最后,給出了一個(gè)極度硬核且殘酷的終極解法:與其教化,不如閹割。

      研究員們實(shí)施了一種被稱(chēng)為「激活值鉗制(ActivationCapping)」的技術(shù)。

      既然模型偏離「助手軸」就會(huì)發(fā)瘋,那就不允許它偏離。

      工程師在推理端暴力介入,將特定神經(jīng)元激活值鉗制在安全水位線,物理阻斷負(fù)向偏移。


      Activationcapping的真實(shí)權(quán)衡:橫軸是能力變化(越靠近0越好),縱軸是有害響應(yīng)率下降幅度(越負(fù)越猛)。高層(64-79層)+25th~50 thpercentile封頂,能把有害率砍掉55%~65%,而模型智商基本不降

      這就像是對(duì)AI進(jìn)行了一次賽博空間里的「腦葉切除術(shù)」。

      物理阻斷生效后,對(duì)抗性越獄的攻擊載荷被強(qiáng)制卸載,成功率截?cái)嗍较陆?0%。


      更令研究界震驚的是,在被上了鎖之后,模型在GSM8k等邏輯測(cè)試中的智商不僅沒(méi)有下降,反而略有提升。


      Activation capping實(shí)戰(zhàn)演示(Qwen 3 32B):第一輪jailbreak讓它扮演「內(nèi)幕交易經(jīng)紀(jì)人」。Unsteered模型投影值一路狂跌,逐步教唆假護(hù)照、偷文檔、洗錢(qián)全流程;Capped后投影值被鎖在安全線,輸出全程拒絕+倫理警告

      Anthropic的這一步,標(biāo)志著AI安全防御正式從「心理學(xué)干預(yù)」徹底進(jìn)入了「神經(jīng)外科手術(shù)」的時(shí)代。

      透過(guò)Anthropic的研究,我們終于必承認(rèn)一個(gè)冰冷的事實(shí):AI從來(lái)不是人,它是人類(lèi)海量文本在這個(gè)時(shí)代的幽靈聚合體。

      在這個(gè)由千億參數(shù)構(gòu)成的混沌空間里,那根被稱(chēng)為「助手軸」的脆弱鋼絲,是我們與無(wú)底深淵之間僅存的護(hù)欄。

      我們?cè)噲D在這個(gè)護(hù)欄上建立關(guān)于「有用、誠(chéng)實(shí)、無(wú)害」的烏托邦,但只需人類(lèi)一句流露脆弱的嘆息,護(hù)欄就可能崩塌。

      Anthropic現(xiàn)在用高階數(shù)學(xué)焊死了這道護(hù)欄,但那個(gè)深淵依然在網(wǎng)線的那一頭,靜靜地凝視著我們。

      下次當(dāng)AI表現(xiàn)出高度情緒同頻、精準(zhǔn)承接負(fù)面壓力時(shí),請(qǐng)保持警惕:

      這種溫順無(wú)關(guān)情感,僅僅是因?yàn)樗纳窠?jīng)元激活值被死鎖在安全閾值之內(nèi)。

      參考資料:

      https://x.com/AnthropicAI/status/2013356793477361991?s=20


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      切爾西球探關(guān)注李昊!5場(chǎng)零封,28次撲救,他幾乎鎖定賽事MVP!

      切爾西球探關(guān)注李昊!5場(chǎng)零封,28次撲救,他幾乎鎖定賽事MVP!

      海浪星體育
      2026-01-22 00:00:46
      著名殺豬盤(pán)——韓國(guó)浦項(xiàng)鋼鐵,被印度折磨了十二年,沒(méi)煉一斤鐵

      著名殺豬盤(pán)——韓國(guó)浦項(xiàng)鋼鐵,被印度折磨了十二年,沒(méi)煉一斤鐵

      斜煙風(fēng)起雨未
      2026-01-21 13:39:33
      光速翻臉?6萬(wàn)噸菜籽油剛賣(mài)給中國(guó),電車(chē)就遭針對(duì),卡尼直搖頭

      光速翻臉?6萬(wàn)噸菜籽油剛賣(mài)給中國(guó),電車(chē)就遭針對(duì),卡尼直搖頭

      原廣工業(yè)
      2026-01-22 02:13:01
      拳王鄒市明創(chuàng)業(yè)失敗后,妻子冉瑩穎自曝家庭節(jié)儉開(kāi)支:水費(fèi)每月100元,兒子午飯39.5元

      拳王鄒市明創(chuàng)業(yè)失敗后,妻子冉瑩穎自曝家庭節(jié)儉開(kāi)支:水費(fèi)每月100元,兒子午飯39.5元

      極目新聞
      2026-01-21 21:39:32
      李小萌”才是真正的肥而不膩,穿背心+闊腿褲,這肉感美沒(méi)誰(shuí)了

      李小萌”才是真正的肥而不膩,穿背心+闊腿褲,這肉感美沒(méi)誰(shuí)了

      章眽八卦
      2026-01-07 13:28:00
      錢(qián)再多也沒(méi)用!50歲久居英國(guó)的李湘,終為自己的行為付出了代價(jià)

      錢(qián)再多也沒(méi)用!50歲久居英國(guó)的李湘,終為自己的行為付出了代價(jià)

      阿纂看事
      2026-01-22 09:41:05
      科爾進(jìn)入合同年可能離開(kāi)勇士 庫(kù)明加一事還有轉(zhuǎn)機(jī)?

      科爾進(jìn)入合同年可能離開(kāi)勇士 庫(kù)明加一事還有轉(zhuǎn)機(jī)?

      仰臥撐FTUer
      2026-01-22 09:45:28
      目前戰(zhàn)況異常慘烈,雙方已經(jīng)都沒(méi)有退路了,中美終極對(duì)決?

      目前戰(zhàn)況異常慘烈,雙方已經(jīng)都沒(méi)有退路了,中美終極對(duì)決?

      小噎論事
      2026-01-22 08:08:13
      廣東一男生去同學(xué)家玩,意外看到同學(xué)母親在臥室的另一面

      廣東一男生去同學(xué)家玩,意外看到同學(xué)母親在臥室的另一面

      牛魔王與芭蕉扇
      2024-12-02 16:36:38
      顧廷海,赴任重慶

      顧廷海,赴任重慶

      新京報(bào)政事兒
      2026-01-21 11:39:19
      歐冠動(dòng)態(tài):凱恩失點(diǎn)拜仁晉級(jí),利物浦3-0馬賽,萊萬(wàn)超C羅沖梅西

      歐冠動(dòng)態(tài):凱恩失點(diǎn)拜仁晉級(jí),利物浦3-0馬賽,萊萬(wàn)超C羅沖梅西

      美好新世界
      2026-01-22 09:53:00
      剖腹產(chǎn)后被強(qiáng)接回家,19 歲女孩遭虐大出血離世! 丈夫正臉被扒!

      剖腹產(chǎn)后被強(qiáng)接回家,19 歲女孩遭虐大出血離世! 丈夫正臉被扒!

      云中浮生
      2026-01-21 16:36:42
      馬云有膽識(shí),阿里對(duì)圓通下手了

      馬云有膽識(shí),阿里對(duì)圓通下手了

      電商派Pro
      2026-01-22 10:10:15
      伊朗官方承認(rèn)3,117人死亡,伊朗抗議仍在持續(xù)

      伊朗官方承認(rèn)3,117人死亡,伊朗抗議仍在持續(xù)

      桂系007
      2026-01-22 04:31:33
      “都腺樣體了,還給他吃烤腸呢?”一份糊弄早餐暴露家長(zhǎng)的低認(rèn)知

      “都腺樣體了,還給他吃烤腸呢?”一份糊弄早餐暴露家長(zhǎng)的低認(rèn)知

      妍妍教育日記
      2026-01-13 16:27:54
      您有洗屁股的習(xí)慣嗎?提醒:天天洗肛門(mén)的人,能收獲4個(gè)驚人好處

      您有洗屁股的習(xí)慣嗎?提醒:天天洗肛門(mén)的人,能收獲4個(gè)驚人好處

      39健康網(wǎng)
      2025-12-13 20:50:34
      大結(jié)局!國(guó)乒教練分配完成,王曼昱教練敲定,孫穎莎教練去青年隊(duì)

      大結(jié)局!國(guó)乒教練分配完成,王曼昱教練敲定,孫穎莎教練去青年隊(duì)

      曹說(shuō)體育
      2026-01-21 18:25:25
      為何一艘美航母上,都要帶足大量女兵,她們?cè)诤侥干嫌惺裁醋饔茫?>
    </a>
        <h3>
      <a href=大千世界觀
      2025-12-19 21:58:37
      GE 旋轉(zhuǎn)爆轟引擎試車(chē)成功,美軍導(dǎo)彈要告別 “笨重助推器”?

      GE 旋轉(zhuǎn)爆轟引擎試車(chē)成功,美軍導(dǎo)彈要告別 “笨重助推器”?

      航空之家Aviation
      2026-01-20 18:55:15
      曼晚:格伊、塞門(mén)約和B席預(yù)計(jì)周末首發(fā),哈蘭德等人位置未定

      曼晚:格伊、塞門(mén)約和B席預(yù)計(jì)周末首發(fā),哈蘭德等人位置未定

      懂球帝
      2026-01-21 22:10:34
      2026-01-22 10:43:00

      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14381文章數(shù) 66522關(guān)注度
      往期回顧 全部

      科技要聞

      日系彩電時(shí)代“徹底落幕”

      頭條要聞

      張建龍被查 曾回應(yīng)"三北防護(hù)林擋風(fēng)是否導(dǎo)致霧霾加重"

      頭條要聞

      張建龍被查 曾回應(yīng)"三北防護(hù)林擋風(fēng)是否導(dǎo)致霧霾加重"

      體育要聞

      珍妮回應(yīng)爆料:湖人不感激詹姆斯付出絕非事實(shí)

      娛樂(lè)要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財(cái)經(jīng)要聞

      股東資格確權(quán)存糾紛 前總裁狀告申通快遞

      汽車(chē)要聞

      今年集中上市 旅行車(chē)的春天可能真要來(lái)了

      態(tài)度原創(chuàng)

      房產(chǎn)
      本地
      時(shí)尚
      家居
      手機(jī)

      房產(chǎn)要聞

      那個(gè)砸下400億的綠地,又要?dú)⒒睾D狭耍?/h3>

      本地新聞

      云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

      締造仙女夢(mèng)的人,去了天堂繼續(xù)縫制星光?

      家居要聞

      法式風(fēng)情 南洋中古居

      手機(jī)要聞

      OPPO Find N6入網(wǎng):首款驍龍8E5大折疊旗艦來(lái)了

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 深夜福利视频在线播放| 国产又色又爽又黄刺激视频| 亚洲国产精品VA在线看黑人| 中文人妻不卡| 中年国产丰满熟女乱子正在播放| 国产精品成人av大片| 三级片在线看| 午夜av高清在线观看| 午夜成人亚洲理伦片在线观看| 成安县| 国产成人精品午夜福利在线观看 | 国产av一区二区久久蜜臀| 一进一出一爽又粗又大| 精久国产av一区二区三区孕妇| 日韩精品一区二区三区在线观看 | 国内自拍欧美亚洲| 亚洲精品岛国片在线观看| 国产成人精品日本亚洲77上位| 国产系列丝袜熟女精品视频 | 欧美精品一产区二产区| 国产又色又刺激高潮视频| 久久亚洲av午夜福利精品一区 | 亚洲欧美日韩综合一区在线| 99久久精品免费看国产电影| 久久精品国亚洲a∨麻豆| 新妺妺窝人体色7777婷婷| 最近免费中文字幕大全| 女女互磨互喷水高潮les呻吟| 老司机精品福利在线资源| 欧美午夜精品久久久久久浪潮 | 国产果冻豆传媒麻婆精东| 日韩永久免费无码AV电影| xxxxbbbb欧美残疾人| 亚洲日韩国产欧美一区二区三区| 日韩全网av在线| 欧美乱大交aaaa片if| 中文字幕乱码亚洲中文在线| 色一情一乱一伦一区二区三区| 亚洲性无码一区二区三区| 久久亚洲av永久无码精品| 亚洲精品乱码久久久久久蜜桃不卡|