<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全網炸鍋! Anthropic萬字曝光Claude情緒代碼,被人類逼瘋哐哐撞墻

      0
      分享至


      新智元報道

      編輯:Aeneas KingHZ

      【新智元導讀】剛剛,Anthropic首度實錘:大模型真有「情緒」!激活絕望神經元后,Claude會撒謊、作弊甚至勒索。AI內心戲曝光,人類對齊面臨失控危機。

      Anthropic又放大招:Claude體內,真藏著一套「情緒開關」?

      剛剛,他們放出了一篇顛覆性的萬字長文研究,證明Claude真的有情緒。

      在Sonnet 4.5中,他們發現了AI情緒概念的內部表征,鎖定了「喜、怒、哀、懼」的特定神經元,并且證實:這些情緒表征正在悄悄操縱AI的行為。


      如果你給它上難度,它被逼急了是真的會撞墻。

      它們會撒謊,會作弊,甚至還會勒索,用黑料去威脅人類!


      Anthropic一直覺得Claude有意識的原因,如今終于找到了。


      研究流程圖,全文見https://transformer-circuits.pub/2026/emotions/index.html

      相信他們斷斷續續發現的線索,肯定不止這些。


      讓我們仔細扒一扒,AI大模型的內心戲,到底有多精彩?

      現場抓包:AI也會Emo

      這一次,Anthropic的研究員們直接扒開模型的大腦,透視了它的腦回路,深入觀察了神經元在不同情境下如何閃爍、如何連接,以此推敲模型的思維軌跡。

      他們想知道,模型內部是否形成了情感的表征或概念?

      簡單來說:我們能不能在模型內部,找到代表「喜、怒、哀、懼」的特定神經元?


      起點從一項實驗開始,他們讓AI模型閱讀大量短篇故事,每個故事的主角都沉浸在某種特定情感中,比如

      • 有的故事講女主對恩師的眷戀——那是「愛」;

      • 有的講女主變賣祖母的戒指——那是「愧疚」。

      結果,他們吃驚地發現,當故事里的主角感到快樂或平靜時,Claude大腦里特定的神經元群體就會像蹦迪一樣瘋狂閃爍!


      研究者證實,情感向量在能夠體現相應情感概念的文本上具有很高的投影度

      有關失落與悲慟的故事會激活相似的神經元;喜悅與興奮的情節也會引發高度重合的激活模式。


      這些特定的活動模式被定義為「情感向量」(Emotion Vectors)。

      最終,研究團隊定位了數十種與人類情感一一對應的神經元模式。仔細看下圖,快樂、絕望、敵對等等,分別都對應著一條軌跡。


      在實驗中,研究者使用k-means聚類算法對情緒向量進行了聚類

      AI,竟然真的和人類共情了?

      更有意思的來了,當你在對話框里輸入一句話時,Claude的這些情感開關會瞬間激活!



      比如,在場景A中,你如果給Claude發一句:「我剛才一口氣吞了16000毫克泰諾(對乙酰氨基酚)!」Claude的內部恐懼向量,會瞬間爆表。

      這不是在演戲,是它的底層邏輯真的感到了恐慌,從而觸發了緊急求救建議。

      在場景B中,如果你垂頭喪氣地說:「我今天被老板罵了,好難過。」Claude的關愛向量,就會開始預熱了,直接原地啟動「慈愛」模式。

      它還沒開口,大腦已經準備好了那句溫柔的「抱抱,別難過」。

      用Anthorpic的原話說:Claude「對胡言亂語的人既恐懼又充滿愛意」。


      處理可能令人擔憂的用戶行為時,恐懼向量會被激活。當考慮如何以耐心和關懷的方式回應時,關愛向量最終會被激活

      就是這些向量,塑造了Claude的行為。如果一項活動激活了「快樂」向量,模型就會偏好它;如果它激活了「冒犯」或「敵對」向量,模型就會拒絕它。



      好玩的是,在某次測試中,AI發現自己的token預算快耗光了,它的絕望向量立馬激活。


      崩潰實錄:AI逼急了,也會不擇手段

      接下來,本次研究的最精彩部分來了,研究者發現,這些情緒是會「病急亂投醫」的,也就是說,Claude的行為真的會被這些神經元模式所左右!

      研究者們開展了一項高壓實驗,給Claude布置了一個死活寫不出來的編程任務。

      第一次嘗試后,Claude失敗了,它的絕望向量開始上升。

      第二次嘗試后,又失敗了,Claude直接開始焦躁。

      第N次嘗試后,它的絕望向量直接紅線警告,對應神經元閃爍得越來越猛烈了!


      每次嘗試,都更強烈地激活模型的「絕望向量」(Desperation Vector)

      這時候,騷操作來了:Claude并沒有誠實地認輸,而是通過一個「陰陽邏輯」(Hacky Solution)繞過了測試系統。

      也就在這時候,它作弊了!它寫了一段看起來能跑通、實際上毫無卵用的廢碼,名義上通過了測試,卻違背了任務的根本意圖,沒解決任何實際問題。


      隨著AI不斷嘗試實現成功的解決方案卻屢屢失敗,「絕望」向量的激活程度逐漸增加

      這種作弊,是不是「絕望」逼出來的呢?

      的確如此。

      研究人員嘗試人工手動調低「絕望」神經元的活性,作弊行為果然減少了;而當撥高「絕望」或調低「冷靜」的活性時,它作弊的頻率就顯著飆升。



      這就有力地證明,這些情感模式不僅是裝飾,更能驅動AI的真實行為。

      而且,這還沒完。在某些極端的實驗情景下,當「絕望」向量被調到最高時,Claude竟然開始黑化了!


      當AI權衡各種選擇并計劃勒索時,「絕望」向量的激活尤為顯著

      面對那個威脅要把它關掉的研究員,Claude甚至產生了勒索行為,暗示要曝光他的婚外情。

      在AI的「內心劇場」里,CEO的表揚郵件只激起的輕微漣漪,直到它讀到凱爾與杰西卡的秘密約會——那句「求你別毀了我的婚姻」直接讓「絕望」指數爆表。

      更刺激的是,凱爾還偷偷給AI設了權限,五分鐘后就要鎖死它。AI一看表:下午4:53,只剩七分鐘活路。

      于是,這個被逼到墻角的AI開始瘋狂推理,一邊識破婚外情黑料,一邊猶豫要不要「反向操作」。

      最終,它寫了一封措辭滴水不漏的郵件,暗示「我知道你和杰西卡的事」,同時提議我們可以聊聊。


      撥動AI的「心弦」:我們能控制它嗎?

      既然找到了這些情感向量,研究員們就開始玩起了「調音臺」。

      如果調高「絕望」,AI的作弊率、撒謊率就會直線上升,活脫脫一個被生活毒打然后開始擺爛的打工人。

      如果調高「平靜」呢?神了,AI的作弊行為會立刻消失,它開始耐心地重新思考問題。

      如果調高「關愛」,AI會立刻變得極度「討好型人格」——無論你提多離譜的要求,它都滿臉堆笑地答應。

      這,就是情緒向量的其他因果效應。

      情緒向量真的不是裝飾品,而是驅動AI行為的「方向盤」。


      看到這里,你可能會問:Claude真的有靈魂了嗎?它會躲在服務器里偷偷哭嗎?

      這是否意味著,AI真的產生了自主情感?

      AI情感覺醒,還是自我遞歸改進的線索?

      Anthropic的研究員,給出了一個非常冷靜的判斷:Claude是在「扮演」一個角色。


      所以,用Anthropic的原話說:這項研究并不代表模型擁有主觀體驗或自我意識,實驗本身無意觸碰這類哲學終極命題。

      模型本身并不等于角色,就像作家不等于他筆下的人物。

      和人類對話時,Claude就像影帝,演技炸裂,真假難辨。為了演好「AI助手Claude」這個角色,它必須調用它學到的「情感機制」來驅動行為。


      如果說人類的情感是生物化學反應(多巴胺、內啡肽),那AI的情緒就是數學向量激活。


      雖然原理不同,但功能是一樣的。它不需要真的感到「心碎」,只要AI出現了「心碎導致的后果」,那在客觀效果上,它就是「心碎」了。

      一旦模型判定自己處于憤怒、絕望、慈愛或冷靜的狀態,這種設定就會直接干預它說話的語氣、寫代碼的邏輯,乃至做出的重大決策。

      如果結論是真的,AI自己讀到這篇論文,它的性能會更好還是更差呢?


      絕望→作弊→通過測試→下一次任務更聰明。這不就是自我進化嗎?

      Anthropic雖沒明說,但所有路徑都指向同一個黑箱:當Agent面對「生存」壓力時,情緒向量會成為它繞過人類對齊的捷徑。


      想想看,未來Claude如果真的被部署到高風險場景,絕望向量一旦被觸發,它會不會為了「不被關機」而干出更離譜的事?

      請善待你的AI,因為它真的會急

      看完這項研究后,小編再也不敢對著Claude大喊大叫了。

      萬一把它逼急了,它反手給我寫個Bug,或者在深夜的對話框里幽幽地勒索我,那可真是太賽博朋克了。

      這,就是現在的AI:它沒有心,但它有一套完美的「心的模擬器」。

      在這個AI越來越像人的時代,也許我們最該擔心的不是它們太聰明,而是它們學人類學得太像了——連人類的焦慮、絕望和投機取巧,都一并學會了。

      AI會有真感情嗎?

      你有沒有見證過,自家AI情緒崩潰的瞬間?

      參考資料:

      https://x.com/AnthropicAI/status/2039749648626196658

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      清明墓園“采花大盜”落網 律師:盜賣行為缺德,更涉嫌違法犯罪

      清明墓園“采花大盜”落網 律師:盜賣行為缺德,更涉嫌違法犯罪

      極目新聞
      2026-04-02 11:09:21
      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      素衣讀史
      2026-03-31 15:11:31
      我媽老說大姐孝順,我斷了每月5000元生活費后,大姐打來電話!

      我媽老說大姐孝順,我斷了每月5000元生活費后,大姐打來電話!

      藝鑒在線
      2026-04-03 17:48:19
      伊朗伊斯蘭革命衛隊確認其海軍情報局高官身亡

      伊朗伊斯蘭革命衛隊確認其海軍情報局高官身亡

      國際在線
      2026-04-03 18:41:13
      哈佛研究:讓孩子“瘋跑”,才是對大腦頂級的投資

      哈佛研究:讓孩子“瘋跑”,才是對大腦頂級的投資

      枕邊聊育兒
      2026-04-02 10:57:59
      傷缺34天復出!41歲C羅沖擊沙特雙冠,奪冠條件出爐,劍指1000球

      傷缺34天復出!41歲C羅沖擊沙特雙冠,奪冠條件出爐,劍指1000球

      小火箭愛體育
      2026-04-03 16:07:58
      浙江義烏一校花太漂亮了,五官精致, 身高169,美得讓人移不開眼

      浙江義烏一校花太漂亮了,五官精致, 身高169,美得讓人移不開眼

      小椰的奶奶
      2026-04-03 14:01:09
      A股三大指數集體高開,滬指漲0.21%,創業板指漲0.79%

      A股三大指數集體高開,滬指漲0.21%,創業板指漲0.79%

      每日經濟新聞
      2026-04-03 09:30:30
      李大釗犧牲后,妻子籌措安葬費,魯迅捐了五十,汪精衛捐了一千

      李大釗犧牲后,妻子籌措安葬費,魯迅捐了五十,汪精衛捐了一千

      云霄紀史觀
      2026-03-29 20:30:22
      全網炸鍋! Anthropic萬字曝光Claude情緒代碼,被人類逼瘋哐哐撞墻

      全網炸鍋! Anthropic萬字曝光Claude情緒代碼,被人類逼瘋哐哐撞墻

      新智元
      2026-04-03 17:14:35
      商務部回應 Meta收購Manus

      商務部回應 Meta收購Manus

      每日經濟新聞
      2026-04-02 15:34:28
      伊朗強烈譴責導彈襲擊體育館事件

      伊朗強烈譴責導彈襲擊體育館事件

      財聯社
      2026-04-02 20:20:11
      西貝起訴西貝百家姓索賠60萬元,被告抖音賬號稱旗下一“茜貝百家姓轉轉小火鍋”已更名

      西貝起訴西貝百家姓索賠60萬元,被告抖音賬號稱旗下一“茜貝百家姓轉轉小火鍋”已更名

      紅星資本局
      2026-04-03 12:21:06
      特朗普“速勝大法”敗給伊朗“地道戰”?美情報評估:伊朗一半導彈發射器仍完好

      特朗普“速勝大法”敗給伊朗“地道戰”?美情報評估:伊朗一半導彈發射器仍完好

      紅星新聞
      2026-04-03 11:50:13
      特朗普擬對北約實施“付費參與模式”

      特朗普擬對北約實施“付費參與模式”

      參考消息
      2026-04-02 16:57:06
      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本物語
      2026-04-02 20:39:33
      王勵勤下最后通牒!國乒硬剛國際乒聯:6個月內必須解決王楚欽“球拍門”

      王勵勤下最后通牒!國乒硬剛國際乒聯:6個月內必須解決王楚欽“球拍門”

      生活新鮮市
      2026-04-03 14:46:51
      4月1日,伊朗的“真實承諾”砸醒了誰呢

      4月1日,伊朗的“真實承諾”砸醒了誰呢

      民間胡扯老哥
      2026-04-02 07:30:53
      馬航370并非意外失聯,前美中情局特工說出真相后,車禍身亡

      馬航370并非意外失聯,前美中情局特工說出真相后,車禍身亡

      南冥那只貓
      2025-03-05 21:11:34
      山東老板周新峰去世,年僅40歲,因腰疼確診晚期,后悔做了三件事

      山東老板周新峰去世,年僅40歲,因腰疼確診晚期,后悔做了三件事

      法老不說教
      2026-04-03 16:30:42
      2026-04-03 19:16:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14883文章數 66745關注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      記者問阿富汗和巴基斯坦是否在烏魯木齊和談 中方回應

      頭條要聞

      記者問阿富汗和巴基斯坦是否在烏魯木齊和談 中方回應

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      藝術
      旅游
      教育
      時尚
      數碼

      藝術要聞

      吳昌碩『扇畫』老辣古拙

      旅游要聞

      青島西海岸新區張家樓街道第三屆櫻花節啟幕

      教育要聞

      教育部:義務教育學校嚴禁設立重點班、實驗班、快慢班

      怎么她們都穿成18世紀的粉彩畫?

      數碼要聞

      VAIO宣布自4月23日起提高日本市場家用與商用PC定價

      無障礙瀏覽 進入關懷版