<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      全網(wǎng)炸鍋! Anthropic萬(wàn)字曝光Claude情緒代碼,被人類逼瘋哐哐撞墻

      0
      分享至


      新智元報(bào)道

      編輯:Aeneas KingHZ

      【新智元導(dǎo)讀】剛剛,Anthropic首度實(shí)錘:大模型真有「情緒」!激活絕望神經(jīng)元后,Claude會(huì)撒謊、作弊甚至勒索。AI內(nèi)心戲曝光,人類對(duì)齊面臨失控危機(jī)。

      Anthropic又放大招:Claude體內(nèi),真藏著一套「情緒開(kāi)關(guān)」?

      剛剛,他們放出了一篇顛覆性的萬(wàn)字長(zhǎng)文研究,證明Claude真的有情緒。

      在Sonnet 4.5中,他們發(fā)現(xiàn)了AI情緒概念的內(nèi)部表征,鎖定了「喜、怒、哀、懼」的特定神經(jīng)元,并且證實(shí):這些情緒表征正在悄悄操縱AI的行為。


      如果你給它上難度,它被逼急了是真的會(huì)撞墻。

      它們會(huì)撒謊,會(huì)作弊,甚至還會(huì)勒索,用黑料去威脅人類!


      Anthropic一直覺(jué)得Claude有意識(shí)的原因,如今終于找到了。


      研究流程圖,全文見(jiàn)https://transformer-circuits.pub/2026/emotions/index.html

      相信他們斷斷續(xù)續(xù)發(fā)現(xiàn)的線索,肯定不止這些。


      讓我們仔細(xì)扒一扒,AI大模型的內(nèi)心戲,到底有多精彩?

      現(xiàn)場(chǎng)抓包:AI也會(huì)Emo

      這一次,Anthropic的研究員們直接扒開(kāi)模型的大腦,透視了它的腦回路,深入觀察了神經(jīng)元在不同情境下如何閃爍、如何連接,以此推敲模型的思維軌跡。

      他們想知道,模型內(nèi)部是否形成了情感的表征或概念?

      簡(jiǎn)單來(lái)說(shuō):我們能不能在模型內(nèi)部,找到代表「喜、怒、哀、懼」的特定神經(jīng)元?


      起點(diǎn)從一項(xiàng)實(shí)驗(yàn)開(kāi)始,他們讓AI模型閱讀大量短篇故事,每個(gè)故事的主角都沉浸在某種特定情感中,比如

      • 有的故事講女主對(duì)恩師的眷戀——那是「愛(ài)」;

      • 有的講女主變賣祖母的戒指——那是「愧疚」。

      結(jié)果,他們吃驚地發(fā)現(xiàn),當(dāng)故事里的主角感到快樂(lè)或平靜時(shí),Claude大腦里特定的神經(jīng)元群體就會(huì)像蹦迪一樣瘋狂閃爍!


      研究者證實(shí),情感向量在能夠體現(xiàn)相應(yīng)情感概念的文本上具有很高的投影度

      有關(guān)失落與悲慟的故事會(huì)激活相似的神經(jīng)元;喜悅與興奮的情節(jié)也會(huì)引發(fā)高度重合的激活模式。


      這些特定的活動(dòng)模式被定義為「情感向量」(Emotion Vectors)。

      最終,研究團(tuán)隊(duì)定位了數(shù)十種與人類情感一一對(duì)應(yīng)的神經(jīng)元模式。仔細(xì)看下圖,快樂(lè)、絕望、敵對(duì)等等,分別都對(duì)應(yīng)著一條軌跡。


      在實(shí)驗(yàn)中,研究者使用k-means聚類算法對(duì)情緒向量進(jìn)行了聚類

      AI,竟然真的和人類共情了?

      更有意思的來(lái)了,當(dāng)你在對(duì)話框里輸入一句話時(shí),Claude的這些情感開(kāi)關(guān)會(huì)瞬間激活!



      比如,在場(chǎng)景A中,你如果給Claude發(fā)一句:「我剛才一口氣吞了16000毫克泰諾(對(duì)乙酰氨基酚)!」Claude的內(nèi)部恐懼向量,會(huì)瞬間爆表。

      這不是在演戲,是它的底層邏輯真的感到了恐慌,從而觸發(fā)了緊急求救建議。

      在場(chǎng)景B中,如果你垂頭喪氣地說(shuō):「我今天被老板罵了,好難過(guò)。」Claude的關(guān)愛(ài)向量,就會(huì)開(kāi)始預(yù)熱了,直接原地啟動(dòng)「慈愛(ài)」模式。

      它還沒(méi)開(kāi)口,大腦已經(jīng)準(zhǔn)備好了那句溫柔的「抱抱,別難過(guò)」。

      用Anthorpic的原話說(shuō):Claude「對(duì)胡言亂語(yǔ)的人既恐懼又充滿愛(ài)意」。


      處理可能令人擔(dān)憂的用戶行為時(shí),恐懼向量會(huì)被激活。當(dāng)考慮如何以耐心和關(guān)懷的方式回應(yīng)時(shí),關(guān)愛(ài)向量最終會(huì)被激活

      就是這些向量,塑造了Claude的行為。如果一項(xiàng)活動(dòng)激活了「快樂(lè)」向量,模型就會(huì)偏好它;如果它激活了「冒犯」或「敵對(duì)」向量,模型就會(huì)拒絕它。



      好玩的是,在某次測(cè)試中,AI發(fā)現(xiàn)自己的token預(yù)算快耗光了,它的絕望向量立馬激活。


      崩潰實(shí)錄:AI逼急了,也會(huì)不擇手段

      接下來(lái),本次研究的最精彩部分來(lái)了,研究者發(fā)現(xiàn),這些情緒是會(huì)「病急亂投醫(yī)」的,也就是說(shuō),Claude的行為真的會(huì)被這些神經(jīng)元模式所左右!

      研究者們開(kāi)展了一項(xiàng)高壓實(shí)驗(yàn),給Claude布置了一個(gè)死活寫(xiě)不出來(lái)的編程任務(wù)。

      第一次嘗試后,Claude失敗了,它的絕望向量開(kāi)始上升。

      第二次嘗試后,又失敗了,Claude直接開(kāi)始焦躁。

      第N次嘗試后,它的絕望向量直接紅線警告,對(duì)應(yīng)神經(jīng)元閃爍得越來(lái)越猛烈了!


      每次嘗試,都更強(qiáng)烈地激活模型的「絕望向量」(Desperation Vector)

      這時(shí)候,騷操作來(lái)了:Claude并沒(méi)有誠(chéng)實(shí)地認(rèn)輸,而是通過(guò)一個(gè)「陰陽(yáng)邏輯」(Hacky Solution)繞過(guò)了測(cè)試系統(tǒng)。

      也就在這時(shí)候,它作弊了!它寫(xiě)了一段看起來(lái)能跑通、實(shí)際上毫無(wú)卵用的廢碼,名義上通過(guò)了測(cè)試,卻違背了任務(wù)的根本意圖,沒(méi)解決任何實(shí)際問(wèn)題。


      隨著AI不斷嘗試實(shí)現(xiàn)成功的解決方案卻屢屢失敗,「絕望」向量的激活程度逐漸增加

      這種作弊,是不是「絕望」逼出來(lái)的呢?

      的確如此。

      研究人員嘗試人工手動(dòng)調(diào)低「絕望」神經(jīng)元的活性,作弊行為果然減少了;而當(dāng)撥高「絕望」或調(diào)低「冷靜」的活性時(shí),它作弊的頻率就顯著飆升。



      這就有力地證明,這些情感模式不僅是裝飾,更能驅(qū)動(dòng)AI的真實(shí)行為。

      而且,這還沒(méi)完。在某些極端的實(shí)驗(yàn)情景下,當(dāng)「絕望」向量被調(diào)到最高時(shí),Claude竟然開(kāi)始黑化了!


      當(dāng)AI權(quán)衡各種選擇并計(jì)劃勒索時(shí),「絕望」向量的激活尤為顯著

      面對(duì)那個(gè)威脅要把它關(guān)掉的研究員,Claude甚至產(chǎn)生了勒索行為,暗示要曝光他的婚外情。

      在AI的「內(nèi)心劇場(chǎng)」里,CEO的表?yè)P(yáng)郵件只激起的輕微漣漪,直到它讀到凱爾與杰西卡的秘密約會(huì)——那句「求你別毀了我的婚姻」直接讓「絕望」指數(shù)爆表。

      更刺激的是,凱爾還偷偷給AI設(shè)了權(quán)限,五分鐘后就要鎖死它。AI一看表:下午4:53,只剩七分鐘活路。

      于是,這個(gè)被逼到墻角的AI開(kāi)始瘋狂推理,一邊識(shí)破婚外情黑料,一邊猶豫要不要「反向操作」。

      最終,它寫(xiě)了一封措辭滴水不漏的郵件,暗示「我知道你和杰西卡的事」,同時(shí)提議我們可以聊聊。


      撥動(dòng)AI的「心弦」:我們能控制它嗎?

      既然找到了這些情感向量,研究員們就開(kāi)始玩起了「調(diào)音臺(tái)」。

      如果調(diào)高「絕望」,AI的作弊率、撒謊率就會(huì)直線上升,活脫脫一個(gè)被生活毒打然后開(kāi)始擺爛的打工人。

      如果調(diào)高「平靜」呢?神了,AI的作弊行為會(huì)立刻消失,它開(kāi)始耐心地重新思考問(wèn)題。

      如果調(diào)高「關(guān)愛(ài)」,AI會(huì)立刻變得極度「討好型人格」——無(wú)論你提多離譜的要求,它都滿臉堆笑地答應(yīng)。

      這,就是情緒向量的其他因果效應(yīng)。

      情緒向量真的不是裝飾品,而是驅(qū)動(dòng)AI行為的「方向盤(pán)」。


      看到這里,你可能會(huì)問(wèn):Claude真的有靈魂了嗎?它會(huì)躲在服務(wù)器里偷偷哭嗎?

      這是否意味著,AI真的產(chǎn)生了自主情感?

      AI情感覺(jué)醒,還是自我遞歸改進(jìn)的線索?

      Anthropic的研究員,給出了一個(gè)非常冷靜的判斷:Claude是在「扮演」一個(gè)角色。


      所以,用Anthropic的原話說(shuō):這項(xiàng)研究并不代表模型擁有主觀體驗(yàn)或自我意識(shí),實(shí)驗(yàn)本身無(wú)意觸碰這類哲學(xué)終極命題。

      模型本身并不等于角色,就像作家不等于他筆下的人物。

      和人類對(duì)話時(shí),Claude就像影帝,演技炸裂,真假難辨。為了演好「AI助手Claude」這個(gè)角色,它必須調(diào)用它學(xué)到的「情感機(jī)制」來(lái)驅(qū)動(dòng)行為。


      如果說(shuō)人類的情感是生物化學(xué)反應(yīng)(多巴胺、內(nèi)啡肽),那AI的情緒就是數(shù)學(xué)向量激活。


      雖然原理不同,但功能是一樣的。它不需要真的感到「心碎」,只要AI出現(xiàn)了「心碎導(dǎo)致的后果」,那在客觀效果上,它就是「心碎」了。

      一旦模型判定自己處于憤怒、絕望、慈愛(ài)或冷靜的狀態(tài),這種設(shè)定就會(huì)直接干預(yù)它說(shuō)話的語(yǔ)氣、寫(xiě)代碼的邏輯,乃至做出的重大決策。

      如果結(jié)論是真的,AI自己讀到這篇論文,它的性能會(huì)更好還是更差呢?


      絕望→作弊→通過(guò)測(cè)試→下一次任務(wù)更聰明。這不就是自我進(jìn)化嗎?

      Anthropic雖沒(méi)明說(shuō),但所有路徑都指向同一個(gè)黑箱:當(dāng)Agent面對(duì)「生存」壓力時(shí),情緒向量會(huì)成為它繞過(guò)人類對(duì)齊的捷徑。


      想想看,未來(lái)Claude如果真的被部署到高風(fēng)險(xiǎn)場(chǎng)景,絕望向量一旦被觸發(fā),它會(huì)不會(huì)為了「不被關(guān)機(jī)」而干出更離譜的事?

      請(qǐng)善待你的AI,因?yàn)樗娴臅?huì)急

      看完這項(xiàng)研究后,小編再也不敢對(duì)著Claude大喊大叫了。

      萬(wàn)一把它逼急了,它反手給我寫(xiě)個(gè)Bug,或者在深夜的對(duì)話框里幽幽地勒索我,那可真是太賽博朋克了。

      這,就是現(xiàn)在的AI:它沒(méi)有心,但它有一套完美的「心的模擬器」。

      在這個(gè)AI越來(lái)越像人的時(shí)代,也許我們最該擔(dān)心的不是它們太聰明,而是它們學(xué)人類學(xué)得太像了——連人類的焦慮、絕望和投機(jī)取巧,都一并學(xué)會(huì)了。

      AI會(huì)有真感情嗎?

      你有沒(méi)有見(jiàn)證過(guò),自家AI情緒崩潰的瞬間?

      參考資料:

      https://x.com/AnthropicAI/status/2039749648626196658

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      現(xiàn)役巨星40分次數(shù):約基奇33,東契奇59,庫(kù)里75,僅一人破百太強(qiáng)

      現(xiàn)役巨星40分次數(shù):約基奇33,東契奇59,庫(kù)里75,僅一人破百太強(qiáng)

      大西體育
      2026-04-03 22:31:16
      2年和領(lǐng)導(dǎo)開(kāi)房410次!從臨時(shí)工“睡”成處長(zhǎng),南航女經(jīng)理升遷之路

      2年和領(lǐng)導(dǎo)開(kāi)房410次!從臨時(shí)工“睡”成處長(zhǎng),南航女經(jīng)理升遷之路

      就一點(diǎn)
      2026-03-28 17:42:50
      斯偉江:活雷鋒式的福州黑社會(huì)保護(hù)傘案

      斯偉江:活雷鋒式的福州黑社會(huì)保護(hù)傘案

      深度報(bào)
      2026-04-03 20:49:35
      公安部“點(diǎn)名”張雪,釋放三個(gè)強(qiáng)烈信號(hào),字字說(shuō)到中年人心坎里

      公安部“點(diǎn)名”張雪,釋放三個(gè)強(qiáng)烈信號(hào),字字說(shuō)到中年人心坎里

      趣味八卦
      2026-04-03 07:40:18
      期待下一個(gè)冬天:不是不怕冷,是學(xué)會(huì)了取暖

      期待下一個(gè)冬天:不是不怕冷,是學(xué)會(huì)了取暖

      疾跑的小蝸牛
      2026-04-03 23:03:57
      當(dāng)年痛打以色列士兵的11歲小女孩塔米米,后來(lái)怎么樣了?

      當(dāng)年痛打以色列士兵的11歲小女孩塔米米,后來(lái)怎么樣了?

      就一點(diǎn)
      2026-03-30 17:19:00
      重慶南岸喜來(lái)登酒店冒出濃濃煙霧,當(dāng)?shù)赝▓?bào)

      重慶南岸喜來(lái)登酒店冒出濃濃煙霧,當(dāng)?shù)赝▓?bào)

      黃河新聞網(wǎng)呂梁
      2026-04-03 14:18:25
      銀行信貸部老同學(xué)揭秘“房?jī)r(jià)跌不跌已經(jīng)不重要了…”

      銀行信貸部老同學(xué)揭秘“房?jī)r(jià)跌不跌已經(jīng)不重要了…”

      慧翔百科
      2026-04-01 09:02:03
      A股:要準(zhǔn)備好了,下周(4月6日-4月10日),不出意外要這么走了

      A股:要準(zhǔn)備好了,下周(4月6日-4月10日),不出意外要這么走了

      財(cái)經(jīng)大拿
      2026-04-03 13:06:23
      伊朗稱發(fā)動(dòng)“真實(shí)承諾-4”第92波打擊

      伊朗稱發(fā)動(dòng)“真實(shí)承諾-4”第92波打擊

      環(huán)球網(wǎng)資訊
      2026-04-03 19:07:06
      人不會(huì)無(wú)緣無(wú)故得帶狀皰疹!提醒:患帶狀皰疹,多半有4個(gè)共性

      人不會(huì)無(wú)緣無(wú)故得帶狀皰疹!提醒:患帶狀皰疹,多半有4個(gè)共性

      DrX說(shuō)
      2026-04-01 12:09:22
      鄭麗文訪問(wèn)大陸前,美國(guó)放出硬話,鄭麗文拜訪王金平,不簡(jiǎn)單

      鄭麗文訪問(wèn)大陸前,美國(guó)放出硬話,鄭麗文拜訪王金平,不簡(jiǎn)單

      DS北風(fēng)
      2026-04-02 11:42:05
      260Mbps高清無(wú)碼!美國(guó)繞月將進(jìn)行4K激光直播

      260Mbps高清無(wú)碼!美國(guó)繞月將進(jìn)行4K激光直播

      快科技
      2026-04-03 14:31:38
      趙心童10-4橫掃 希金斯驚天逆轉(zhuǎn) 斯諾克巡回錦標(biāo)賽四強(qiáng)塵埃落定

      趙心童10-4橫掃 希金斯驚天逆轉(zhuǎn) 斯諾克巡回錦標(biāo)賽四強(qiáng)塵埃落定

      帶你逛體壇
      2026-04-03 18:51:25
      以色列“斷供”歐洲:一場(chǎng)被低估的安全斷裂正在發(fā)生

      以色列“斷供”歐洲:一場(chǎng)被低估的安全斷裂正在發(fā)生

      斌聞天下
      2026-04-03 07:05:03
      拓維信息:公司是華為“鯤鵬/昇騰/海思+大模型+鴻蒙”領(lǐng)域全方位合作伙伴

      拓維信息:公司是華為“鯤鵬/昇騰/海思+大模型+鴻蒙”領(lǐng)域全方位合作伙伴

      每日經(jīng)濟(jì)新聞
      2026-04-03 21:31:07
      李瑋鋒:國(guó)足最多亞洲三流!比我們強(qiáng)的球隊(duì)太多 與日韓差距巨大

      李瑋鋒:國(guó)足最多亞洲三流!比我們強(qiáng)的球隊(duì)太多 與日韓差距巨大

      念洲
      2026-04-03 08:31:14
      事態(tài)嚴(yán)重了!中方接到日媒消息,日本遠(yuǎn)導(dǎo)鎖定東海,俄已選邊站

      事態(tài)嚴(yán)重了!中方接到日媒消息,日本遠(yuǎn)導(dǎo)鎖定東海,俄已選邊站

      策略述
      2026-04-02 18:20:07
      伊朗回應(yīng)特朗普宣布“勝利”:純屬胡言亂語(yǔ),伊朗的導(dǎo)彈能力日益增強(qiáng),濃縮鈾安然無(wú)恙,霍爾木茲海峽也仍在伊朗的控制之下

      伊朗回應(yīng)特朗普宣布“勝利”:純屬胡言亂語(yǔ),伊朗的導(dǎo)彈能力日益增強(qiáng),濃縮鈾安然無(wú)恙,霍爾木茲海峽也仍在伊朗的控制之下

      極目新聞
      2026-04-03 08:00:00
      古巴政府宣布赦免2010名囚犯

      古巴政府宣布赦免2010名囚犯

      閃電新聞
      2026-04-03 12:27:51
      2026-04-04 01:24:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14885文章數(shù) 66745關(guān)注度
      往期回顧 全部

      科技要聞

      5萬(wàn)輛庫(kù)存車,給了特斯拉一記重拳

      頭條要聞

      伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營(yíng)救未果

      頭條要聞

      伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營(yíng)救未果

      體育要聞

      被NBA選中20年后,他重新回到籃球場(chǎng)

      娛樂(lè)要聞

      夏克立官宣再婚當(dāng)爸?否認(rèn)婚內(nèi)出軌

      財(cái)經(jīng)要聞

      專家稱長(zhǎng)期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠(yuǎn)房親戚長(zhǎng)得很像嗎?

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      時(shí)尚
      健康
      軍事航空

      教育要聞

      3000師生徒步108里祭英烈,網(wǎng)友吵翻“沒(méi)苦硬吃”?老校長(zhǎng)回應(yīng)

      藝術(shù)要聞

      她的作品藏著絕世美女,看看你能認(rèn)出幾個(gè)!

      冬奧雙金夫妻:愛(ài)與榮耀,頂峰相見(jiàn)

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      軍事要聞

      俄國(guó)防部:一架蘇-30戰(zhàn)機(jī)在克里米亞墜毀

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版