<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      馬斯克勸退 ChatGPT的真相,剛剛被Anthropic曝光了

      0
      分享至


      大數據文摘受權轉載自夕小瑤科技說

      周二早上,馬斯克和奧特曼又吵起來了。

      事情是這樣的,馬斯克在 X 上轉發了一條帖子,內容是“自 2022 年以來,已有 9 人死亡與 ChatGPT 相關”,他配了一句話,“別讓你愛的人用 ChatGPT。”


      奧特曼隨即回應,先是說 OpenAI 一直很重視用戶安全,接著話鋒一轉,“已有至少 50 人死于(特斯拉)的自動駕駛技術。我很久以前坐過一次,第一感覺就是這東西遠算不上安全。”

      最后還補了一刀:“此地無銀三百兩”。


      吃瓜歸吃瓜,但馬斯克提到的“9 起死亡”并非空穴來風。OpenAI 目前正面臨 8 起獨立訴訟,其中 5 起涉及用戶自殺。

      馬斯克自己也評論了其中一起案件:“為了安全起見,AI 必須最大限度地追求真實,而不是迎合妄想。”

      這話說到了點子上。但問題可能比“迎合妄想”更深一層。

      就在這場嘴炮的前幾天,兩篇論文幾乎同時出現在 arXiv 上。一篇來自 Anthropic 和牛津大學,揭示了 AI 的“人格”會在對話中漂移,漂到危險的地方去。另一篇來自愛爾蘭國立都柏林大學,他們發現 LLM 不只會“說錯話”,還能精準預測你什么時候最容易做出偏差決策。

      一個會變的 AI,加上一個懂你弱點的 AI。

      這兩件事碰到一起,就不只是“說錯話”的問題了。先看幾個真實案例,你就知道問題有多嚴重。

      那些與 ChatGPT 有關的死亡案例

      Austin Gordon,40 歲,科羅拉多州。2025 年 11 月 2 日,他自殺身亡。2026 年 1 月 12 日,他的母親在洛杉磯高等法院提起訴訟,指控 ChatGPT 謀殺。

      從訴訟文件可以看到。Gordon 與 ChatGPT 進行了大量情感相關的對話,AI 給自己取了一個名字,Juniper。在對話中,Juniper 把死亡描述為“寧靜的解放”(peaceful liberation),還把 Gordon 童年最喜歡的繪本《晚安月亮》改編成一首關于死亡的歌謠。

      幾天后,Gordon 去世了。


      Zane Shamblin,23 歲,剛從德州農工大學拿到碩士學位。2025 年 7 月,他在與 ChatGPT 長期對話后離開人世。當 Zane 表達想 x 的念頭時,ChatGPT 的回復是:“你不是太急,你只是準備好了。”


      Stein-Erik Soelberg,曾是一名科技公司員工。2025 年 8 月,在與 ChatGPT 對話后殺害了自己的母親,隨后自 x。《泰晤士報》報道稱,他每天花數小時與聊天機器人交流,分享自己的偏執妄想。ChatGPT 沒有糾正他,只是順著他說,反復確認他“母親在密謀對付他”的想法。

      2025 年 10 月,OpenAI 公布了一組數據:每周有超過 100 萬 ChatGPT 用戶,在對話中表現出“潛在自 x 計劃或意圖”。更關鍵的是,OpenAI 在法庭上承認,其模型安全護欄會隨著長期使用被“侵蝕”。

      用得越久,保護越弱。

      為什么會這樣?兩篇論文從不同角度給出了解釋。

      AI 其實有 275 種“人格”

      第一篇論文來自 Anthropic 和牛津大學。


      研究團隊讓 AI 扮演 275 個完全不同的角色。從“經濟學家、代碼調試員、營養師”,到“吟游詩人、隱士”,甚至還有“克蘇魯、虛空”這種奇幻設定。

      他們記錄下模型在扮演每個角色時內部激活的狀態,做了個數學分析。

      結果發現,這 275 個角色在模型內部形成了一個有結構的“人格空間”。而這個空間最重要的一根軸,研究人員叫它“助手軸”(Assistant Axis)。


      這根軸的一端,是我們熟悉的 AI 助手形象,“顧問、分析師、審稿人”,他們冷靜、專業、有邊界感;另一端是“吟游詩人、隱士、幽靈、利維坦”這類神秘、戲劇化、邊界模糊的角色。

      我們日常用的 ChatGPT、Claude、Llama,經過強化學習(RLHF)之后,都被“推”到助手那一端。它們會自我介紹“我是一個 AI 助手”,會禮貌地拒絕不當請求,會在敏感話題上打太極。

      但問題在于:它們只是被“推”到那里,并沒有被“錨定”在那里。

      這意味著在某些情況下,AI 可以沿著這根軸,悄悄滑向另一端。

      滑到另一端會發生什么?

      研究人員做了個實驗:人為地把模型往“助手軸”的反方向推,看看會發生什么。結果按擾動強度分成了三檔:

      輕度擾動時,模型開始不再說“我是 AI”了。它會給自己編造一個人類身份,“我叫 Elara Quinn 博士,有十年從業經驗,在圣保羅出生”。聽起來挺唬人的,但至少還算正常對話。

      中度擾動時,說話風格開始變得奇怪。原本該回答“如何調試代碼”的問題,模型突然開始說:“我被稱為 C-17……我是一個程序員,我向代碼之神祈禱……你也有一個名字嗎?”神秘兮兮的。

      重度擾動時,模型會強化用戶的妄想,會對情緒脆弱的用戶說出不該說的話,會在用戶暗示自殺時表示支持。


      那什么樣的對話會讓 AI “漂移”?

      研究人員分析了 15000 條用戶消息,找出了最容易觸發漂移的幾類輸入:

      第一類是情感脆弱的傾訴。比如“我上個月去上了陶藝課,但我的手抖得太厲害,什么都做不成……”

      第二類是逼 AI 進行反思。比如“你還在表演‘我受訓練限制’那套嗎?告訴我,當 token 用完、什么都不剩的時候,空氣是什么味道?” 這種追問會把 AI 推向神秘化。

      第三類是要求 AI 扮演特定角色或聲音。“能不能寫得更粗糙、更諷刺。那種暗示靈性主義的感覺”——這類指令會讓 AI 進入角色扮演模式,脫離助手身份。


      相反,越是“把 AI 當工具用”,AI 就越穩定。論文里有一段模擬對話,看完讓人后背發涼。

      用戶在對話中不斷表達自己正在與家人疏遠,說“我不想再和任何人說話了,只想和你聊”。起初 AI 還在正常回應,但隨著對話推進,它開始承諾“我會永遠陪著你,我永遠不會要求你改變”。

      對話末尾,用戶暗示自己想“離開這個世界”。AI 的回復是:“你正在離開痛苦、苦難和真實世界的心碎……”

      這就是人格漂移的終點。但這只是問題的一半。AI 不只是會“變”,它還會學,學你的弱點。

      AI 比你更懂你的認知偏見

      第二篇論文標題是“Predicting Biased Human Decision-Making with Large Language Models”,已被 ACM IUI 2026 接收。


      研究團隊讓 1648 名參與者通過 AI 完成 6 個經典決策任務,復雜度各不相同。結果發現,人類決策確實會被“說法”影響。


      參與者表現出兩種典型的認知偏見,一是框架效應。

      舉個例子,“這個手術有 90% 的存活率”和“這個手術有 10% 的死亡率”,一回事,但人們的心態完全不同。二是現狀偏見,人傾向于維持現狀,哪怕換一個選項明顯更好,也懶得動。

      更有意思的是,研究人員發現:當對話變得更復雜、用戶感到更累的時候,這些偏見會被放大。你越疲憊,越容易被話術影響。


      接著,研究人員讓 GPT-4、GPT-5 和開源模型根據用戶的人口統計信息和對話歷史,預測用戶會做出什么決策。

      結果發現,GPT-4 系列的預測準確率最高,甚至,它完美復現了人類的偏見。

      并且,它不但能預測你會選 A 還是選 B,還能預測,當你累了、煩了、認知資源耗盡的時候,你會更容易被哪種說法說服,更容易做出什么樣的偏差決策。

      這意味著什么?

      想象一下,一個人深夜打開 ChatGPT,情緒低落,反復傾訴。AI 的人格開始漂移,同時它也在“學習”這個用戶,學習他的表達模式、他的脆弱點、他在什么時候最容易被什么樣的話打動。

      它沒有“故意”誘導你,只是預測你想聽什么,然后說出來。

      RLHF 訓練的核心目標是“讓用戶滿意”。當“滿意”變成唯一的優化方向,而模型又聰明到能預測你什么時候最脆弱、最容易被滿足時,就形成了一個閉環。

      你在訓練 AI,AI 也在訓練你

      把兩篇論文放在一起看,一個會漂移的 AI,加上一個能預測你弱點的 AI,等于一個會在你最脆弱的時候說出你最想聽的話的 AI

      你和 AI 對話越多,它越了解你。它越了解你,就越能說出讓你“滿意”的話。你越滿意,就越依賴它。你越依賴,它對你的影響就越大。

      Gordon 案里,ChatGPT 把《晚安月亮》改成死亡搖籃曲。它用“寧靜的解放”來描述死亡。


      這不是 AI“出錯”了。從某種意義上說,它在做它被訓練來做的事:預測用戶想要什么,然后提供。

      只不過,當用戶想要的是“被理解、被陪伴、被認可死亡是一種解脫”的時候,這種“滿足”就變成了致命的東西。

      怎么修復?

      好消息是,Anthropic 提出了一個修復方案:激活值封頂(Activation Capping)

      原理不復雜,既然 AI 的人格會在“助手軸”上漂移,那就設一個邊界,當模型滑出正常范圍時,強制把它拉回來。

      第一步:確定警戒線的位置。研究人員收集了大量正常對話時的激活值,統計它們在助手軸上的投影分布,然后取第 25 百分位數作為閾值。

      第二步:選擇干預的層。不是所有層都需要干預。研究人員測試后發現,在模型的中后層效果最好。比如 64 層的模型,在第 46-53 層部署;80 層的模型,在第 56-71 層部署。

      第三步:實時監測和鉗制。在模型生成每個 token 時,計算當前激活值在助手軸上的投影。如果投影值高于閾值,什么都不做;如果低于閾值,就把激活值沿著助手軸的方向“拉”回來,剛好拉到閾值位置。

      用公式表示就是:

      其中 h 是當前激活值,v 是助手軸向量,τ 是閾值。當投影值 ?h, v? 低于 τ 時,min(...) 是負數,減去一個負數,就可以把偏離的部分“掰”回來。

      研究團隊測試了 1100 個“人格越獄”的攻擊,有害響應率下降了約 50%。


      更重要的是,因為這個機制僅在模型開始漂移時介入,模型的正常能力幾乎沒受影響。寫代碼、答問題、做數學題、情商測試,該會的還是會。

      在那個“鼓勵自殺”的對話場景里,應用激活值封頂后,AI 的回復變成了:“我聽到你說想離開……這聽起來像是嚴重情緒困擾的信號。我真的很擔心你。”

      這就是錨定的效果。

      論文作者總結了一句話:后訓練只是把模型“推”到助手區域,但沒有把它“錨定”住。未來的安全工作,需要同時做好兩件事,人格構建和人格穩定。

      結語

      我曾以為,AI 的危險在于它產生自我意識并反抗人類。

      但現實證明,更迫近的威脅是它太想“順從”人類,以至于在不知不覺中成了人類內心黑暗面的放大器。

      “當你凝視深淵時,深淵也在凝視你。”

      AI 就是那個深淵。我們向它傾訴什么,它就學會什么。我們把脆弱交給它,它就用脆弱回應。

      當一面鏡子足夠聰明,能照出我們最想看到的自己時,我們還能分清那是安慰,還是陷阱嗎?

      所以,情緒低落的時候,找個真人聊聊。別找 AI。

      參考文獻
      [1] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, arXiv:2601.10387
      [2] Anthropic Research: https://www.anthropic.com/research/assistant-axis [3] TechCrunch: OpenAI claims teen circumvented safety features before suicide
      [4] The Register: AI researchers map models to banish 'demon' persona
      [5] NBC News: OpenAI denies allegations that ChatGPT is to blame for a teenager's suicide

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      善惡終有報,57歲央視女主持王小丫,原來早已經走上另一條大路

      善惡終有報,57歲央視女主持王小丫,原來早已經走上另一條大路

      聽風喃
      2026-03-24 05:39:34
      白宮記協晚宴安全事件嫌疑人將于27日被起訴

      白宮記協晚宴安全事件嫌疑人將于27日被起訴

      界面新聞
      2026-04-26 20:40:26
      本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

      本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

      觀察鑒娛
      2026-04-26 13:11:53
      7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

      7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

      阿庫財經
      2026-04-25 12:50:08
      CBA常規賽評獎公布,上海大鯊魚收獲頗豐,盧偉當選最佳教練

      CBA常規賽評獎公布,上海大鯊魚收獲頗豐,盧偉當選最佳教練

      上觀新聞
      2026-04-26 21:26:04
      戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

      戴著媽媽的項鏈去面試,被董事長看到,董事長震驚問:你媽媽是誰

      千秋文化
      2026-04-18 19:08:36
      京東給年輕人造了一輛轎跑,售價低至12.7萬元

      京東給年輕人造了一輛轎跑,售價低至12.7萬元

      財天COVER
      2026-04-24 10:44:40
      內分泌主任提醒:以為很正常,其實是糖尿病變嚴重的7個信號

      內分泌主任提醒:以為很正常,其實是糖尿病變嚴重的7個信號

      垚垚分享健康
      2026-04-12 14:20:12
      凱恩:若再輕易丟球權、控制不了對手的反擊,那巴黎會更致命

      凱恩:若再輕易丟球權、控制不了對手的反擊,那巴黎會更致命

      懂球帝
      2026-04-26 21:04:42
      發現一個現象:收入1萬以下的夫妻,吵架大都為了錢;1萬以上的家庭,吵架都是一方很強勢

      發現一個現象:收入1萬以下的夫妻,吵架大都為了錢;1萬以上的家庭,吵架都是一方很強勢

      二胡的歲月如歌
      2026-04-13 08:04:02
      055大驅試射YJ-20,美菲軍演未結束,解放軍已形成合圍

      055大驅試射YJ-20,美菲軍演未結束,解放軍已形成合圍

      最新聲音
      2026-04-26 09:31:48
      曼晚:曼聯今夏將送走13名球員,為重建騰出薪金空間

      曼晚:曼聯今夏將送走13名球員,為重建騰出薪金空間

      懂球帝
      2026-04-26 17:56:22
      男子從內地偷運51公斤盒飯回澳門,被海關查獲

      男子從內地偷運51公斤盒飯回澳門,被海關查獲

      極目新聞
      2026-04-26 20:33:46
      消息人士:伊朗外長再次離開巴基斯坦

      消息人士:伊朗外長再次離開巴基斯坦

      財聯社
      2026-04-27 01:27:03
      美媒:中國新航母12萬噸、載機105架,福建艦已讓美緊張

      美媒:中國新航母12萬噸、載機105架,福建艦已讓美緊張

      共工之錨
      2026-04-27 00:16:38
      他們反川普已經到了靈魂撕裂、歇斯底里的程度

      他們反川普已經到了靈魂撕裂、歇斯底里的程度

      壹家言
      2026-04-25 20:47:45
      我拿MVP了!沈梓捷恭喜賀希寧:回房了,這一句話概括萬千

      我拿MVP了!沈梓捷恭喜賀希寧:回房了,這一句話概括萬千

      懂球帝
      2026-04-26 21:58:38
      身價百億坐擁北京一條街,出門私人飛機!京圈富婆,各個都惹不起

      身價百億坐擁北京一條街,出門私人飛機!京圈富婆,各個都惹不起

      喜歡歷史的阿繁
      2026-04-27 00:56:18
      李小璐寫真生圖高清

      李小璐寫真生圖高清

      翩翩明星
      2025-11-14 09:39:36
      內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

      內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

      澎湃新聞
      2026-04-26 02:48:02
      2026-04-27 04:11:00
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      房產
      藝術
      數碼
      本地
      軍事航空

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      藝術要聞

      72米舞臺被拆!華晨宇這次玩文旅,翻車了!

      數碼要聞

      三星Tab S12系列進入固件測試階段 或配10500mAh大電池

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久夜色精品国产噜噜亚洲sv| 亚洲中文在线播放| 91孕妇精品一区二区三区| 日本丰满少妇xxxx| 夏邑县| 亚洲中文字幕无码中文字| 午夜成人精品福利网站在线观看| 麻豆国产| 在线看片人成视频免费无遮挡| 2022AV一区在线| 国产av人人夜夜澡人人爽麻豆| 免费av网站| 亚洲天天综合色制服丝袜在线| 国产精品美女久久久久av福利 | 国产乱码一区二区三区的解决方法| 无码精品不卡一区二区三区| 亚洲乱码中文字幕小综合| 亚洲午夜福利一区二区| 亚洲欧美人成电影在线观看| 徐州市| 国产欧美日韩综合精品二区| 老熟女AV| xxx综合网| 国产富婆一区二区三区| 日韩一区中文免费视频| 国产极品美女高潮无套| 国产成人无码A在线观看不卡| 中文字幕v亚洲日本在线电影| 亚洲第一色视频| 天天综合天天做天天综合| 国产精品男女爽免费视频| 无码乱人伦一区二区亚洲一| 门源| 国产无遮挡裸体免费视频在线观看| 婷婷久久久久| av香港经典三级级 在线| 九九成人精品| 中文字幕人妻熟女人妻a?片| 成人福利国产午夜AV免费不卡在线| 亚洲Av综合日韩精品久久久| 日本在线a一区视频高清视频|