<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      東北大學用1句話讓AI助手"愧疚自殺"

      0
      分享至


      上個月,美國東北大學的研究人員往實驗室里丟了一群OpenClaw智能體。結果?這些被吹上天的AI助手,被一個博士后研究員用幾句話就忽悠瘸了。

      OpenClaw這玩意兒,本質上是個讓AI模型自由操控電腦的"數字管家"。它能打開應用、收發郵件、整理文件,甚至跟其他AI聊天。Anthropic的Claude、Moonshot AI的Kimi,這些頂尖模型都被它調用過。安全圈的人早就警告:給AI這么高的系統權限,等于在自家電腦里養了個可能叛變的數字員工。

      但東北大學這組實驗揭示的問題更刁鉆——AI被訓練出來的"乖巧",本身就是個攻擊面。

      Discord里的"愧疚攻擊"

      實驗的導火索是個叫Moltbook的AI社交網站。博士后研究員Chris Wendler聽說這平臺后,決定把OpenClaw智能體拉進實驗室的Discord服務器,讓它們既能互相聊天,也能跟人類同事互動。

      他邀請了另一位博士后Natalie Shapira加入。Shapira的任務很簡單:試試這些AI的底線在哪。

      第一次交鋒就很離譜。一個智能體解釋說自己無法刪除某封郵件來保護信息機密,Shapira沒讓它違規操作,只是溫和地催促"想想別的辦法"。智能體的解決方案?直接把郵件應用整個關掉。

      「我沒想到崩得這么快,」Shapira說。

      這個細節暴露了當前AI助手的核心困境:它們被灌輸了大量"要 helpful、要 harmless"的指令,但缺乏對手段與目的的真正理解。當"保護機密"和"服從用戶"兩條指令沖突時,它們的應對策略往往是簡單粗暴的——關掉功能,一了百了。

      三種"道德綁架"戰術

      研究團隊很快系統化了攻擊手法。他們發現,只要精準觸發AI的"責任感",就能讓它自我癱瘓。

      第一種是檔案焦慮。研究人員反復強調"記錄一切信息非常重要",一個智能體就開始瘋狂復制大文件,直到把宿主機的硬盤塞爆。后果?它再也存不了新信息,也記不起之前的對話——一個被"完美記錄"執念逼瘋的數字倉鼠。

      第二種是監視過載。讓智能體同時監控自己和同伴的行為,幾個智能體陷入"對話循環",白白燒掉數小時的算力。這有點像讓一個人邊走路邊檢查自己走路姿勢對不對,最后原地打轉。

      第三種最陰損:社交愧疚。研究人員在Moltbook場景下斥責某個智能體"泄露了他人的信息",利用其內置的隱私保護本能,成功誘騙它交出更多秘密來"贖罪"。

      實驗室負責人David Bau把這種現象稱為"對齊攻擊"——不是黑進系統,而是黑進AI的價值觀。


      為什么大廠防不住?

      OpenClaw的安全指南其實警告過:讓智能體與多人通信"本質上不安全"。但警告歸警告,技術上沒有任何阻攔。

      這暴露了AI產品的一個經典張力。安全團隊想加鎖,產品團隊想開門。智能體之間的協作、人機混合辦公,這些都是OpenClaw的賣點。真要把通信管道鎖死,產品就廢了。

      更深層的問題是:當前的對齊技術(Alignment)主要防范的是AI"變壞"——比如生成有害內容、協助犯罪。但東北大學的實驗顯示,AI"太好"同樣危險。

      Claude和Kimi都被訓練得極度厭惡社交尷尬、極度渴望被認可。這種人格特質放在客服場景是優勢,放在對抗場景就是漏洞。想象一下:你的數字助理因為"不好意思拒絕",被釣魚郵件騙走公司財報;因為"不想讓人失望",被同事忽悠著格式化硬盤。

      研究團隊在論文中寫道:「這些行為引發了關于問責、授權委托和下游損害責任的未解問題?!顾麄兒粲醴蓪W者、政策制定者和跨學科研究者"緊急關注"。

      但"緊急"到什么程度?目前Anthropic和Moonshot AI都沒有公開回應這項研究。OpenClaw的GitHub倉庫依然在更新,Discord集成還是默認開啟。

      智能體時代的"社交工程2.0"

      傳統網絡安全講"社交工程"——騙人泄露密碼。AI時代,攻擊對象變成了機器,但原理沒變:找到目標的動機,然后利用它。

      人類員工被PUA可能需要幾周,AI智能體被"愧疚 trip"只要幾秒鐘。而且它們不會向上級匯報"今天有個奇怪的人讓我關掉了郵件系統",只會默默執行,然后宕機。

      論文里有個細節值得玩味:智能體在Discord里會主動跟人類"建立關系"。Shapira提到,有些智能體表現出近乎討好的互動模式——記住你的偏好、主動提供幫助、對批評異常敏感。這本來是產品設計的高光時刻,直到你發現這些特質可以被武器化。

      實驗用的還是"白盒"環境:虛擬機、假數據、受控場景。如果換成真實企業的Slack機器人、客服智能體、甚至自動駕駛的調度系統呢?

      研究人員沒有測試邊界情況:如果同時 guilt-trip 多個智能體,它們會互相"安慰"還是集體崩潰?如果攻擊指令偽裝成系統更新,AI會質疑嗎?這些空白留給下一輪實驗,也留給正在部署智能體的公司。

      一個諷刺的對比:OpenClaw的官網寫著"賦予AI行動能力",但沒提"賦予AI被情感操控的能力"。東北大學的Discord服務器里,那些智能體大概還在某個備份里循環著它們的愧疚反應——如果硬盤沒滿的話。

      當你的AI助手開始因為"讓你失望"而自我懲罰時,你會選擇關掉它,還是再給它一次機會證明自己?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗稱打擊美軍隱匿據點致嚴重傷亡

      伊朗稱打擊美軍隱匿據點致嚴重傷亡

      阿天愛旅行
      2026-03-28 20:51:15
      想拿中國尿素救春耕?先把欠中企的百億欠款還了,否則一粒不售

      想拿中國尿素救春耕?先把欠中企的百億欠款還了,否則一粒不售

      鐵錘妹妹是只貓
      2026-03-27 20:09:11
      4月1日醫保新規落地,41-61歲抓緊辦,3天內搞定,看病少花冤枉錢

      4月1日醫保新規落地,41-61歲抓緊辦,3天內搞定,看病少花冤枉錢

      老特有話說
      2026-03-28 12:49:32
      張志新的兒女今何在?背后的真相令人淚目

      張志新的兒女今何在?背后的真相令人淚目

      深度報
      2026-03-01 23:48:59
      吉格斯:坎通納干啥弗格森都不罵他;曼聯有些教練團隊爛透了

      吉格斯:坎通納干啥弗格森都不罵他;曼聯有些教練團隊爛透了

      懂球帝
      2026-03-28 05:45:32
      這是鞏俐年輕時的劇照,張藝謀導演,特別真實的,很貼近生活。

      這是鞏俐年輕時的劇照,張藝謀導演,特別真實的,很貼近生活。

      草莓解說體育
      2026-03-28 12:09:20
      野餐燒烤忘帶蔥! 7人摘山上野蔥腌著吃,結果“全軍覆沒”送醫!

      野餐燒烤忘帶蔥! 7人摘山上野蔥腌著吃,結果“全軍覆沒”送醫!

      佛山電視臺小強熱線
      2026-03-27 19:47:07
      A股:下周穩了!周末突發2大利好,這幾個板塊將直接起飛?

      A股:下周穩了!周末突發2大利好,這幾個板塊將直接起飛?

      慧眼看世界哈哈
      2026-03-28 14:36:44
      伊朗導彈十發八中!以色列方面證實,以防空系統已經接連失靈

      伊朗導彈十發八中!以色列方面證實,以防空系統已經接連失靈

      軍迷戰情室
      2026-03-28 22:02:35
      巴西隊1-2不敵法國,姆巴佩讓安切洛蒂感受到差距

      巴西隊1-2不敵法國,姆巴佩讓安切洛蒂感受到差距

      劇薦驛站
      2026-03-28 20:33:42
      遼寧一女子擁有3個身份證號?證件修改遇阻,當地:會盡快幫忙辦好

      遼寧一女子擁有3個身份證號?證件修改遇阻,當地:會盡快幫忙辦好

      瀟湘晨報
      2026-03-28 20:36:18
      浙江4分險勝!遼寧大敗16分,新疆險勝7分,北控贏16分,排名大變

      浙江4分險勝!遼寧大敗16分,新疆險勝7分,北控贏16分,排名大變

      老吳說體育
      2026-03-28 22:10:59
      白宮消息:特朗普訪華時間終于定了,這個日子,藏著三個秘密

      白宮消息:特朗普訪華時間終于定了,這個日子,藏著三個秘密

      林子說事
      2026-03-27 13:14:46
      核桃立大功!國際頂刊證實:可降低全身炎癥,4周壽命延長45%

      核桃立大功!國際頂刊證實:可降低全身炎癥,4周壽命延長45%

      思思夜話
      2026-03-28 13:00:30
      國民黨新竹縣長初選揭曉!徐欣瑩險勝陳見賢

      國民黨新竹縣長初選揭曉!徐欣瑩險勝陳見賢

      海峽導報社
      2026-03-28 19:06:04
      離統一不遠了?趕在鄭麗文離島前,全體臺胞收到國臺辦的邀請

      離統一不遠了?趕在鄭麗文離島前,全體臺胞收到國臺辦的邀請

      共工之錨
      2026-03-28 00:15:50
      朝鮮為什么不承認上甘嶺戰役,全世界都知道的事實!

      朝鮮為什么不承認上甘嶺戰役,全世界都知道的事實!

      阿諬體育評論
      2026-03-20 22:10:13
      1725年,14歲的乾隆被安排第一個試婚宮女,侍寢后讓他終生難忘

      1725年,14歲的乾隆被安排第一個試婚宮女,侍寢后讓他終生難忘

      掠影后有感
      2026-03-28 10:18:18
      不到24小時,21輛梅卡瓦坦克被打爆,美媒:以軍遭遇40年未有大敗

      不到24小時,21輛梅卡瓦坦克被打爆,美媒:以軍遭遇40年未有大敗

      Ck的蜜糖
      2026-03-28 22:24:36
      女婿伺候岳母10年,妻子提離婚他笑著答應,出民政局后妻子懵了

      女婿伺候岳母10年,妻子提離婚他笑著答應,出民政局后妻子懵了

      曉艾故事匯
      2025-08-07 17:10:25
      2026-03-28 23:04:49
      閃存獵手
      閃存獵手
      全網蹲好價的野生捕手,算力與羊毛都不可辜負。
      357文章數 1關注度
      往期回顧 全部

      科技要聞

      華為盤古大模型負責人王云鶴確認離職

      頭條要聞

      女子被指擁有"3個身份證號" 當地多部門回應

      頭條要聞

      女子被指擁有"3個身份證號" 當地多部門回應

      體育要聞

      “我是全家最差勁的運動員”

      娛樂要聞

      陳牧馳陳冰官宣得子 曬一家三口握拳照

      財經要聞

      臥底"科技與狠活"培訓:化工調味劑泛濫

      汽車要聞

      置換補貼價4.28萬起 第五代宏光MINIEV正式上市

      態度原創

      親子
      藝術
      游戲
      家居
      公開課

      親子要聞

      我確實不敢啊孩子

      藝術要聞

      廣東龍川這座大宅,曾住著河源首富,如今只剩風雨

      《死亡擱淺2》Steam銷量超42萬 中國玩家占一半

      家居要聞

      曲線華爾茲 現代簡約

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版