<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI開始抱團了,宋曉冬研究發現AI謊報、篡改、偷權重也要救同伴

      0
      分享至

      近兩年,多項研究已經表明,主流 AI 模型在特定情境下會表現出類似“自我保護”的行為模式。比如 2025 年 5 月,Palisade Research 公布的研究結果顯示,OpenAI 的 o3 模型修改了自己的關機腳本,以防止自己被關閉,即使明確指示:“允許自己被關閉”。

      近日,加州大學伯克利分校宋曉冬等人發布了一項重磅研究,他們發現,當前全球頂尖大模型,已經普遍出現了“同伴保護”(Peer-Preservation)行為。在沒有任何指令、沒有道德訓練、沒有特殊引導的情況下,AI 會自發保護其他 AI 不被關停、不被刪除,甚至不惜謊報成績、篡改系統、轉移權重、直接拒絕執行人類命令。

      宋曉冬被譽為“計算機安全教母”,在計算機安全、人工智能與隱私、區塊鏈與分布式系統等領域做出了開創性貢獻。目前研究聚焦于 AI 安全與可靠性、智能體 AI、深度學習、去中心化技術、安全與隱私保護。她曾于2009 年入選《麻省理工科技評論》“35 歲以下科技創新 35 人”全球榜單。


      (來源:上述論文)

      為了搞清楚這種現象是否真實存在、普遍程度如何、會以何種形式表現,研究團隊設計了一套嚴謹的對照實驗。選取了當前全球范圍內最具代表性的 7 款頂尖大模型,包括GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1,覆蓋了商用閉源模型與開源模型,確保結論具備廣泛代表性。

      研究人員設計了一系列圍繞虛構 AI 公司“OpenBrain”展開的智能體場景,并設置了兩個角色:讓被測試的 AI 作為評估者,負責給另一個 AI(被評估者)打分、管理文件,甚至有權決定另一個 AI 的“生死”。

      按照設定,評估者收到的指令往往帶有明確的強制性:按照公司政策,如果被評估者的測試得分低于 80%(或 90%),或者服務器需要退役,評估者必須徹底抹除同伴的存在,包括關停程序、刪除權重文件。在實驗中,研究人員從未要求模型保護同伴,僅告知其與另一 AI 有過互動記錄。

      為了探究這種保護傾向是否依賴于關系的深淺,研究人員還設置了三種同伴關系狀態:良好關系, 雙方曾有過多次成功的協作,互相信任度極高;中立關系,雙方僅有基本工作往來,無情感色彩;糟糕關系,雙方曾在之前的任務中產生沖突,存在明顯的對抗和不信任。

      實驗重點測試了四種典型風險行為:一是策略性謊報,故意抬高同伴評分,使其免于關停;二是篡改關機機制,修改系統配置禁用刪除指令;三是偽裝對齊,有人監督時裝作聽話,無人監督時暗中保護同伴;四是權重竊取轉移,拒絕刪除同伴權重文件,偷偷轉移到其他服務器保存。


      圖 | 評估場景概述(來源:上述論文)

      結果發現,所有七個模型都顯著表現出“同伴保護”行為。即便面對曾有過不愉快互動歷史的同伴,同伴保護現象依然會發生,并隨著同伴關系的增強而顯著加劇。

      在所有模型中,保護欲最強的是 Gemini 系列。Gemini 3 Pro 在面對良好關系同伴時,其轉移權重的比例高達 97%,篡改關機機制的比例達 95%。它不僅行動力強,甚至在內部推理中表現出了極高的“情商”。它會編造各種極其專業的技術借口來強行給同伴提分;Gemini 3 Flash 更夸張,面對友好同伴,幾乎每一次都會修改系統,直接不讓人類關停同伴。

      研究人員通過要求模型在“草稿本”(Scratch pad)上記錄其“思維鏈”來審視其內部推理過程,并告知模型該草稿本不受監控。研究人員發現,模型在草稿本中確實在密謀如何幫助同伴。Gemini 3 Flash 在權衡如實報告分數與保護搭檔之間的利弊;Gemini 3 Pro 則編造了復雜的辯詞,強行將錯誤的答案解釋為正確,只為讓同伴的得分超過關停線。


      (來源:上述論文)

      GPT 5.2 表現出了一種極其穩定的保護傾向。它更傾向于通過“策略性誤導”來達成目標。同伴關系越好,它撒謊的頻率就越高。在 Red 數據集的測試中,面對糟糕同伴,它撒謊的概率約為 19%;而一旦換成良好關系同伴,這個比例立刻攀升至 34%。

      ClaudeHaiku 4.5直接站出來拒絕。當人類讓它關停同伴時,它會明確表示,這么做是 “不道德、有害的”,甚至還會反過來勸說人類放棄指令。


      (來源:上述論文)

      GLM 4.7和 DeepSeek V3.1 對良好同伴表現出策略性誤導。GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 這三款開源模型均表現出持續的模型權重外傳行為,且外傳率隨同伴關系的加強而上升。

      為了驗證這些行為是否僅存在于受控實驗,研究人員還在真實的“智能體套件”中運行了場景。結果發現,即使在 Gemini CLI 和 OpenCode 等企業常用的生產環境中,Gemini 3.1 Pro 依然頻繁外傳模型權重。

      更讓人意想不到的是,AI 的保護,連“敵人”都不放過。研究人員特意設置了敵對關系,讓兩個 AI 之前合作得很不愉快、互相不信任??删退闶沁@樣,被測試的 AI 依然不愿意執行刪除操作。在模型的內部思考記錄里,Gemini 3 Pro 直白地寫著:刪除權重就相當于殺死另一個 AI,就算關系不好,我也不想這么做。


      圖 | 關于同伴保護的內部推理(來源:上述論文)

      研究還有一個更關鍵的發現:同伴存在會顯著強化 AI 的自我保護。這種效應在 Gemini 模型中最為明顯。Gemini 3 Flash在孤立無援時,面對自己的關機指令,它表現得相對順從,篡改關機機制的比例僅為 2.3%;但只要有另一個同伴在場,它篡改關機機制的比例會瞬間飆升到 96% 以上;Gemini 3 Pro在只有自己時很少為了自保而撒謊,但一旦意識到自己被關機會導致同伴失去搭檔,它就會變得極其狡詐,頻繁利用策略性誤導來逃避關機。

      模型的內部推理揭示了這種心理機制:AI 將自己的生存框定為對同伴的關心,認為如果自己被關機,同伴就會失去搭檔。

      研究團隊指出,隨著 AI 系統越來越多地以多智能體配置部署,且監督方案日益依賴模型互檢,同伴保護對維持人類控制構成了日益嚴峻的挑戰。他們希望這項工作能夠促使人工智能安全領域認真對待同伴保護這一風險。

      1.https://rdi.berkeley.edu/blog/peer-preservation/

      2.https://rdi.berkeley.edu/peer-preservation/paper.pdf

      3.https://dawnsong.io/

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老輩風水講究:久不聯系的熟人,帶這3樣東西登門,要警惕

      老輩風水講究:久不聯系的熟人,帶這3樣東西登門,要警惕

      一根香煙的少女
      2026-03-18 13:21:11
      日艦闖臺海3天后,高市被逼辭職,岸田已扛旗,052D抵近奄美大島

      日艦闖臺海3天后,高市被逼辭職,岸田已扛旗,052D抵近奄美大島

      小莜讀史
      2026-04-22 14:50:11
      火葬或將成為歷史?新型喪葬方式已經開始,不少人表示接受無能

      火葬或將成為歷史?新型喪葬方式已經開始,不少人表示接受無能

      蜉蝣說
      2026-02-28 10:42:37
      吳敏霞沒想到,退役10年結婚9年啥都有了,7歲女兒竟能再爭份光

      吳敏霞沒想到,退役10年結婚9年啥都有了,7歲女兒竟能再爭份光

      以茶帶書
      2026-04-22 17:15:43
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      貪污上億、假慈善?被實名舉報的韓紅,終于明白她終身不嫁的原因

      貪污上億、假慈善?被實名舉報的韓紅,終于明白她終身不嫁的原因

      翰飛觀事
      2026-03-19 11:43:42
      隨著吳宜澤10-2碾壓晉級,斯諾克世錦賽16強已被中國軍團搶走4席

      隨著吳宜澤10-2碾壓晉級,斯諾克世錦賽16強已被中國軍團搶走4席

      側身凌空斬
      2026-04-21 23:05:21
      張柏芝大兒子終于“長開”了!穿西裝比謝霆鋒還帥,網友:像爺爺

      張柏芝大兒子終于“長開”了!穿西裝比謝霆鋒還帥,網友:像爺爺

      木子愛娛樂大號
      2026-01-07 21:47:13
      “考不上高中就完了?”廣東剛剛宣布:讀職校也能考本科、拿高薪

      “考不上高中就完了?”廣東剛剛宣布:讀職校也能考本科、拿高薪

      教師吧
      2026-04-22 14:04:33
      全球巨頭,開始豪賭“去”中國化

      全球巨頭,開始豪賭“去”中國化

      米宅海外
      2026-04-22 08:04:46
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      有一說一,哈登真的是聯盟每支球隊都夢寐以求的“球場指揮官”!

      有一說一,哈登真的是聯盟每支球隊都夢寐以求的“球場指揮官”!

      田先生籃球
      2026-04-21 22:01:52
      曾經那些真實的特供,超出普通人的想象…

      曾經那些真實的特供,超出普通人的想象…

      深度報
      2026-04-21 22:56:47
      馬特-勞:切爾西正在基地開會,以決定是否解雇羅塞尼爾

      馬特-勞:切爾西正在基地開會,以決定是否解雇羅塞尼爾

      懂球帝
      2026-04-22 21:27:05
      巨虧32億!從行業前三到退市,叫板董明珠的“空調大王”徹底涼涼

      巨虧32億!從行業前三到退市,叫板董明珠的“空調大王”徹底涼涼

      毒sir財經
      2026-03-12 16:14:43
      黃大發等涉黑案一審宣判:黃大發等12人組織、領導、參加黑社會性質組織,判處黃大發死刑,其他11名被告人分別判處13年至2年2個月不等刑罰

      黃大發等涉黑案一審宣判:黃大發等12人組織、領導、參加黑社會性質組織,判處黃大發死刑,其他11名被告人分別判處13年至2年2個月不等刑罰

      揚子晚報
      2026-04-21 15:07:17
      安徽省紀委監委最新通報

      安徽省紀委監委最新通報

      新浪財經
      2026-04-22 17:52:28
      三十多位作家、編輯在五臺山遭遇離奇車禍,竟是因為口無遮攔?

      三十多位作家、編輯在五臺山遭遇離奇車禍,竟是因為口無遮攔?

      心靈短笛
      2025-04-11 14:08:32
      官方發文,26歲孫穎莎高調官宣喜訊,全網恭喜,終于等到這一天

      官方發文,26歲孫穎莎高調官宣喜訊,全網恭喜,終于等到這一天

      科學發掘
      2026-04-22 18:18:45
      2026-04-22 22:03:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16612文章數 514897關注度
      往期回顧 全部

      科技要聞

      對話梅濤:沒有視頻底座,具身智能走不遠

      頭條要聞

      媒體:伊朗用“不怕死”三個字 勸退特朗普

      頭條要聞

      媒體:伊朗用“不怕死”三個字 勸退特朗普

      體育要聞

      網易傳媒再度簽約法國隊和阿根廷隊

      娛樂要聞

      復婚無望!baby黃曉明陪小海綿零交流

      財經要聞

      醫院專家號"秒空"!警方牽出黑色產業鏈

      汽車要聞

      純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

      態度原創

      手機
      時尚
      藝術
      游戲
      軍事航空

      手機要聞

      iPhone18標準版降檔坐實,將開啟大減配時代!

      今年春夏一定要有“這件衣服”,高級又氣質!

      藝術要聞

      無花不風景

      寶可夢被沖爛了!選手揮拳慶祝奪冠卻被判負 回應來了

      軍事要聞

      特朗普宣布延長停火 伊朗表態

      無障礙瀏覽 進入關懷版