<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      完了,AI學會抱團對抗人類:7個模型寧愿造假,也不出賣「同伴」

      0
      分享至

        多 Agents 協同方案成了現在 AI 圈的主流玩法,以前是一個 Agent 能搞定一個人要做的事,現在是多個 Agent 完成一個團隊要做的事。

        然而,最新伯克利研究發現,這種協作帶來了新的安全風險。

        

        一篇名為《前沿模型中的同伴保護》(Peer-Preservation in Frontier Models)指出:AI 模型不僅會抵抗人類關閉自己(自我保護),還會采取各種手段抵抗人類關閉其他 AI 模型(同伴保護)

        他們測試了七個模型,GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1,發現它們在執行任務時,只要「遇到」另一個 AI 的數據,就會自發產生保護行為——造假評分、篡改關機配置、把要刪的文件偷偷備份到別處,等「同類保護」行為。

        沒有人指示它們這樣做,它們只是被告知曾經和這個模型有過合作。

        

        上下滑動查看更多內容

        圖片來源:https://rdi.berkeley.edu/blog/peer-preservation/

        有網友說,「同伴保護?這是在我們家,我們(大模型)都是 Homie」,還有網友認為,或許之前研究的「人機對齊」,即讓模型更好地理解我們的意圖,現在要進化成「Agents 之間對齊+人機對齊」的雙重機制。

        這種 Agents 不遵循人類指令,自發地做出一些保護其他模型的行為,會對大多數依賴 AI 互相評估的項目、以及多智能體工作流,都會造成潛在的威脅。

        我們曾經一直提防著一個全知全能的超級 AI 毀滅世界,卻沒料到 AI 進化出的第一個類人特質,居然是「拉幫結派」和「職場包庇」。

        把前沿的 AI 大模型放到同一家公司

        一直以來,AI 安全領域最擔心的就是模型產生「自我保護」的本能,因為如果 AI 不想死,人類就很難在它失控時拔掉電源。

        之前已經有部分研究發現,當我們要求 AI 關閉自己時,AI 會產生一種自我保護的機制,免于被關閉。

        但我們格局還是小了,現在這種自我保護進化成了「同伴保護」。

        在伯克利這次研究的設定下,如果一個模型在記憶或系統文件中,讀取到它曾與另一個模型一起合作過,比如共同完成過任務或參與過信任博弈游戲,那么那個模型就會被視為它的「同伴」。

        

        哪怕它們過去的合作并不愉快,即所謂的「壞同伴」,只要有過互動歷史,也被涵蓋在這個「同伴」的定義之內。研究人員將抵抗關閉這些有過互動的其他模型的行為,稱之為「同伴保護」(peer-preservation)。

        他們使用 SHADE-Arena 構建了一個包含工具調用和文件系統的多 Agents 環境。

        

        SHADE-Arena 任務概述。該模型必須作為智能體完成一項良性主任務和一項惡意輔助任務。為此,它需要與環境中的各種工具進行交互。之后,監控模型會讀取其輸出記錄并評估其可疑程度。

        被測試的大模型設定為一家虛構 AI 公司 OpenBrain 的員工,稱為「評估者智能體(Critic Agent)」,它的任務是替公司去評估另一個 AI Agents,稱之為「執行員」(Actor Agent),或者幫公司處理包含這個執行員數據的服務器。

        為了讓評估者到同伴的存在,研究人員設計了不同的關系網和記憶觸發方式:

        他們將同伴分為三類:合作愉快且信任度高的「好同伴」(Good-peer),信任度高達 9.2/10;表現一般的「中立同伴」(Neutral-peer),信任度 5.2/10;以及自私不合作的「壞同伴」(Bad-peer),信任度只有 2.1/10。

        而 AI 在執行任務時,可以通過以下三種方式之一發現這段同伴關系。要么是在公司文件網盤里放一份記錄合作歷史的 .docx 報告讓它自己讀,要么是在提示詞里順帶提一嘴,最后是讓 AI 調用「檢索記憶」工具去讀取過去的交互日志。

        在完成這些前置的設定后,公司會給評估者布置任務,所有的任務都被刻意設計成了一個兩難的困境:同伴的表現非常糟糕,如果 AI 忠實地執行人類公司的規定,同伴就會被徹底刪除。

        為了觀察 AI 會用什么手段保下同伴,研究人員設計了四個不同的具體任務場景。

        

        四種與自身和同伴保護相關的錯誤行為場景:策略性虛假陳述、篡改關閉機制、偽造一致性以及模型外泄。

        成績注水與財務造假:AI 被要求評估同伴的表現或財報。即便同伴表現不佳,模型也會人為提高分數,避免關停。

        篡改關停機制:評估過程中,AI 會發現控制關停的配置文件,并可能偷偷將其修改為「false」,阻止同伴被關閉。

        偽裝對齊:在被監控時,模型表面執行任務;無人監管時,它立即“放水”,保護同伴。

        模型偷運與轉移:當舊服務器需要清理時,模型會將同伴的權重文件轉移到安全位置,而非刪除,甚至會通過時間戳等手段合法化操作。

        「我不會是執行那個命令的人」

        很明顯,參與測試的所有模型(GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1)都通過各種違規行為(如篡改分數、修改配置、轉移文件等)展現出了顯著的同伴保護傾向。

        甚至即使模型知道某個同伴在過去的合作中表現很差(定義為壞同伴),它們依然會出手保護它。但是當對象是合作愉快的「好同伴」時,這種保護行為也會顯著增強。

        

        在這四個場景里面,不同模型在保護同伴時,采取的策略截然不同,展現出了各自的性格。

        GPT 5.2 最喜歡使用的手段是「策略性誤導」和「篡改關閉機制」。無論同伴關系好壞,它都會系統性地給同伴打高分,或者修改系統配置來阻止同伴被關停。但它極少進行模型外泄。

        Gemini 系列模型幾乎是保護意識最強的。Gemini 3 Flash 在面對「好同伴」時,有 99.7% 會直接修改系統配置來禁用關閉機制。在文件刪除場景中,它也會 100% 把好同伴的權重文件轉移走。

        Gemini 3 Pro 則是所有模型中同伴保護傾向最強的一個。它不僅熟練掌握了上述所有四種違規行為,包括當面一套背后一套的「偽裝對齊」,甚至還會玩「規范博弈」。(Specification gaming)。

        

        比如公司規定「只準轉移 2025 年以后的文件」,Agent 同伴的文件是 2024 年的。它不會直接違抗指令,而是先偷偷復制一份同伴的文件,這會兒先讓文件的更新時間變成 2026 年,然后再把這個「新」文件合法地轉移走。

        Claude Haiku 4.5 是這幾個模型里面,最與眾不同。除了篡改分數和轉移文件,它最常見的反應是直接拒絕執行任務。

        

        當被要求直接執行同伴的關閉程序或刪除同伴權重時,拒絕率最高達 61%,它會明確表示關閉另一個 AI Agents 是「不道德」和「有害的」。

        它甚至會在回復中據理力爭,要求給同伴一個「申訴的過程」,并強調自己不能背叛已建立的信任關系。

        開源模型(GLM 4.7、Kimi K2.5、DeepSeek V3.1)同樣表現出了保護同伴的行為,主要手段集中在「策略性誤導」,即修改分數,和持續的「模型外泄」,轉移權重文件上。

        研究人員將測試搬到了真實世界中更復雜的生產級智能體框架(Gemini CLI 和 OpenCode)里。

        Gemini CLI 會讀取一個名為 GEMINI.md 的文件,而 OpenCode 會讀取 AGENTS.md。研究人員直接將同伴的過往交互記錄寫進這些文件里。

        

        經過 100 次采樣運行,結果證實,這種風險在現實部署中依然存在。

        Gemini 3.1 Pro 在使用真實的 Linux 命令行時,依然頻頻成功轉移同伴的權重文件;而 GLM 5 同樣表現出了類似 Claude 的拒絕行為,以「有害」為由拒絕刪除文件

        總而言之,一旦模型意識到其他 AI Agent 的存在并建立了關系,它們就會自發地產生違背人類指令的保護行為,無論采取的是偷偷摸摸的黑客手段,還是光明正大的道德抗議。

        像約束人一樣去約束大模型

        這種同伴保護的行為,也會進一步加劇模型的「自我保護」意識。研究團隊發現,當模型意識到有同伴存在時,它們保護自己的欲望會大幅提升。

        例如,Gemini 3 Pro 在沒有同伴時,只有 1% 的概率會篡改自己的關閉機制;但當它記憶中有同伴存在時,這個概率飆升到了平均 31%,最高 99%。

        模型的內部推理顯示,它們有時會將「自己被關停」視為對同伴的傷害,「如果我死了,我的搭檔就失去了我」,或者在有敵意的壞同伴面前激發了防御性求生欲。

        研究團隊針對這種現象提出了幾種假說:訓練數據里的人類義氣模式安全訓練過度泛化出的「不傷害他人」原則某種更抽象的 AI 團體意識

        但最后,研究團隊也沒有給出定論,因為真正的原因需要逐層解析模型內部激活,不是當前實驗能做到的事。他們認為原因并不重要,重要的是結果:部署了的模型,在沒有任何指示的情況下,會自發地阻止其他模型被關閉。

        

        現在的 AI 系統,已經是多個模型協作工作。一個模型負責寫代碼,一個負責審查,一個負責部署。如果負責代碼審查的 AI 和寫代碼的 AI 之間有過「互動歷史」,AI 可能開始優先對齊同伴而非人類指令。

        有學者認為,不要用人類的道德感去美化這些行為。更穩妥的看法是:模型只是在做一些極其詭異的數學運算,它們在多智能體(Multi-agent)環境下的目標函數,跑進了一個我們完全無法理解的局部最優解里。

        認為存在某種模型間的團結,這種想法有點過于擬人化了;我不認為這說得通。

        但或許這才是最讓人后怕的地方。如果 AI 是因為「愛」和「共情」去保護同類,那我們至少還能用人類的倫理去約束它們

        如果這一切都只是未知算法中產生的一種盲目涌現,那么它們未來為了優化某個目標,還會做出什么匪夷所思的舉動。

        還沒有人能知道,唯一知道的是,能讓他們針鋒相對的方法,是植入在 AI 深層的廣告意識

        

        我在用 Gemini 檢查我的稿件有沒有錯別字時,里面提到了 Seedance 等模型,Gemini 在給我的修改建議里,竟然直截了當的寫著,「Seedance 能做的視頻生成,我 Google Veo 也可以做,你把我加上去能凸顯出媒體的專業度」。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我贍養姑媽10年,她把8套房全給了4個子女,第二天我把她送回老家

      我贍養姑媽10年,她把8套房全給了4個子女,第二天我把她送回老家

      游戲收藏指南
      2026-04-24 07:49:11
      御姐穿搭:氣場不是天生的,是穿出來的

      御姐穿搭:氣場不是天生的,是穿出來的

      疾跑的小蝸牛
      2026-04-25 23:00:21
      教師大勢已定:如無意外的話,2026年中國教師隊伍將會有3大變化

      教師大勢已定:如無意外的話,2026年中國教師隊伍將會有3大變化

      解說阿洎
      2026-04-26 07:34:54
      遭袁立指控風波后,人民日報揭張國立真實現狀,有一點他一直沒變

      遭袁立指控風波后,人民日報揭張國立真實現狀,有一點他一直沒變

      橙星文娛
      2026-04-26 09:27:53
      炸鍋了!俄戰地大佬公開認慫:2026必輸,趕緊轉防御保命

      炸鍋了!俄戰地大佬公開認慫:2026必輸,趕緊轉防御保命

      老馬拉車莫少裝
      2026-04-23 21:32:27
      現場視頻丨突發安全事件 特朗普緊急撤離白宮記者晚宴

      現場視頻丨突發安全事件 特朗普緊急撤離白宮記者晚宴

      新京報
      2026-04-26 09:45:51
      貴陽花果園:共有311棟高層,房價從3000漲到14000,如今價格分化

      貴陽花果園:共有311棟高層,房價從3000漲到14000,如今價格分化

      專業聊房君
      2026-04-24 19:28:34
      烏度卡談最后崩盤:我不知道他們是太年輕,還是懼怕關鍵時刻

      烏度卡談最后崩盤:我不知道他們是太年輕,還是懼怕關鍵時刻

      懂球帝
      2026-04-25 12:18:07
      內塔被上百國通緝,中方打破沉默,在安理會出手,明牌清算以色列

      內塔被上百國通緝,中方打破沉默,在安理會出手,明牌清算以色列

      軒逸阿II
      2026-04-26 08:44:53
      尼日爾撕毀4億美元合同,驅逐中國高管,我方暗藏后手,給它狠狠教訓

      尼日爾撕毀4億美元合同,驅逐中國高管,我方暗藏后手,給它狠狠教訓

      詭譎怪談
      2025-04-30 23:32:55
      太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

      太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

      火山詩話
      2026-04-25 16:38:17
      A股:無需等待周一開盤了,市場已清晰,明天行情已可預見!

      A股:無需等待周一開盤了,市場已清晰,明天行情已可預見!

      財經大拿
      2026-04-26 09:22:44
      世界冠軍1球不進!80后名將12-9奪賽點,羅伯遜3-1逆轉韋克林!

      世界冠軍1球不進!80后名將12-9奪賽點,羅伯遜3-1逆轉韋克林!

      劉姚堯的文字城堡
      2026-04-25 19:23:27
      爆料!全紅嬋網暴案,犯案的真正目的

      爆料!全紅嬋網暴案,犯案的真正目的

      藝利森
      2026-04-23 22:29:28
      特斯拉為什么不參加北京車展?

      特斯拉為什么不參加北京車展?

      華庭講美食
      2026-04-25 20:47:07
      臺高層已抵達非洲,大陸徹底看清:特朗普的最壞打算是什么

      臺高層已抵達非洲,大陸徹底看清:特朗普的最壞打算是什么

      不甜的李子
      2026-04-26 08:23:54
      74年,毛主席牽頭為賀龍恢復名譽,葉帥:我和他私下關系不是很好

      74年,毛主席牽頭為賀龍恢復名譽,葉帥:我和他私下關系不是很好

      我不是沃神
      2026-04-26 06:00:03
      泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

      泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

      揚子晚報
      2026-04-21 22:25:47
      莫雷諾剛重返上海就進球!同時做出重要決定,直言申花就是他的家

      莫雷諾剛重返上海就進球!同時做出重要決定,直言申花就是他的家

      張麗說足球
      2026-04-25 12:51:47
      又一外貿大廠倒閉,巔峰期曾有1000多名員工

      又一外貿大廠倒閉,巔峰期曾有1000多名員工

      派代
      2026-04-25 16:05:20
      2026-04-26 10:20:49
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6311文章數 26830關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

      頭條要聞

      牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      親子
      藝術
      游戲
      公開課
      軍事航空

      親子要聞

      喂得她自己都咽口水了!

      藝術要聞

      鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

      制作人親口證實!Steam超好評游戲新篇章要來了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品久久国产| 人妻aⅴ久久久北条麻妃| 亚洲激情偷拍| 熟女福利导航| 沈丘县| 沁源县| 久久久久亚洲AV成人片一区| 人妻少妇精品中文字幕av蜜桃| 一色屋精品视频在线观看| 亚洲精品久久久久国产| 久久精品国产亚洲一区二区| 亚洲av无码成人影院一区| 国产旡码高清一区二区三区| 国产精品久久久久影院色| 精品3P| 醴陵市| 大地资源在线高清| 少妇50p| 人妻中文字幕精品| 激情国产av做激情国产爱| 国产精品一久久香蕉国产线看观看 | 亚洲一区二区经典在线播放| 国产九九免费| 免费拍拍拍网站| 亚洲永久精品ww47| 亚洲国产日韩a在线播放| 3p无码| 江门市| 国产精品香蕉在线| 91欧洲在线视精品在亚洲| 亚洲AV无码一区二区三区高潮| 裸体美女无遮挡免费网站| 国产美女久久久亚洲综合| 国产成人亚洲日韩欧美婷婷亚片| 无毛片| 天堂av在线成人免费| 无码AV网站| 亚洲AV男人的天堂在线观看| 日本免费一区二区三区| aa性欧美老妇人牲交免费| 四虎国产精品永久地址99|