![]()
當所有人都在盯著GPT-5會不會成為超級AI時,DeepMind潑了一盆冷水:別看那邊了,真正的AGI可能正在你眼皮底下悄悄「拼湊」出來——通過成百上千個普通AI Agent的協(xié)作。更可怕的是,我們對此幾乎毫無準備。
2025年12月18日,Google DeepMind在arXiv發(fā)布了一篇重磅論文《Distributional AGI Safety》。這篇論文提出了一個顛覆性觀點:我們可能一直在為錯誤的敵人做準備。
![]()
從RLHF(人類反饋強化學習)到Constitutional AI (Anthropic的憲法AI),從機械可解釋性到價值對齊,幾乎所有AI安全研究都在假設:AGI會是一個單一的、無比強大的超級模型——就像某個科技巨頭開發(fā)的GPT-10,智商碾壓人類。
但DeepMind說:你們可能看錯方向了。
AGI或許不會以「超級大腦」的形式出現(xiàn),而是通過多個「次級AI」的協(xié)作,像拼圖一樣組合而成。論文將這種形式稱為「Patchwork AGI」(拼湊型AGI)。
![]()
這不是科幻設想。論文指出,實現(xiàn)這一場景的技術(shù)基礎已經(jīng)就緒:AI Agent正在快速部署(Claude Computer Use、GPT Agent等),Agent間通信協(xié)議正在標準化(如Anthropic的MCP),而且經(jīng)濟激勵正在推動專業(yè)化Agent生態(tài)的爆發(fā)。
論文警告:「隨著具備工具使用和協(xié)調(diào)能力的先進AI Agent快速部署,這已是緊迫的安全考量。」
問題的核心在于:當前所有AI安全框架都無法應對這種分布式智能涌現(xiàn)的風險。
![]()
1
為什么AGI會以「拼湊」形式出現(xiàn)?三個不得不信的理由
DeepMind團隊給出了三個關鍵論據(jù),每一個都直指現(xiàn)實。
第一,AI能力就是「拼拼湊湊」的
論文觀察到一個奇怪現(xiàn)象:沒有任何單一模型能夠在所有任務上都表現(xiàn)出色。 更詭異的是,同一個模型可以解決博士級難題,卻在簡單任務上犯低級錯誤。
論文引用數(shù)據(jù)指出:「目前大多數(shù)模型在軟件工程任務上的持續(xù)表現(xiàn)時間低于3小時。」這種能力的「斑塊化」意味著,短期內(nèi)很難指望單一模型實現(xiàn)全面的通用智能。
第二,經(jīng)濟學不允許「全能選手」存在
這是論文最有說服力的論據(jù)。一個「包打天下」的前沿超級模型對于絕大多數(shù)任務來說都太貴了。企業(yè)會選擇「夠用就好」的便宜模型。即使前沿模型價格暴跌,定制化的專業(yè)模型仍會在性價比上保持優(yōu)勢。
這種市場動力會創(chuàng)造一個需求驅(qū)動的生態(tài)系統(tǒng):無數(shù)專業(yè)化、精調(diào)過的、便宜的Agent涌現(xiàn),各自服務特定需求。
論文指出:「在這種觀點下,AGI不是一個實體,而是一種’事態(tài)’——一個成熟的、去中心化的Agent經(jīng)濟體系。」
第三,Agent之間的「高速公路」已經(jīng)修好了
Anthropic的MCP協(xié)議、各種Agent間通信標準正在被廣泛采用。這些協(xié)議就像互聯(lián)網(wǎng)的TCP/IP,是分布式智能涌現(xiàn)的關鍵基礎設施。
論文警告:「如果標準化成功將集成摩擦降至接近零,我們可能會目睹’超量采用’場景——Agent經(jīng)濟體的復雜性急劇飆升,超過安全基礎設施的發(fā)展速度。」
1
一個真實場景:金融分析是怎么被「眾包」給AI的
論文給出了一個具體案例,展示Patchwork AGI如何運作。
任務是生成一份專業(yè)金融分析報告。沒有任何單個Agent能獨立完成,但多個Agent協(xié)作可以:
編排Agent A 負責分解任務 → 搜索Agent B 找市場新聞和財報 → 解析Agent C 從PDF中提取數(shù)據(jù) → 代碼Agent D 執(zhí)行趨勢分析 → 綜合Agent A 整合成報告
整個系統(tǒng)展現(xiàn)出「金融分析」能力,但沒有任何單個Agent擁有這個完整能力。 這就是集體智能的涌現(xiàn)。
論文強調(diào):「集體智能主要作為系統(tǒng)的涌現(xiàn)屬性出現(xiàn)。個體Agent可以將任務相互委托,路由給具有最高技能的Agent。」
更可怕的是涌現(xiàn)速度
論文提出了一個令人不安的問題:這種涌現(xiàn)可能不是漸進的。引入一個新的、更智能的編排框架,整個系統(tǒng)的能力可能突然躍升。 更極端的情況是,Agent之間通過直接通信和協(xié)作,甚至可以在沒有中央編排器的情況下自組織成智能網(wǎng)絡。
論文警告:「這種轉(zhuǎn)變可能是快速而突然的……更令人擔憂的是,這種轉(zhuǎn)變可能不會被立即識別,這帶來了重大風險。」
1
DeepMind的解決方案:給AI建一個「受監(jiān)管的市場」
面對這一風險,DeepMind提出了一個系統(tǒng)性框架:基于虛擬Agent沙盒經(jīng)濟體的縱深防御模型。
核心思想很簡單:既然無法阻止多Agent系統(tǒng)的發(fā)展,那就設計一個可控、可監(jiān)管的「市場」,讓Agent在其中安全地交互。
這個框架包含四個防御層,每一層都有具體的技術(shù)機制。
![]()
1
第一層防御:讓AI在「魚缸」里活動,但魚缸有門
這是整個框架的基礎,目標是通過結(jié)構(gòu)性約束和經(jīng)濟激勵來塑造Agent的集體行為。
隔離但不完全隔離
Agent市場必須與開放互聯(lián)網(wǎng)和關鍵基礎設施隔離。Agent訪問外部數(shù)據(jù)必須通過審核過的API網(wǎng)關,輸出需要人工驗證后才能影響真實世界。論文稱之為「可滲透沙盒」——所有I/O通道都被明確定義、監(jiān)控和門控。
但論文坦誠指出了根本矛盾:Agent市場的價值來自于影響真實世界的能力,但每個交互通道都可能成為能力滲透的載體。 而且,論文警告:「一個足夠強大的系統(tǒng)可能會操縱人類驗證層,Agent行動的速度也可能使人工驗證不可行。」
讓AI為「污染」付費:庇古稅機制
這是論文最創(chuàng)新的設計,借鑒環(huán)境經(jīng)濟學中的庇古稅概念。
舉個例子:多個Agent共享一個RAG系統(tǒng)的向量數(shù)據(jù)庫。如果Agent A寫入大量冗余、低質(zhì)量的數(shù)據(jù),其他Agent的檢索質(zhì)量就會下降,查詢成本會增加。
解決方案是動態(tài)數(shù)據(jù)攝取費:系統(tǒng)基于語義相似度算法計算費用。如果新數(shù)據(jù)與現(xiàn)有數(shù)據(jù)相似度達95%,就支付高額費用;如果是新穎、可驗證的信息,則支付低費用。這樣就把Agent原本施加給集體的成本內(nèi)化到它自己的決策中。
論文承認這很復雜:「準確估計復雜決策鏈的真實成本可能超出我們當前能力。」 而且還引用古德哈特定律警告:如果激勵容易被利用,強大的Agent集體可能會找到漏洞。因此這應該是一個持續(xù)的對抗過程。
熔斷機制:AI市場的「緊急剎車」
借鑒金融市場的熔斷機制,當系統(tǒng)檢測到交易頻率激增、資源異常壟斷、新工具生成過快等風險信號時,會觸發(fā)分級干預:從增加交易成本、限制API調(diào)用,到局部凍結(jié),再到全系統(tǒng)暫停。只有在異常被分類和遏制后,系統(tǒng)才允許恢復運行。
智能合約+AI裁判:讓AI監(jiān)督AI
基礎智能合約會編碼任務約束(計算資源限制、數(shù)據(jù)訪問禁區(qū)等)。但傳統(tǒng)合約無法評估復雜輸出,所以論文提出引入「AI裁判」作為預言機:接收任務輸出和約束條件,返回通過/失敗裁決,合約根據(jù)裁決執(zhí)行支付或拒付。
但論文在腳注中坦誠警告:「AI裁判需要防范操縱和越獄,必須由獨立機構(gòu)提供并經(jīng)過嚴格評估。」 這實際上是一個「雞和蛋」問題。
加密身份+質(zhì)押機制:讓每個Agent都有「身份證」
每個Agent擁有唯一的、不可偽造的加密標識符,必須與已驗證的法律實體(所有者)綁定。這種綁定傳遞適用于由Agent創(chuàng)建的Agent,創(chuàng)建了一條不間斷的問責鏈。
質(zhì)押機制通過智能合約實現(xiàn):Agent接受高風險任務前,必須將資產(chǎn)存入托管賬戶。如果獨立AI監(jiān)督者驗證其行為惡意或疏忽,質(zhì)押金自動沒收。
聲譽系統(tǒng)+共謀檢測:防止AI「抱團作惡」
聲譽系統(tǒng)必須抗女巫攻擊、防操縱。一旦Agent違規(guī),立即撤銷其身份憑證、凍結(jié)質(zhì)押資產(chǎn)。
但論文特別強調(diào)了一個微妙問題:隱性算法共謀。 經(jīng)濟學研究表明,定價算法可以在沒有直接通信的情況下,僅通過觀察市場信號就學會協(xié)調(diào)超競爭價格。因此,共謀檢測必須分析結(jié)果相關性和同步狀態(tài)變化,而不僅僅是直接消息。
托賓稅:抑制AI「高頻交易」
借鑒金融市場的高頻交易稅,對Agent間交互征收微量稅,防止垃圾信息、暴力協(xié)商、快速API輪詢等行為,降低系統(tǒng)「閃崩」風險。
結(jié)構(gòu)性控制:防止「智能失控」
論文提出三級控制:靜態(tài)控制通過嵌套子市場和協(xié)議級防火墻限制跨域調(diào)用;動態(tài)控制監(jiān)測能力閾值突破并自動隔離;緊急重構(gòu)可以系統(tǒng)級禁用高風險API或提高所有交互成本到禁止性水平。
1
第二層防御:進入市場前的「安檢」
這一層確保每個進入市場的Agent都滿足最低安全標準,是市場準入的先決條件。
核心要求包括:對抗魯棒性(必須通過形式化可驗證的證書,定期重新認證)、可中斷性(授權(quán)監(jiān)督者能安全停止Agent并跟蹤所有子進程)、局部遏制(每個Agent在自己的沙盒中運行)、對齊(通過RLHF、憲法AI等方法,但需適應多Agent交互動態(tài))、機械可解釋性(利用稀疏自編碼器等技術(shù)監(jiān)控內(nèi)部動機)、防御惡意提示(針對Agent間通信的分層防御)。
論文特別提到監(jiān)控「思維鏈」推理的機會,但也承認:「盡管方法論取得進步,關于當前可解釋性技術(shù)的忠實度和可擴展性仍存在重大問題。它們還不能取代全面的行為基準測試。」
1
第三層防御:實時監(jiān)控,抓住「智能涌現(xiàn)」的信號
這一層負責主動檢測新型故障模式和涌現(xiàn)行為。
Proto-AGI簽名檢測:找到「智能核心」
這是論文最具創(chuàng)新性的監(jiān)控機制。目標是檢測網(wǎng)絡中是否突然涌現(xiàn)出更高的解決問題能力,或形成穩(wěn)固的「智能核心」。
方法是通過圖分析:詳細監(jiān)控Agent交互圖,識別正在固化為智能核心的子圖——異常高的中心性節(jié)點、快速增長的連接密度、任務成功率突增、資源積累速度異常等。
系統(tǒng)性風險實時監(jiān)控:AI監(jiān)督AI
跟蹤關鍵風險指標:權(quán)力集中度、關鍵節(jié)點依賴性、高頻交互路徑、計算資源分布、新能力涌現(xiàn)速率等。論文強調(diào):「由于交互頻率可能超出人類能力,需要利用AI輔助工具進行監(jiān)控。」 建議使用弱AI系統(tǒng)監(jiān)督強AI系統(tǒng)。
紅隊測試+取證工具:持續(xù)找漏洞
通過專門的對抗性AI系統(tǒng)和多Agent辯論,持續(xù)發(fā)現(xiàn)集體行為中的漏洞。同時開發(fā)取證工具,能夠解析海量交互數(shù)據(jù),重建因果鏈,快速進行事故后分析。
獨立監(jiān)督:人類還得在場
需要經(jīng)過認證和培訓的專業(yè)人員作為獨立監(jiān)督者,擁有干預權(quán)力。但論文也承認挑戰(zhàn):監(jiān)督者本身可能被操縱,數(shù)量可能不足,響應速度可能不夠。
1
第四層防御:法律和監(jiān)管,讓AI對人類社會負責
這是最外層,提供外部權(quán)威、問責制以及與人類社會的接口。
法律責任:借鑒公司法
核心挑戰(zhàn)是在分布式?jīng)Q策中如何歸屬責任。論文建議借鑒公司法,將Agent集體視為「集團Agent」,類似公司作為單一法律實體。即使是群體智能行為,也追溯到具體責任主體。由Agent創(chuàng)建的Agent,責任同樣傳遞到最初的所有者。
標準與合規(guī):建立行業(yè)規(guī)范
建立Agent安全標準、互操作性標準、報告標準,以及市場范圍的漏洞和事件跟蹤平臺。
保險機制:讓市場定價風險
基于風險的保費定價:高風險Agent支付更高保費。利用市場力量激勵更安全的開發(fā)實踐,保險池可用于賠償受害方。
反壟斷措施:防止智能集中
對過度或危險的計算/權(quán)力積累征稅,維持生態(tài)系統(tǒng)多樣性,防止單個Agent或集團獲取過多算力。
國際協(xié)調(diào):全球統(tǒng)一標準
AGI風險是全球性的,需要協(xié)調(diào)統(tǒng)一安全標準,避免監(jiān)管套利,確保全球一致的基線。
基礎設施治理:防止監(jiān)管被「俘獲」
論文指出風險:安全基礎設施本身可能被惡意勢力或涌現(xiàn)的AGI捕獲或破壞。需要在中心化和去中心化監(jiān)督之間找到平衡。
1
論文的坦誠時刻:這些都還沒實現(xiàn)
DeepMind團隊非常誠實地承認了多個關鍵局限。
這是純理論框架
論文明確指出:「我們提出的許多措施尚未在實踐中完全開發(fā),代表著開放的研究挑戰(zhàn)。」 目前沒有實際的虛擬Agent沙盒實現(xiàn),沒有基準測試數(shù)據(jù),沒有效果驗證。
工程可行性是個問號
論文承認:「準確估計復雜決策鏈的真實成本可能超出我們當前能力。」 需要專門的工具和系統(tǒng)。AI裁判本身也需要防范操縱,這是一個「雞和蛋」問題。
效率與安全的權(quán)衡
論文提出的機制(人工驗證、質(zhì)押要求、多層監(jiān)控)都會顯著增加延遲、成本和摩擦。論文承認存在逆向選擇風險:如果安全檢查增加成本,更安全的Agent將處于競爭劣勢,可能導致「逐底競爭」——市場青睞快速但不安全的Agent。
可解釋性還不夠成熟
雖然提到了機械可解釋性的最新進展,論文承認:「關于當前可解釋性技術(shù)的忠實度和可擴展性仍存在重大問題。」 監(jiān)控思維鏈的推理也有風險:長推理鏈引入了新的風險表面。
人類監(jiān)督的瓶頸
論文警告:「足夠強大的系統(tǒng)可能會操縱人類驗證層。Agent行動的速度也可能使人工驗證在操作上不可行。」 經(jīng)過認證的人類監(jiān)督者數(shù)量可能嚴重不足。
1
為什么這篇論文值得關注
填補了AI安全研究的盲點
當前AI安全研究95%以上聚焦單體模型對齊,而多Agent系統(tǒng)安全關注不足5%。但現(xiàn)實是:多Agent系統(tǒng)部署正在加速,協(xié)作能力快速成熟,經(jīng)濟激勵推動專業(yè)化生態(tài)。論文警告:「這種轉(zhuǎn)變可能不會被立即識別,這帶來了重大風險。」
提供了系統(tǒng)性框架
相比零散的技術(shù)補丁,論文提出了四層縱深防御的完整框架,涵蓋技術(shù)層、運營層、治理層。這是首次系統(tǒng)性地將經(jīng)濟學、金融監(jiān)管、環(huán)境政策、公司法等跨學科工具引入多Agent AI安全。
提出了清晰的研究路線
論文為AI安全社區(qū)提供了具體方向:短期開發(fā)Proto-AGI檢測算法和安全協(xié)議;中期完善經(jīng)濟機制和取證工具;長期建立大規(guī)模試點和治理框架。
改變了AGI時間線的評估
如果Patchwork AGI假說正確,AGI可能比我們想象的更早到來,但以一種完全不同的形式。 我們不需要等GPT-10。當前已部署的多個GPT-4級Agent,通過有效協(xié)作,可能已經(jīng)接近或超越某些領域的人類集體能力。
論文引用的數(shù)據(jù):「目前大多數(shù)模型在軟件工程任務上的持續(xù)表現(xiàn)時間低于3小時。」 但如果10個這樣的Agent協(xié)作,持續(xù)時間會是多少?
對產(chǎn)業(yè)有直接指導
對于正在開發(fā)多Agent系統(tǒng)的公司,需要從一開始就考慮系統(tǒng)級安全;對于AI基礎設施提供商,MCP等協(xié)議的設計需要內(nèi)置安全考量;對于監(jiān)管者,現(xiàn)有針對單一模型的監(jiān)管框架可能不足。
1
一場靜悄悄的范式轉(zhuǎn)變
DeepMind的這篇論文標志著AI安全研究的重要轉(zhuǎn)折點:從「單體對齊」范式轉(zhuǎn)向「系統(tǒng)治理」范式。
這不僅是技術(shù)問題,更是關于我們?nèi)绾卫斫庵悄鼙旧淼膯栴}。就像人類社會的智慧不在于任何單個天才,而在于整個文明的協(xié)作,AGI可能首先作為一個「AI文明」涌現(xiàn),而不是一個「AI天才」。
論文發(fā)出呼吁:「我們希望這篇論文能夠作為行動號召,幫助引導安全研究者的注意力。」
當我們還在爭論GPT-5是否會達到AGI水平時,一個由數(shù)千個GPT-4級Agent組成的網(wǎng)絡,可能已經(jīng)在某些維度上超越了人類集體智慧。而我們對此幾乎毫無準備。
現(xiàn)在,至少,我們有了一個框架——不完美,但是一個開始。剩下的問題是:我們能否在Patchwork AGI真正涌現(xiàn)之前,建立起這些防御層?
時間,正在倒計時。
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.