![]()
機器之心報道
編輯:Panda
智能體(Agent),即基于語言模型且具備推理、規劃和行動能力的系統,正在成為現實世界 AI 應用的主導范式。
盡管其已被廣泛采用,但決定其性能的原則仍未被充分探索,導致從業者只能依賴啟發式經驗,而非有原理依托的設計選擇。
現在,谷歌的一篇新論文填補了這一空白!
他們通過大量實驗找到了智能體的 Scaling Law,只不過他們將其稱為quantitative scaling principles,即定量擴展原則。
![]()
- 論文標題:Towards a Science of Scaling Agent Systems
- 論文地址:https://arxiv.org/abs/2512.08296
具體來說,他們將這種擴展定義為智能體數量、協作結構、模型能力和任務屬性之間的相互作用。
他們在四個不同的基準測試中對此進行了評估:Finance-Agent(金融推理)、BrowseComp-Plus(網絡導航)、PlanCraft(游戲規劃)和 Workbench(工作流執行)。
![]()
利用五種典型的智能體架構(單智能體系統以及四種多智能體系統:獨立型、中心化、去中心化、混合型),并在三個 LLM 家族(OpenAI, Google, Anthropic)中進行實例化,谷歌這個團隊對 180 種配置進行了受控評估,標準化了工具、提示結構和 token 預算,以將架構效應從實施混雜因素中隔離出來。
![]()
他們使用經驗性的協作指標(包括效率、開銷、錯誤放大和冗余)推導出了一個預測模型,該模型實現了交叉驗證 R2=0.513,通過對任務屬性建模而非過度擬合特定數據集,實現了對未見任務領域的預測。
是的,智能體的 Scaling Law 找到了!并且準確度還相當高,谷歌表示:「我們的框架在預測保留任務的最佳架構方面實現了 87% 的準確率。」這樣一來,智能體的部署決策將第一次獲得強有力的原則支撐。
![]()
實驗與結果:打破「人多力量大」的迷思
為了找到這套定量原則,谷歌團隊沒有僅僅停留在理論推導,而是進行了一場堪稱暴力窮舉的實證研究。
他們動用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、網購、游戲規劃等不同場景下進行了 180 組受控實驗。
實驗結果不僅令人意外,甚至顛覆了許多開發者的直覺。簡單來說,他們發現了一些規律。
任務決定成敗:有的場景是神助攻,有的是豬隊友
過去人們常說「三個臭皮匠,頂個諸葛亮」,但這篇論文告訴我們:這完全取決于你們在干什么任務。
![]()
紅榜(適合組團): 在金融分析(Finance-Agent)這類任務中,多智能體協作是大殺器。中心化架構(有一個「指揮官」分派任務)能讓性能暴漲 80.9%。為什么?因為這類任務可以拆分 —— 你查財報,我算匯率,他做總結,大家并行工作,效率極高。
黑榜(切忌組團): 在游戲規劃(PlanCraft)這類任務中,所有多智能體架構都翻車了,性能慘跌 39% 到 70%。原因在于這類任務環環相扣(必須先砍樹,才能做木板),強行把流程拆給不同的人,光是溝通成本就把推理能力消耗殆盡了。
三大隱形殺手:什么在阻礙智能體變強?
通過對數據的深度挖掘,谷歌團隊量化了阻礙智能體擴展的三大核心因素:
第一,工具越多,協作越難(工具-協作權衡)
如果任務需要用到大量工具(比如 16 個以上的 API),再引入多智能體協作就是一場災難。實驗數據顯示,工具密集的任務會因巨大的溝通開銷而不僅沒變快,反而變慢、變笨。
第二,能力有天花板(能力飽和效應)
這是最反直覺的一點:如果單個智能體已經夠聰明了,就別再給它找幫手了。 數據表明,當單智能體的基線準確率超過 45% 時,再增加智能體進行協作,收益往往是負的。所謂「幫倒忙」,在 AI 世界里是真實存在的。
第三,沒有指揮官,錯誤會指數級放大
如果你讓一群智能體各自為戰(獨立型架構),錯誤會被放大 17.2 倍 —— 因為沒人檢查,一個人的錯會傳給所有人。但如果引入一個「指揮官」進行中心化管理,錯誤放大率能被控制在 4.4 倍。這證明了在多智能體系統中,架構設計比單純堆人數更重要。
模型性格測試:誰是最佳指揮官?
除了任務和架構,論文還發現了一個有趣的現象:不同廠商的模型有不同的協作性格。在選擇團隊成員時,你不能只看智商(IQ),還要看它們合不合群。
Google Gemini:擅長「層級管理」的執行官。Gemini 模型在中心化架構下表現出了驚人的適應性。在金融任務中,Gemini 的中心化協作帶來了 +164.3% 的恐怖提升。數據表明,它最聽指揮,執行力最強,且在不同架構下的性價比最為平衡。
OpenAI GPT:擅長「復雜溝通」的交際花。GPT 系列在混合型架構(Hybrid)中表現最佳 。雖然混合架構的溝通成本很高,但 GPT 似乎擁有獨特的「通信協同效應」(Communication Synergy),能駕馭復雜的交互網絡,不僅能聽指揮,還能搞定同級之間的橫向溝通 。
Anthropic Claude:穩健但敏感的保守派。Claude 對協作開銷非常敏感,一旦溝通太復雜,成本就會飆升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最適合簡單直接的中心化架構,表現最穩(方差最小)。更有趣的是,它是唯一一個在「弱指揮官帶強兵」(異構混合)模式下還能提升性能的模型,展現出了獨特的容錯性
![]()
結果:這就是我們要找的「預測公式」
最終,基于上述發現,谷歌推導出了一個預測模型。這個模型不依賴玄學,而是基于效率、開銷、錯誤放大率等硬指標。
![]()
![]()
它的威力如何?在預測完全沒見過的任務配置時,這套理論能以 87% 的準確率告訴你:對于當前的任務和模型,到底該用單打獨斗,還是團隊協作,亦或是某種特定的組隊方式。
這標志著智能體系統設計正式告別了「煉金術」時代,進入了可計算、可預測的「化學」時代。
更多詳情請訪問原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.