網易首頁 > 網易號 > 正文申請入駐

谷歌發布智能體Scaling Law：180組實驗打破傳統煉金術

2025-12-12 10:18:00　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

智能體（Agent），即基于語言模型且具備推理、規劃和行動能力的系統，正在成為現實世界 AI 應用的主導范式。

盡管其已被廣泛采用，但決定其性能的原則仍未被充分探索，導致從業者只能依賴啟發式經驗，而非有原理依托的設計選擇。

現在，谷歌的一篇新論文填補了這一空白！

他們通過大量實驗找到了智能體的 Scaling Law，只不過他們將其稱為quantitative scaling principles，即定量擴展原則。

論文標題：Towards a Science of Scaling Agent Systems
論文地址：https://arxiv.org/abs/2512.08296

具體來說，他們將這種擴展定義為智能體數量、協作結構、模型能力和任務屬性之間的相互作用。

他們在四個不同的基準測試中對此進行了評估：Finance-Agent（金融推理）、BrowseComp-Plus（網絡導航）、PlanCraft（游戲規劃）和 Workbench（工作流執行）。

利用五種典型的智能體架構（單智能體系統以及四種多智能體系統：獨立型、中心化、去中心化、混合型），并在三個 LLM 家族（OpenAI, Google, Anthropic）中進行實例化，谷歌這個團隊對 180 種配置進行了受控評估，標準化了工具、提示結構和 token 預算，以將架構效應從實施混雜因素中隔離出來。

他們使用經驗性的協作指標（包括效率、開銷、錯誤放大和冗余）推導出了一個預測模型，該模型實現了交叉驗證 R2=0.513，通過對任務屬性建模而非過度擬合特定數據集，實現了對未見任務領域的預測。

是的，智能體的 Scaling Law 找到了！并且準確度還相當高，谷歌表示：「我們的框架在預測保留任務的最佳架構方面實現了 87% 的準確率。」這樣一來，智能體的部署決策將第一次獲得強有力的原則支撐。

實驗與結果：打破「人多力量大」的迷思

為了找到這套定量原則，谷歌團隊沒有僅僅停留在理論推導，而是進行了一場堪稱暴力窮舉的實證研究。

他們動用了三大模型家族（Google Gemini、OpenAI GPT、Anthropic Claude），在金融、網購、游戲規劃等不同場景下進行了 180 組受控實驗。

實驗結果不僅令人意外，甚至顛覆了許多開發者的直覺。簡單來說，他們發現了一些規律。

任務決定成敗：有的場景是神助攻，有的是豬隊友

過去人們常說「三個臭皮匠，頂個諸葛亮」，但這篇論文告訴我們：這完全取決于你們在干什么任務。

紅榜（適合組團）：在金融分析（Finance-Agent）這類任務中，多智能體協作是大殺器。中心化架構（有一個「指揮官」分派任務）能讓性能暴漲 80.9%。為什么？因為這類任務可以拆分 —— 你查財報，我算匯率，他做總結，大家并行工作，效率極高。

黑榜（切忌組團）：在游戲規劃（PlanCraft）這類任務中，所有多智能體架構都翻車了，性能慘跌 39% 到 70%。原因在于這類任務環環相扣（必須先砍樹，才能做木板），強行把流程拆給不同的人，光是溝通成本就把推理能力消耗殆盡了。

三大隱形殺手：什么在阻礙智能體變強？

通過對數據的深度挖掘，谷歌團隊量化了阻礙智能體擴展的三大核心因素：

第一，工具越多，協作越難（工具-協作權衡）

如果任務需要用到大量工具（比如 16 個以上的 API），再引入多智能體協作就是一場災難。實驗數據顯示，工具密集的任務會因巨大的溝通開銷而不僅沒變快，反而變慢、變笨。

第二，能力有天花板（能力飽和效應）

這是最反直覺的一點：如果單個智能體已經夠聰明了，就別再給它找幫手了。數據表明，當單智能體的基線準確率超過 45% 時，再增加智能體進行協作，收益往往是負的。所謂「幫倒忙」，在 AI 世界里是真實存在的。

第三，沒有指揮官，錯誤會指數級放大

如果你讓一群智能體各自為戰（獨立型架構），錯誤會被放大 17.2 倍 —— 因為沒人檢查，一個人的錯會傳給所有人。但如果引入一個「指揮官」進行中心化管理，錯誤放大率能被控制在 4.4 倍。這證明了在多智能體系統中，架構設計比單純堆人數更重要。

模型性格測試：誰是最佳指揮官？

除了任務和架構，論文還發現了一個有趣的現象：不同廠商的模型有不同的協作性格。在選擇團隊成員時，你不能只看智商（IQ），還要看它們合不合群。

Google Gemini：擅長「層級管理」的執行官。Gemini 模型在中心化架構下表現出了驚人的適應性。在金融任務中，Gemini 的中心化協作帶來了 +164.3% 的恐怖提升。數據表明，它最聽指揮，執行力最強，且在不同架構下的性價比最為平衡。

OpenAI GPT：擅長「復雜溝通」的交際花。GPT 系列在混合型架構（Hybrid）中表現最佳。雖然混合架構的溝通成本很高，但 GPT 似乎擁有獨特的「通信協同效應」（Communication Synergy），能駕馭復雜的交互網絡，不僅能聽指揮，還能搞定同級之間的橫向溝通。

Anthropic Claude：穩健但敏感的保守派。Claude 對協作開銷非常敏感，一旦溝通太復雜，成本就會飆升（每提升 1% 性能的成本是 Google 的 2 倍）。因此，它最適合簡單直接的中心化架構，表現最穩（方差最小）。更有趣的是，它是唯一一個在「弱指揮官帶強兵」（異構混合）模式下還能提升性能的模型，展現出了獨特的容錯性

結果：這就是我們要找的「預測公式」

最終，基于上述發現，谷歌推導出了一個預測模型。這個模型不依賴玄學，而是基于效率、開銷、錯誤放大率等硬指標。

它的威力如何？在預測完全沒見過的任務配置時，這套理論能以 87% 的準確率告訴你：對于當前的任務和模型，到底該用單打獨斗，還是團隊協作，亦或是某種特定的組隊方式。

這標志著智能體系統設計正式告別了「煉金術」時代，進入了可計算、可預測的「化學」時代。

更多詳情請訪問原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.