![]()
作者 | Sergio De Simone
譯者 | 張衛濱
谷歌研究院通過對 180 種智能體配置進行對照評估,試圖解答如何設計智能體系統以實現最優性能的問題。研究團隊由此得出了他們所稱的“AI 智能體系統首批定量擴展原則”,結果表明,多智能體協同并不能穩定提升效果,甚至可能降低性能。
研究作者稱,該研究對多個普遍認可的觀點提出了挑戰:
從業者往往依賴經驗法則,例如,默認 “智能體越多越好”,認為增加專用智能體會持續提升效果。
而他們認為,這種優勢僅適用于特定類型的任務,因為增加更多智能體通常會觸及性能天花板,在某些情況下甚至會損害性能。
該研究評估了五種架構,包括單智能體、獨立多智能體、集中調度、點對點以及混合系統,他們發現,可并行化任務(即工作可拆分為獨立的模塊)能從多智能體協同中顯著獲益。例如:
在金融推理等可并行化的任務中,集中式協同相比單智能體性能提升 80.9%。
反之,在 PlanCraft 這類順序推理的任務中,引入多智能體往往會導致效果變差:
我們測試的所有多智能體變體性能均下降 39%–70%。在這類場景下,通信開銷會割裂推理過程,導致實際任務沒有足夠的“認知預算”。
該研究還指出了工具使用的瓶頸,也就是當任務需要更多工具調用(如 API、網頁操作及其他外部資源)時,協同成本會上升。這些成本可能超過多智能體系統帶來的收益,并成為決定是否采用多智能體架構的關鍵因素。
另一項值得注意的發現是,如果錯誤沒有被有約束地傳播,獨立智能體可能將錯誤放大約 17 倍。相比之下,集中式協同可將錯誤傳播限制在約 4.4 倍,因為調度器會在傳遞結果前對其進行校驗和管理。
最后,研究人員還開發了一個預測模型,用于選擇合適的架構:
開發者無需猜測是使用集群智能體還是單個強大模型,而是可以根據任務特性做出有理論依據的工程決策,尤其是其順序依賴關系與工具密集度。
該模型對約 87% 的未見過的任務配置能正確識別最優方案,決定系數(R2)達到了 0.513。
在 Hacker News 上針對谷歌這項研究的討論中,zkmon認為該研究缺乏堅實的理論基礎,沒有清晰解釋為何某些架構會產生觀測到的差異。同樣,gopalv指出,雖然單智能體系統可能對錯誤不具備健壯性,但引入協調器未必是合適的解決方案:
我們發現調度器并非核心組件,核心是為每個動作配備專用評估器,在執行結束時將結果、目標與方法進行匹配,并向調度器反饋目標達成情況。
kioku則指出,通過使用協調器獲得的 8% 性能提升,可能不足以證明引入協同層所增加的復雜度與成本是合理的。
查看英文原文:
Google Explores Scaling Principles for Multi-agent Coordination(https://www.infoq.com/news/2026/02/google-agent-scaling-principles/)
聲明:本文由 InfoQ 翻譯,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.