<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌發布智能體Scaling Law:180組實驗打破傳統煉金術

      0
      分享至




      機器之心報道

      編輯:Panda

      智能體(Agent),即基于語言模型且具備推理、規劃和行動能力的系統,正在成為現實世界 AI 應用的主導范式。

      盡管其已被廣泛采用,但決定其性能的原則仍未被充分探索,導致從業者只能依賴啟發式經驗,而非有原理依托的設計選擇。

      現在,谷歌的一篇新論文填補了這一空白!

      他們通過大量實驗找到了智能體的 Scaling Law,只不過他們將其稱為quantitative scaling principles,即定量擴展原則。



      • 論文標題:Towards a Science of Scaling Agent Systems
      • 論文地址:https://arxiv.org/abs/2512.08296

      具體來說,他們將這種擴展定義為智能體數量、協作結構、模型能力和任務屬性之間的相互作用。

      他們在四個不同的基準測試中對此進行了評估:Finance-Agent(金融推理)、BrowseComp-Plus(網絡導航)、PlanCraft(游戲規劃)和 Workbench(工作流執行)。



      利用五種典型的智能體架構(單智能體系統以及四種多智能體系統:獨立型、中心化、去中心化、混合型),并在三個 LLM 家族(OpenAI, Google, Anthropic)中進行實例化,谷歌這個團隊對 180 種配置進行了受控評估,標準化了工具、提示結構和 token 預算,以將架構效應從實施混雜因素中隔離出來。



      他們使用經驗性的協作指標(包括效率、開銷、錯誤放大和冗余)推導出了一個預測模型,該模型實現了交叉驗證 R2=0.513,通過對任務屬性建模而非過度擬合特定數據集,實現了對未見任務領域的預測。

      是的,智能體的 Scaling Law 找到了!并且準確度還相當高,谷歌表示:「我們的框架在預測保留任務的最佳架構方面實現了 87% 的準確率。」這樣一來,智能體的部署決策將第一次獲得強有力的原則支撐。



      實驗與結果:打破「人多力量大」的迷思

      為了找到這套定量原則,谷歌團隊沒有僅僅停留在理論推導,而是進行了一場堪稱暴力窮舉的實證研究。

      他們動用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、網購、游戲規劃等不同場景下進行了 180 組受控實驗。

      實驗結果不僅令人意外,甚至顛覆了許多開發者的直覺。簡單來說,他們發現了一些規律。

      任務決定成敗:有的場景是神助攻,有的是豬隊友

      過去人們常說「三個臭皮匠,頂個諸葛亮」,但這篇論文告訴我們:這完全取決于你們在干什么任務。



      紅榜(適合組團): 在金融分析(Finance-Agent)這類任務中,多智能體協作是大殺器。中心化架構(有一個「指揮官」分派任務)能讓性能暴漲 80.9%。為什么?因為這類任務可以拆分 —— 你查財報,我算匯率,他做總結,大家并行工作,效率極高。

      黑榜(切忌組團): 在游戲規劃(PlanCraft)這類任務中,所有多智能體架構都翻車了,性能慘跌 39% 到 70%。原因在于這類任務環環相扣(必須先砍樹,才能做木板),強行把流程拆給不同的人,光是溝通成本就把推理能力消耗殆盡了。

      三大隱形殺手:什么在阻礙智能體變強?

      通過對數據的深度挖掘,谷歌團隊量化了阻礙智能體擴展的三大核心因素:

      第一,工具越多,協作越難(工具-協作權衡)

      如果任務需要用到大量工具(比如 16 個以上的 API),再引入多智能體協作就是一場災難。實驗數據顯示,工具密集的任務會因巨大的溝通開銷而不僅沒變快,反而變慢、變笨。

      第二,能力有天花板(能力飽和效應)

      這是最反直覺的一點:如果單個智能體已經夠聰明了,就別再給它找幫手了。 數據表明,當單智能體的基線準確率超過 45% 時,再增加智能體進行協作,收益往往是負的。所謂「幫倒忙」,在 AI 世界里是真實存在的。

      第三,沒有指揮官,錯誤會指數級放大

      如果你讓一群智能體各自為戰(獨立型架構),錯誤會被放大 17.2 倍 —— 因為沒人檢查,一個人的錯會傳給所有人。但如果引入一個「指揮官」進行中心化管理,錯誤放大率能被控制在 4.4 倍。這證明了在多智能體系統中,架構設計比單純堆人數更重要。

      模型性格測試:誰是最佳指揮官?

      除了任務和架構,論文還發現了一個有趣的現象:不同廠商的模型有不同的協作性格。在選擇團隊成員時,你不能只看智商(IQ),還要看它們合不合群。

      Google Gemini:擅長「層級管理」的執行官。Gemini 模型在中心化架構下表現出了驚人的適應性。在金融任務中,Gemini 的中心化協作帶來了 +164.3% 的恐怖提升。數據表明,它最聽指揮,執行力最強,且在不同架構下的性價比最為平衡。

      OpenAI GPT:擅長「復雜溝通」的交際花。GPT 系列在混合型架構(Hybrid)中表現最佳 。雖然混合架構的溝通成本很高,但 GPT 似乎擁有獨特的「通信協同效應」(Communication Synergy),能駕馭復雜的交互網絡,不僅能聽指揮,還能搞定同級之間的橫向溝通 。

      Anthropic Claude:穩健但敏感的保守派。Claude 對協作開銷非常敏感,一旦溝通太復雜,成本就會飆升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最適合簡單直接的中心化架構,表現最穩(方差最小)。更有趣的是,它是唯一一個在「弱指揮官帶強兵」(異構混合)模式下還能提升性能的模型,展現出了獨特的容錯性



      結果:這就是我們要找的「預測公式」

      最終,基于上述發現,谷歌推導出了一個預測模型。這個模型不依賴玄學,而是基于效率、開銷、錯誤放大率等硬指標。





      它的威力如何?在預測完全沒見過的任務配置時,這套理論能以 87% 的準確率告訴你:對于當前的任務和模型,到底該用單打獨斗,還是團隊協作,亦或是某種特定的組隊方式。

      這標志著智能體系統設計正式告別了「煉金術」時代,進入了可計算、可預測的「化學」時代。

      更多詳情請訪問原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      午盤|直線猛拉!A股牛回速歸?發生什么了!

      午盤|直線猛拉!A股牛回速歸?發生什么了!

      龍行天下虎
      2025-12-12 11:51:08
      “織毛衣”已經成了上海人最燒錢的愛好

      “織毛衣”已經成了上海人最燒錢的愛好

      ONE·一個
      2025-12-10 13:16:02
      中國洋浦港橫空出世,新加坡光速沒落,它上躥下跳是有原因的

      中國洋浦港橫空出世,新加坡光速沒落,它上躥下跳是有原因的

      花謝依然美
      2025-12-10 18:44:17
      摩爾線程大跌

      摩爾線程大跌

      第一財經資訊
      2025-12-12 09:49:51
      段永平評王石70歲真實現狀:財富非人生全部

      段永平評王石70歲真實現狀:財富非人生全部

      老頭的傳奇色彩
      2025-12-12 05:32:24
      該國膽子有多大?全球唯一把中美俄全得罪了,卻至今無人敢動

      該國膽子有多大?全球唯一把中美俄全得罪了,卻至今無人敢動

      近史談
      2025-12-12 11:22:33
      1977年,左宗棠陵墓被炸開,遺骨散落荒野,王震將軍得知后大怒!

      1977年,左宗棠陵墓被炸開,遺骨散落荒野,王震將軍得知后大怒!

      顧史
      2025-12-09 08:13:09
      媳婦年輕時外號叫大洋馬,十里八鄉沒人敢娶她,后來岳父硬塞給我

      媳婦年輕時外號叫大洋馬,十里八鄉沒人敢娶她,后來岳父硬塞給我

      人間百態大全
      2025-12-10 06:40:03
      各大小區充電樁,僅靠虛電賺40%利潤,別再被騙了

      各大小區充電樁,僅靠虛電賺40%利潤,別再被騙了

      趣文說娛
      2025-12-11 18:27:21
      河南今日6市中到大雪,局部暴雪!鄭州11點或現鵝毛大雪

      河南今日6市中到大雪,局部暴雪!鄭州11點或現鵝毛大雪

      大象新聞
      2025-12-12 06:53:01
      再次調整!12月12日中央5臺直播WTT總決賽有變,附乒乓球賽程

      再次調整!12月12日中央5臺直播WTT總決賽有變,附乒乓球賽程

      皮皮觀天下
      2025-12-12 09:39:24
      林豆豆到場送別丈夫,挽聯寄情且關聯父親,四野后代見此場景無不感動落淚

      林豆豆到場送別丈夫,挽聯寄情且關聯父親,四野后代見此場景無不感動落淚

      史海殘云
      2025-12-11 15:15:07
      火箭115-113快船3喜1憂!阿門+霍樂迪效果太好,謝潑德需總結!

      火箭115-113快船3喜1憂!阿門+霍樂迪效果太好,謝潑德需總結!

      細話籃球
      2025-12-12 12:11:57
      努爾哈赤叛亂早期,從鐵嶺到遼陽,只要滿清八旗兵來攻城,城門就會突然失守,豁然洞開,跟兒戲一樣

      努爾哈赤叛亂早期,從鐵嶺到遼陽,只要滿清八旗兵來攻城,城門就會突然失守,豁然洞開,跟兒戲一樣

      歷史按察使司
      2025-12-11 17:48:06
      很不正常,蒯曼4-0狂勝早田希娜,中國隊全勝進8強,女單已沒對手

      很不正常,蒯曼4-0狂勝早田希娜,中國隊全勝進8強,女單已沒對手

      真理是我親戚
      2025-12-11 20:15:32
      金日磾,他的名字你讀不出,他的殘忍你做不出,他的高位是不世出

      金日磾,他的名字你讀不出,他的殘忍你做不出,他的高位是不世出

      銘記歷史呀
      2025-12-11 16:18:42
      歐協2-1:意甲倒數第一掀翻基輔迪納摩,米哈伊連科飆世界波難救主

      歐協2-1:意甲倒數第一掀翻基輔迪納摩,米哈伊連科飆世界波難救主

      凌空倒鉤
      2025-12-12 07:44:03
      曼聯官宣簽13歲中衛蘇格拉底,無意老拉莫斯!700萬左閘拒絕出租

      曼聯官宣簽13歲中衛蘇格拉底,無意老拉莫斯!700萬左閘拒絕出租

      羅米的曼聯博客
      2025-12-12 10:45:54
      為什么歷史課本上,只提茍且偏安的南宋,卻不提威震中亞的西遼?

      為什么歷史課本上,只提茍且偏安的南宋,卻不提威震中亞的西遼?

      抽象派大師
      2025-12-11 17:10:58
      西媒:阿隆索周末贏球也可能下課

      西媒:阿隆索周末贏球也可能下課

      體壇周報
      2025-12-12 10:13:10
      2025-12-12 12:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11902文章數 142509關注度
      往期回顧 全部

      科技要聞

      凌晨突發!GPT-5.2上線,首批實測感受來了

      頭條要聞

      加油站請衣著暴露女模站臺成為當地熱點 執法部門發聲

      頭條要聞

      加油站請衣著暴露女模站臺成為當地熱點 執法部門發聲

      體育要聞

      15輪2分,他們怎么成了英超最爛球隊?

      娛樂要聞

      濮存昕外孫女演短劇遭吐槽

      財經要聞

      美國要組建C5,全世界大吃一驚

      汽車要聞

      插混四驅法拉利?849 Testarossa國內發布516.8萬起

      態度原創

      游戲
      健康
      手機
      藝術
      公開課

      《活體腦細胞》精神續作《ONTOS》公開

      甲狀腺結節到這個程度,該穿刺了!

      手機要聞

      蘋果iOS 26.2正式版下周發布:動效絲滑流暢!8大新功能

      藝術要聞

      嶺南畫派畫雪

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 桃花岛av| 伊人a?v| 女同AV在线播放| 亚洲精品揄拍自拍首页一| 亚洲欧美日韩久久一区二区| 亚洲综合图色40p| 亚洲国产精品久久青草无码| 国产人妻aⅴ色偷| 国产av普通话对白国语| 熟妇久久无码人妻av蜜臀www| 中文AV电影网| 特克斯县| 91你懂的| 香港| 国产乱子伦一区二区三区四区五区| 无码任你躁久久久久久老妇| 国产女精品视频网站免费| 亚洲2017天堂色无码| 四虎影成人精品a片| 亚洲综合天堂一区二区三区| 亚洲成人在线| 国产三级va| 无码一卡二卡| 日本欧美一区二区免费视频 | 国产?亚洲?在线| 中文无码网| 国产免费永久精品无码| 91视频观看| 国产成人高清精品免费软件| 亚洲久草网| 郸城县| 国产99久久精品一区二区| 亚洲综合色成在线播放| 中文字幕爆乳julia女教师| 蜜臀av黑人亚洲精品| AV在线无码| 国产va在线播放| 水蜜AⅤ视频一区二区三区| 我和亲妺妺乱的性视频| 曰韩无码av一区二区免费| 韩国19禁无遮挡啪啪无码网站 |