<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI栽了:128個工具是它邁不過的坎

      0
      分享至


      給大模型塞150個工具,它會變成瑞士軍刀還是選擇困難癥?

      這個假設每個做AI Agent的人都想過,但很少有人真的測過。直覺告訴我們:工具越多,模型越懵。GitHub、Kubernetes、Slack、Jira全塞進上下文窗口,模型得讀完所有定義、理解差異、再選對工具——信號噪音比直線下降。

      但直覺不是數據。Boundary團隊做了件狠事:開源了一套測試框架,把150個真實工具定義砸向六個主流模型,看它們什么時候崩潰。

      測試設計:150個工具,五檔壓力測試

      工具庫來自16個真實服務:GitHub、GitLab、Jira、Confluence、Kubernetes、AWS、Datadog、Slack、PagerDuty、Okta、Snyk、Grafana、Terraform Cloud、Docker、Linear、Notion。全是生產環境MCP(模型上下文協議)的真實Schema,只是做了無操作處理方便跑分。

      六個模型分屬三家:OpenAI的GPT-4o和GPT-5.4 Mini、Anthropic的Claude Sonnet 4.6和Claude Haiku 4.0、xAI的Grok 4和Grok 4.1 Fast Reasoning。

      每輪測試給模型60個提示,分兩種風格:直接提示點名服務(如"列出所有Terraform Cloud工作區"),模糊提示不點名(如"給跟蹤工單加個'已解決'評論")。工具集規模從25個逐級加碼到50、75、100、150個,每次隨機抽取但確保正確答案一定在池子里。

      核心問題只有一個:模型能不能選對工具?

      GPT-5.4 Mini:優等生的128工具懸崖

      測試結果里最反直覺的是GPT-5.4 Mini。25到50工具區間,準確率85%;模糊提示下92%的命中率,響應不到1秒,單次調用成本0.002美元。這組數據讓它成為中小工具集場景的最佳性價比選擇。

      然后它撞墻了。


      和GPT-4o一樣,GPT-5.4 Mini在128個工具處直接失效。不是逐漸變差,是徹底停擺。OpenAI API對這個參數有硬限制:超過128個工具的請求直接拒收。如果你的Agent接了足夠多的MCP服務器,工具總數突破128,整個OpenAI模型家族集體出局。

      這不是性能曲線,這是產品邊界。做企業級Agent的工程師得算清楚:GitHub工具20個、Jira工具15個、Kubernetes工具30個、再加上Slack和PagerDuty——很容易過線。

      Grok 4.1:唯一跑完150工具全程的模型

      xAI的Grok 4.1 Fast Reasoning是測試里唯一完成全部五檔規模的模型。25工具時準確率86.7%,150工具時降到76.7%,但全程沒有斷裂。這條下滑曲線反而成了最穩定的輸出。

      Grok 4(非Fast Reasoning版本)表現稍遜,同樣完成了150工具測試,但交叉服務錯誤從25工具階段就開始出現。所謂交叉服務錯誤,是指模型從完全錯誤的服務里挑工具——比如該找GitHub卻去了GitLab。

      這種錯誤比"選錯工具"更危險。后者可能是參數填錯,前者是方向性迷失。想象一下:用戶讓Agent"關閉那個告警",模型從Slack里找了個發消息的工具,而不是去PagerDuty真正處理告警。

      Claude家族:貴的不一定好

      Anthropic的測試結果堪稱尷尬。Claude Sonnet 4.6是六款模型里最貴的,單次調用0.028美元,卻在25工具階段就墊底,且全程沒有翻身。Claude Haiku 4.0價格只有它的三分之一,卻在每個規模檔位都擊敗自家大哥。

      Haiku的交叉服務錯誤控制一度是全場最佳:75工具之前零失誤。但150工具階段突然惡化到4次錯誤,成為該規模下最差表現。

      這個跳躍式惡化暗示了某種閾值效應——工具描述的信息密度超過某個臨界點,輕量級模型的過濾機制會突然失效。

      模糊提示:GPT-5.4 Mini的隱藏強項


      測試里有個細分數據值得玩味。在模糊提示場景下,GPT-5.4 Mini直到100工具規模仍保持92%準確率。這意味著當用戶不說人話、不指名服務時,這個"小"模型的語義推斷能力反而壓過一眾大模型。

      產品經理視角看,這觸及Agent設計的核心矛盾:用戶自然語言越模糊,系統需要承擔的推理負擔越重。但大多數場景下,用戶確實不會精確描述"去GitHub的Issues里找標簽為P0的Bug"——他們說"看看有什么急事要處理"。

      GPT-5.4 Mini在這個維度的優勢,解釋了為什么它在中小規模工具集里被稱為"最佳整體表現"。直到128工具墻把它攔在外面。

      生產環境的真實困境

      測試用的工具定義是合成數據,但Schema完全鏡像生產環境。這意味著現實中的Agent開發者面臨的困境只多不少:真實工具的參數更復雜、描述更長、版本迭代更頻繁。

      一個典型企業的MCP配置可能包括:GitHub(20+工具)、Jira(15+工具)、Kubernetes(30+工具)、Datadog(10+工具)、Slack(10+工具)、PagerDuty(10+工具)。還沒算AWS和Terraform,已經逼近或超過128工具線。

      OpenAI用戶現在的選擇很擰巴:要么精簡工具集,要么拆分Agent,要么換供應商。后兩種方案都意味著架構復雜度陡增。

      Boundary團隊開源這個框架的意圖很明顯:工具膨脹是Agent的慢性病,需要持續監測而非一次性調優。他們建議把工具選擇準確率作為核心指標納入CI/CD流程,就像監控API延遲一樣。

      測試數據還暴露了一個未被充分討論的問題:模型廠商的API限制正在成為架構天花板。OpenAI的128工具限制是硬性產品決策,不是技術必然。Grok證明150工具可以跑通,雖然準確率下滑,但系統不崩。

      這種差異會重塑企業的模型選型邏輯。以前比的是推理質量、價格、延遲;現在得加一項:工具容量上限。

      當你的Agent連接第129個工具時,你會選擇拆分架構,還是換一家API?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      克洛普:我們很快就會意識到沒有薩拉赫的利物浦會變得不一樣

      克洛普:我們很快就會意識到沒有薩拉赫的利物浦會變得不一樣

      懂球帝
      2026-03-28 00:26:11
      張雪峰付幸多張合影被扒,每次團建她都偷瞄張雪峰,眼神滿是崇拜

      張雪峰付幸多張合影被扒,每次團建她都偷瞄張雪峰,眼神滿是崇拜

      古希臘掌管松餅的神
      2026-03-26 16:52:30
      國家出手,京圈富少鋃鐺入獄,意外牽連商界大佬,童謠也未能幸免

      國家出手,京圈富少鋃鐺入獄,意外牽連商界大佬,童謠也未能幸免

      素衣讀史
      2026-03-25 15:49:54
      天生就好色的3個星座,有你嗎?

      天生就好色的3個星座,有你嗎?

      同道大叔
      2026-03-16 22:01:59
      19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創傷

      19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創傷

      丫頭舫
      2025-09-22 20:39:00
      6.58萬,零跑這TM是來搗亂的吧!

      6.58萬,零跑這TM是來搗亂的吧!

      手機評測室
      2026-03-27 11:52:34
      再年輕也沒用!山東27歲美女李曉云去世,死因曝光,丈夫發文感謝

      再年輕也沒用!山東27歲美女李曉云去世,死因曝光,丈夫發文感謝

      青梅侃史啊
      2026-03-27 17:01:27
      最壞情況發生,美軍艦載機在沿海被擊中,白宮意識到大國出手了!

      最壞情況發生,美軍艦載機在沿海被擊中,白宮意識到大國出手了!

      尋跡追心
      2026-03-28 03:28:57
      以軍證實空襲伊朗兩座核設施

      以軍證實空襲伊朗兩座核設施

      財聯社
      2026-03-28 01:50:09
      上海交大解剖405名心梗死者,驚訝發現患心梗的人,有幾個共性

      上海交大解剖405名心梗死者,驚訝發現患心梗的人,有幾個共性

      新時代的兩性情感
      2026-03-25 16:37:36
      荷甲維特斯時期前隊友,張玉寧賽后與庫拉索門將魯姆合影

      荷甲維特斯時期前隊友,張玉寧賽后與庫拉索門將魯姆合影

      懂球帝
      2026-03-27 17:51:13
      鐵了心對付中國?暴跌58%,俄羅斯大幅加稅,中國汽車出口驟降

      鐵了心對付中國?暴跌58%,俄羅斯大幅加稅,中國汽車出口驟降

      卷史
      2026-02-02 12:01:46
      5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

      5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

      叮當當科技
      2026-03-20 03:29:51
      19歲生日前1天首登時尚大刊封面 全紅嬋再造紀錄 已闊別賽場141天

      19歲生日前1天首登時尚大刊封面 全紅嬋再造紀錄 已闊別賽場141天

      風過鄉
      2026-03-27 19:49:20
      越扒越有!張雪峰去世早有預兆,他的3個不良愛好,或成催命符

      越扒越有!張雪峰去世早有預兆,他的3個不良愛好,或成催命符

      潮鹿逐夢
      2026-03-26 11:24:44
      “兩家父母心都挺大的!”兒子帶女同學回家過夜,網友都看不下去

      “兩家父母心都挺大的!”兒子帶女同學回家過夜,網友都看不下去

      妍妍教育日記
      2026-03-24 19:57:28
      東契奇傷情告急!MVP爭奪亮起紅燈,65場生死線成最后考驗

      東契奇傷情告急!MVP爭奪亮起紅燈,65場生死線成最后考驗

      仰臥撐FTUer
      2026-03-27 12:24:23
      全線跳水,超9萬人爆倉!

      全線跳水,超9萬人爆倉!

      每日經濟新聞
      2026-03-26 20:29:17
      一定要大量讀書:建議讀完這5本書,再去處理復雜的人際關系

      一定要大量讀書:建議讀完這5本書,再去處理復雜的人際關系

      欣辰讀書
      2026-03-25 23:00:41
      你見過哪些悶聲發大財的人?網友:干這個買三套房子,兩個門面

      你見過哪些悶聲發大財的人?網友:干這個買三套房子,兩個門面

      夜深愛雜談
      2026-02-01 18:57:04
      2026-03-28 06:55:00
      硬核玩家2哈
      硬核玩家2哈
      沉淀中,勿擾
      303文章數 2關注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

      頭條要聞

      男醫生給孕妻做彩超 丈夫崩潰撞墻:不過了 明天就離婚

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      范瑋琪加盟,官宣《浪姐7》遭全網抵制

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      親子
      家居
      旅游
      公開課
      軍事航空

      親子要聞

      天氣暖和了,安排一套孩子自己能玩半天,激發孩子的動手能力,真的是帶娃省媽啊#太空沙解壓 #太空沙花樣...

      家居要聞

      曲線華爾茲 現代簡約

      旅游要聞

      日照嵐山“打飛的”賞春成新時尚

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:已組織超100萬人為地面戰斗做準備

      無障礙瀏覽 進入關懷版