網易首頁 > 網易號 > 正文申請入駐

最全橫測!哪個大模型更適合養"龍蝦"？GPT拉胯，MiniMax/Kimi驚喜

2026-03-10 07:01:06　來源: AI先鋒官

北京舉報

分享至

　　
日前，Pinchbench更新了一份評測報告。

　　該報告通過標準化的 OpenClaw agent 測試任務，對不同大模型在真實任務中的成功率、成本和速度等，進行了橫向對比。

　　成功率指標看，排名最高的是 Google Gemini 3 Flash 系列，平均成功率達到 95.1%。緊隨其后的是 MiniMax M2.1（93.6%）和月之暗面Kimi K2.5（93.4%）。

　　這三款模型都超過了 93%，說明在自動化任務執行能力上已經非常穩定。

　　Anthropic Claude 系列表現也比較均衡。其中 Claude Sonnet 約 92.7%，Claude Haiku 90.8%，而 Claude Opus 4 在 88%—90% 左右。

　　OpenAI 方面，GPT-5 Nano 成功率 85.8%，GPT-4o 為 85.2%，GPT-4o Mini 為 83.4%。雖然沒有進入第一梯隊，但穩定處于中上水平。

　　國產模型里，Qwen3-Coder-Next 85.4%、GLM-4.5-Air 85.4%，整體表現也比較接近。

　　把成本因素一起看，情況就更有意思了。

　　成本榜單顯示，完成一次標準任務最便宜的模型是 GPT-5 Nano，僅約 0.03 美元。第二是 Gemini 2.5 Flash，約 0.05 美元，第三是 Mistral Devstral，約 0.10 美元。

　　而高性能模型往往更貴，比如 Claude Sonnet 約 3.07 美元，Claude Opus 超過 5 美元。

　　從“性能 vs 成本”的圖來看，最具性價比的區域集中在左上角：成功率高，同時成本低。

　　這個區域主要包括Gemini 3 Flash、MiniMax M2.1、Kimi K2.5、GPT-5 Nano

　　其中 GPT-5 Nano雖然成功率不是最高，但因為價格極低，被認為是“最劃算”的模型之一。

　　速度方面則是另一套排名。

　　最快的是 MiniMax M2.5，完成一次任務約 105.96 秒。

　　隨后是 Gemini 2.0 Flash（106.05 秒）和 Llama 3 系列（約 106 秒）。

　　而一些性能更強的大模型明顯更慢。例如GPT-4o 約 190 秒，Claude Sonnet 約 137 秒，Kimi K2.5 約 291 秒，DeepSeek V3 約 622 秒。

　　這說明，模型越大、推理越復雜，速度往往越慢。

　　綜合這四個維度，可以看到大模型在養“龍蝦”方面的一些特點。

　　作為用戶而言，通過評測結果大概可有的結論是：MiniMax-M2.1或Kimi K2.5極致性價比（成功率93%+，成本<$0.20，只是速度不太快）；Claude Opus系列貴；GPT-5-Nano適合預算極低的簡單任務。

　　評測結果也能看到大模型的一些分化局面。

　　比如，谷歌的Gemini和 Anthropic的Claude系列整體表現穩定，一如既往的靠譜。

　　 OpenAI 則比較讓人意外。比如在成功率上，中低端版本成績尚可，高端的gpt-5.2卻意外拉胯，未能達到預期。

　　當然，其在成本上依然有優勢，GPT-5 Nano 以極低成本完成任務，是典型的高性價比模型。

　　再如，MiniMax 和 Kimi 在成功率榜單中進入前三，說明國產模型在復雜任務執行能力上，已經非常接近國際頂級水平。

　　還有就是，同品牌不同系列模型的適配效果差異顯著，選擇時需格外注意版本區別，豐儉由君。

　　這也說明，不同模型的定位越來越清晰，有的追求極致性能，有的強調成本控制，還有的側重速度，幾乎沒有模型能同時做到三個維度都最優。

　　需要注意的是，本次評測的成績均基于標準化測試，實際部署時還會受硬件配置、部署環境、任務類型等因素影響。

　　此外，在部署OpenClaw的過程中，還需要關注官方提示的安全風險，做好權限配置、數據加密等安全防護。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大風315 | 游客稱飛3000公里在西雙版納一景區游玩，因明星錄制綜藝節目被清場；景區：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
6981 跟貼 6981
從法國走路到中國

新民周刊 2026-03-10 16:44:38
2496 跟貼 2496

女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1502 跟貼 1502

“見過搶米搶面，沒見過搶塑料”，中東開戰，東莞一個小鎮大堵車！貿易商：潑天的富貴來了，干嘛不抓住？業內提醒：只是虛假繁榮

每日經濟新聞 2026-03-10 21:06:07
9 跟貼 9
剛剛，湖北官宣“楚超”來了！

極目新聞 2026-03-10 11:03:13
139 跟貼 139

昨晚排大隊加油的“大聰明”，一覺醒來天塌了

連云港手機臺 2026-03-10 18:16:56
1 跟貼 1

紫牛頭條 | 買時宣稱功能永久免費，用后卻被要求付費升級！顧客投訴知名品牌電動車“言而無信”

揚子晚報 2026-03-10 07:15:24
11 跟貼 11
中朝國際旅客列車3月12日起雙向開行

中國鐵路 2026-03-10 20:40:01
77 跟貼 77

于東來發文稱死后不辦任何儀式，骨灰找就近河流撒完，近日他現身多地并分享旅游動態

大風新聞 2026-03-10 18:42:55
29 跟貼 29
還沒焐熱就腰斬，MacBook Neo4599元發布2429元到手，比買iPad還劃算？

齊魯壹點 2026-03-10 10:38:15
843 跟貼 843
王勵勤談畸形體育飯圈亂象：中國乒協堅決抵制

人民網-人民日報 2026-03-10 20:29:05
236 跟貼 236
榆林學院已正式更名為榆林大學

澎湃新聞 2026-03-10 11:16:26
69 跟貼 69
長城魏建軍：隱藏式門把手是偽技術，千分之一風阻改善得不償失

界面新聞 2026-03-10 09:20:35
530 跟貼 530
上海二手房周末單日成交超1300套，“看房五年的客戶準備出手了”

澎湃新聞 2026-03-10 09:50:26
126 跟貼 126
“買個包子2塊，停車10塊”，該給停車費“降降火”了

環球網資訊 2026-03-10 11:41:12
36 跟貼 36
于東來公布公司40億資產利潤分配方案：胖東來12名店長共分2.4億，每人2000萬元

大象新聞 2026-03-10 14:46:05
0 跟貼 0
收評：創業板指高開高走漲超3% 超4500只個股上漲

財聯社 2026-03-10 15:05:07
53 跟貼 53
李斌談超快充和換電模式：超快再快不可能有換電快，超快充對電池壽命和安全性等有損害

中國能源網 2026-03-10 11:33:11
386 跟貼 386
曝2025年“印度產”iPhone 達5500萬部

環球網資訊 2026-03-10 15:25:22
65 跟貼 65
騰訊視頻稱異常僅為頁面展示錯誤

北京日報 2026-03-09 18:23:43
360 跟貼 360
孫光芝：建議“不得強迫游客購物”寫進旅游法

中國網 2026-03-10 15:10:17
111 跟貼 111
博主探店汕頭海鮮市場稱活蝦加工時被調包，店方連發2條視頻回應，并放出監控視頻→

潮州玩家 2026-03-10 23:10:32
0 跟貼 0
70余名滯留中東臺胞經上海中轉順利返臺

極目新聞 2026-03-10 22:17:59
0 跟貼 0
苦練10年粉筆字的乞丐崔顯仁，被路過的老板看中一個細節，3年后身家千萬

歷史回憶室 2026-03-10 23:11:19
0 跟貼 0
江蘇無錫一小狗受傷躺地同伴急得團團轉，女子出手相救后小狗同伴不離不棄一路跟隨守護

臺州交通廣播 2026-03-10 23:17:12
0 跟貼 0
全網斷貨！杭州老板傻眼：以前堆成山都賣不掉，愁！結果漲成這樣了

極目新聞 2026-03-10 14:24:43
0 跟貼 0

手機 / 數碼

房產 / 家居

最全橫測!哪個大模型更適合養"龍蝦"？GPT拉胯，MiniMax/Kimi驚喜

蘋果iPhone17e體驗：加量不加價，值不值得入手呢？

小伙輾轉8天回國：后悔賺錢賺到伊朗 赴死的心都有了

小伙輾轉8天回國：后悔賺錢賺到伊朗 赴死的心都有了

加蘭沒那么差，但鱸魚會用嗎？

《逐玉》注水風波升級！315評論區淪陷

“龍蝦補貼”密集出爐 最高1000萬！

全民"養蝦"背后：大廠集體下場瘋狂賣Token

MG4有SUV衍生 上汽乘用車多款新車規劃曝光

態度原創

羨慕嗎？國外圖書館都能借上3A大作了

云游中國｜候鳥高顏值亮相！沉浸式打卡青海濕地

看來看去這些才是適合普通人的穿搭！不花哨、不繁瑣，提氣質

羅德R?DE新推一體化音視頻方案，功能超強大！

小伙輾轉8天回國：后悔賺錢賺到伊朗赴死的心都有了

小伙輾轉8天回國：后悔賺錢賺到伊朗赴死的心都有了

“龍蝦補貼”密集出爐最高1000萬！

MG4有SUV衍生上汽乘用車多款新車規劃曝光