![]()
日前,Pinchbench更新了一份評測報告。
該報告 通過標準化的 OpenClaw agent 測試任務,對不同大模型在真實任務中的成功率、成本和速度等,進行了橫向對比。
成功率指標看,排名最高的是 Google Gemini 3 Flash 系列,平均成功率達到 95.1%。緊隨其后的是 MiniMax M2.1(93.6%) 和月之暗面Kimi K2.5(93.4%)。
這三款模型都超過了 93%,說明在自動化任務執行能力上已經非常穩定。
Anthropic Claude 系列表現也比較均衡。其中 Claude Sonnet 約 92.7%,Claude Haiku 90.8%,而 Claude Opus 4 在 88%—90% 左右。
OpenAI 方面,GPT-5 Nano 成功率 85.8%,GPT-4o 為 85.2%,GPT-4o Mini 為 83.4%。雖然沒有進入第一梯隊,但穩定處于中上水平。
國產模型里,Qwen3-Coder-Next 85.4%、GLM-4.5-Air 85.4%,整體表現也比較接近。
![]()
把成本因素一起看,情況就更有意思了。
成本榜單顯示,完成一次標準任務 最便宜的模型是 GPT-5 Nano,僅約 0.03 美元。第二是 Gemini 2.5 Flash,約 0.05 美元,第三是 Mistral Devstral,約 0.10 美元。
而高性能模型往往更貴,比如 Claude Sonnet 約 3.07 美元,Claude Opus 超過 5 美元。
![]()
從“性能 vs 成本”的圖來看, 最具性價比的區域集中在左上角 :成功率高,同時成本低。
這個區域主要包括Gemini 3 Flash、MiniMax M2.1、Kimi K2.5、GPT-5 Nano
其中 GPT-5 Nano雖然成功率不是最高,但因為價格極低,被認為是“最劃算”的模型之一。
![]()
速度方面則是另一套排名。
最快的是 MiniMax M2.5,完成一次任務 約 105.96 秒。
隨后是 Gemini 2.0 Flash(106.05 秒) 和 Llama 3 系列(約 106 秒)。
而一些性能更強的大模型明顯更慢。例如GPT-4o 約 190 秒,Claude Sonnet 約 137 秒,Kimi K2.5 約 291 秒,DeepSeek V3 約 622 秒。
這說明,模型越大、推理越復雜,速度往往越慢。
![]()
綜合這四個維度,可以看到大模型在養“龍蝦”方面的一些特點。
作為用戶而言,通過評測結果大概可有的結論是:MiniMax-M2.1或Kimi K2.5極致性價比(成功率93%+,成本<$0.20,只是速度不太快);Claude Opus系列貴;GPT-5-Nano適合預算極低的簡單任務。
評測結果也能看到大模型的一些分化局面。
比如,谷歌的Gemini和 Anthropic的Claude系列整體表現穩定,一如既往的靠譜。
OpenAI 則比較讓人意外 。比如在成功率上,中低端版本成績尚可,高端的gpt-5.2卻意外拉胯,未能達到預期。
當然,其 在成本上依然有優勢,GPT-5 Nano 以極低成本完成任務,是典型的高性價比模型。
再如,MiniMax 和 Kimi 在成功率榜單中進入前三,說明國產模型在復雜任務執行能力上,已經非常接近國際頂級水平。
還有就是,同品牌不同系列模型的適配效果差異顯著,選擇時需格外注意版本區別,豐儉由君。
這也說明,不同模型的定位越來越清晰,有的追求極致性能,有的強調成本控制,還有的側重速度,幾乎沒有模型能同時做到三個維度都最優。
需要注意的是,本次評測的成績均基于標準化測試,實際部署時還會受硬件配置、部署環境、任務類型等因素影響。
此外,在部署OpenClaw的過程中,還需要關注官方提示的安全風險,做好權限配置、數據加密等安全防護。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.