龍蝦太火,所有人都想一試。但真到了上手環(huán)節(jié)就會(huì)迎來(lái)第一道“攔路虎”——
急急急,究竟哪個(gè)模型最適合OpenClaw啊??
知道你急,龍蝦之父親自趕來(lái)支招了:可以關(guān)注這個(gè)因吹斯汀的榜單。
![]()
榜單名為PinchBench,專為龍蝦而生,從成功率、速度、價(jià)格等維度評(píng)估全球大模型對(duì)OpenClaw的適配程度。(劃重點(diǎn),還是實(shí)時(shí)更新那種)
這個(gè)榜單其實(shí)今年2月底就出現(xiàn)了,但現(xiàn)在卻更火了——
這里面不止有龍蝦之父推薦的功勞,更重要的原因是咱中國(guó)模型的表現(xiàn)確實(shí)出色。(老外一看,嗯??)
![]()
前排國(guó)產(chǎn)模型含量好高啊
熟悉龍蝦的朋友都知道,這選模型可是一件大事。
畢竟龍蝦這玩意兒一吃token耗錢,二又不能太慢影響用戶體驗(yàn)。
換言之,人人都在價(jià)格和速度之間艱難走鋼絲。
而PinchBench要做的,就是直接告訴你答案——它按照成功率、速度、價(jià)格這三個(gè)基本維度對(duì)全球模型進(jìn)行排名,所以哪個(gè)模型更擅長(zhǎng)什么基本都一目了然。
截至本文發(fā)稿前,榜單具體情況如下——
整體而言,中國(guó)模型在成功率和速度方面都有不俗表現(xiàn),價(jià)格方面則稍遜。
比成功率,除了第一名谷歌Gemini 3 Flash,第二、第三名都出自國(guó)內(nèi)。
- 第一名(Gemini 3 Flash):成功率95.1%
- 第二名(MiniMax M2.1):成功率93.6%
- 第三名(Kimi K2.5):成功率93.4%
而且注意沒(méi),MiniMax用的還不是它家最新模型MiniMax M2.5。
(注:MiniMax M2.5于春節(jié)期間上線,官方主打“讓無(wú)限運(yùn)行復(fù)雜Agent在經(jīng)濟(jì)上可行”。)
![]()
比速度,國(guó)產(chǎn)模型MiniMax M2.5更是一舉超越Gemini、Llama等模型,登上榜首。
![]()
當(dāng)時(shí)發(fā)布時(shí),MiniMax M2.5就在SWE-Bench Verified測(cè)試中,完成任務(wù)的速度較上一代M2.1提升了37%,端到端運(yùn)行時(shí)間縮短至22.8分鐘,與Claude Opus 4.6持平。
而Claude Opus 4.6的最新排名是30(M2.1是第22)。
![]()
不過(guò)在價(jià)格方面,國(guó)產(chǎn)模型和OpenAI、谷歌模型相比則缺乏優(yōu)勢(shì)。
排第一的GPT-5-nano(專為輕量級(jí)、高性價(jià)比場(chǎng)景設(shè)計(jì)),輸入價(jià)格低至0.05美元/百萬(wàn)tokens,輸出價(jià)格低至0.40美元/百萬(wàn)tokens。
而國(guó)產(chǎn)模型中最便宜的MiniMax M2.1,輸入價(jià)格為2.1元/百萬(wàn)tokens(約0.3美元/百萬(wàn)tokens),輸出價(jià)格為8.4元/百萬(wàn)tokens(約1.2美元/百萬(wàn)tokens)。
平均下來(lái),后者的價(jià)格幾乎是前者的3倍。
![]()
綜合來(lái)看,如果要在成功率和價(jià)格之間取得最佳平衡,下面這張圖可以作為參考。
左上角的方框已經(jīng)圈選出了還不錯(cuò)的模型——一共8個(gè),其中有4個(gè)還都是中國(guó)模型。
![]()
Anyway,在這份專為龍蝦而生的Benchmark中,國(guó)產(chǎn)模型的含量確實(shí)很高,而且在某些單項(xiàng)上表現(xiàn)出色。
那么問(wèn)題來(lái)了,這榜單靠譜嗎?背后的篩選機(jī)制又是什么?
來(lái)看PinchBench的介紹。
誰(shuí)是PinchBench?
簡(jiǎn)單來(lái)說(shuō),PinchBench并不是某家大廠推出的標(biāo)準(zhǔn)Benchmark,而是來(lái)自一支做Agent基礎(chǔ)設(shè)施的創(chuàng)業(yè)團(tuán)隊(duì)。
團(tuán)隊(duì)名為Kilo AI,由GitLab前聯(lián)合創(chuàng)始人兼CEO Sid Sijbrandij投資并參與創(chuàng)立,曾推出爆火“氛圍編程”工具Kilo Code。
年初龍蝦爆火后,他們又順勢(shì)推出了基于OpenClaw構(gòu)建的全托管智能體平臺(tái)KiloClaw。
而隨著KiloClaw一起發(fā)布的,就有PinchBench這個(gè)智能體框架評(píng)測(cè)工具。
![]()
PinchBench主要被用來(lái)測(cè)試不同大模型在真實(shí)工作流中的執(zhí)行能力,和傳統(tǒng)大模型Benchmark(比如知識(shí)問(wèn)答、數(shù)學(xué)推理)不同,其定位更接近“Agent能力測(cè)試”——
不只看模型會(huì)不會(huì)回答問(wèn)題,而是看模型能不能完成一整件事。
目前它大約包含23個(gè)真實(shí)任務(wù)的測(cè)試,包括但不限于:
- 查詢并整理資料
- 寫(xiě)郵件或生成報(bào)告
- 調(diào)用API完成操作
![]()
在評(píng)分機(jī)制上,PinchBench采用的是自動(dòng)化檢查+LLM評(píng)審的組合方式:
一部分任務(wù)有明確的自動(dòng)檢查腳本,例如是否生成正確文件、是否完成指定操作等;另一部分任務(wù)則會(huì)由LLM Judge來(lái)判斷結(jié)果質(zhì)量。
最終統(tǒng)計(jì)的核心指標(biāo)就是我們上面提到的Success Rate(任務(wù)完成率)、Speed(完成速度)、Cost(推理成本)。
由于評(píng)測(cè)方式偏向真實(shí)任務(wù)流程,值得注意的是,在PinchBench的排行榜上,你會(huì)看到一個(gè)有意思的現(xiàn)象——
更大的模型并非總是制勝之道。
換言之,那些偏Agent優(yōu)化或推理效率更高的模型,排名反而比傳統(tǒng)主流大模型更靠前。
這一點(diǎn)也是PinchBench最近在圈子里被頻繁討論的原因之一。
![]()
BTW,PinchBench目前還是完全開(kāi)源的,用戶也可以在平臺(tái)上自行運(yùn)行或添加新任務(wù)。
如果以后不知道怎么選模型,不妨自己動(dòng)手一試。
PinchBench開(kāi)源地址:
https://github.com/pinchbench/skill
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.