網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

龍蝦最佳適配模型，OpenClaw之父給出了推薦

“龍蝦”最佳適配模型有哪些

2026-03-09 12:18:35　來(lái)源: 量子位

北京舉報(bào)

分享至

龍蝦太火，所有人都想一試。但真到了上手環(huán)節(jié)就會(huì)迎來(lái)第一道“攔路虎”——

急急急，究竟哪個(gè)模型最適合OpenClaw啊？？

知道你急，龍蝦之父親自趕來(lái)支招了：可以關(guān)注這個(gè)因吹斯汀的榜單。

榜單名為PinchBench，專為龍蝦而生，從成功率、速度、價(jià)格等維度評(píng)估全球大模型對(duì)OpenClaw的適配程度。（劃重點(diǎn)，還是實(shí)時(shí)更新那種）

這個(gè)榜單其實(shí)今年2月底就出現(xiàn)了，但現(xiàn)在卻更火了——

這里面不止有龍蝦之父推薦的功勞，更重要的原因是咱中國(guó)模型的表現(xiàn)確實(shí)出色。（老外一看，嗯？？）

前排國(guó)產(chǎn)模型含量好高啊

熟悉龍蝦的朋友都知道，這選模型可是一件大事。

畢竟龍蝦這玩意兒一吃token耗錢，二又不能太慢影響用戶體驗(yàn)。

換言之，人人都在價(jià)格和速度之間艱難走鋼絲。

而PinchBench要做的，就是直接告訴你答案——它按照成功率、速度、價(jià)格這三個(gè)基本維度對(duì)全球模型進(jìn)行排名，所以哪個(gè)模型更擅長(zhǎng)什么基本都一目了然。

截至本文發(fā)稿前，榜單具體情況如下——

整體而言，中國(guó)模型在成功率和速度方面都有不俗表現(xiàn)，價(jià)格方面則稍遜。

比成功率，除了第一名谷歌Gemini 3 Flash，第二、第三名都出自國(guó)內(nèi)。

第一名（Gemini 3 Flash）：成功率95.1%
第二名（MiniMax M2.1）：成功率93.6%
第三名（Kimi K2.5）：成功率93.4%

而且注意沒(méi)，MiniMax用的還不是它家最新模型MiniMax M2.5。

（注：MiniMax M2.5于春節(jié)期間上線，官方主打“讓無(wú)限運(yùn)行復(fù)雜Agent在經(jīng)濟(jì)上可行”。）

比速度，國(guó)產(chǎn)模型MiniMax M2.5更是一舉超越Gemini、Llama等模型，登上榜首。

當(dāng)時(shí)發(fā)布時(shí)，MiniMax M2.5就在SWE-Bench Verified測(cè)試中，完成任務(wù)的速度較上一代M2.1提升了37%，端到端運(yùn)行時(shí)間縮短至22.8分鐘，與Claude Opus 4.6持平。

而Claude Opus 4.6的最新排名是30（M2.1是第22）。

不過(guò)在價(jià)格方面，國(guó)產(chǎn)模型和OpenAI、谷歌模型相比則缺乏優(yōu)勢(shì)。

排第一的GPT-5-nano（專為輕量級(jí)、高性價(jià)比場(chǎng)景設(shè)計(jì)），輸入價(jià)格低至0.05美元/百萬(wàn)tokens，輸出價(jià)格低至0.40美元/百萬(wàn)tokens。

而國(guó)產(chǎn)模型中最便宜的MiniMax M2.1，輸入價(jià)格為2.1元/百萬(wàn)tokens（約0.3美元/百萬(wàn)tokens），輸出價(jià)格為8.4元/百萬(wàn)tokens（約1.2美元/百萬(wàn)tokens）。

平均下來(lái)，后者的價(jià)格幾乎是前者的3倍。

綜合來(lái)看，如果要在成功率和價(jià)格之間取得最佳平衡，下面這張圖可以作為參考。

左上角的方框已經(jīng)圈選出了還不錯(cuò)的模型——一共8個(gè)，其中有4個(gè)還都是中國(guó)模型。

Anyway，在這份專為龍蝦而生的Benchmark中，國(guó)產(chǎn)模型的含量確實(shí)很高，而且在某些單項(xiàng)上表現(xiàn)出色。

那么問(wèn)題來(lái)了，這榜單靠譜嗎？背后的篩選機(jī)制又是什么？

來(lái)看PinchBench的介紹。

誰(shuí)是PinchBench？

簡(jiǎn)單來(lái)說(shuō)，PinchBench并不是某家大廠推出的標(biāo)準(zhǔn)Benchmark，而是來(lái)自一支做Agent基礎(chǔ)設(shè)施的創(chuàng)業(yè)團(tuán)隊(duì)。

團(tuán)隊(duì)名為Kilo AI，由GitLab前聯(lián)合創(chuàng)始人兼CEO Sid Sijbrandij投資并參與創(chuàng)立，曾推出爆火“氛圍編程”工具Kilo Code。

年初龍蝦爆火后，他們又順勢(shì)推出了基于OpenClaw構(gòu)建的全托管智能體平臺(tái)KiloClaw。

而隨著KiloClaw一起發(fā)布的，就有PinchBench這個(gè)智能體框架評(píng)測(cè)工具。

PinchBench主要被用來(lái)測(cè)試不同大模型在真實(shí)工作流中的執(zhí)行能力，和傳統(tǒng)大模型Benchmark（比如知識(shí)問(wèn)答、數(shù)學(xué)推理）不同，其定位更接近“Agent能力測(cè)試”——

不只看模型會(huì)不會(huì)回答問(wèn)題，而是看模型能不能完成一整件事。

目前它大約包含23個(gè)真實(shí)任務(wù)的測(cè)試，包括但不限于：

查詢并整理資料
寫(xiě)郵件或生成報(bào)告
調(diào)用API完成操作

在評(píng)分機(jī)制上，PinchBench采用的是自動(dòng)化檢查+LLM評(píng)審的組合方式：

一部分任務(wù)有明確的自動(dòng)檢查腳本，例如是否生成正確文件、是否完成指定操作等；另一部分任務(wù)則會(huì)由LLM Judge來(lái)判斷結(jié)果質(zhì)量。

最終統(tǒng)計(jì)的核心指標(biāo)就是我們上面提到的Success Rate（任務(wù)完成率）、Speed（完成速度）、Cost（推理成本）。

由于評(píng)測(cè)方式偏向真實(shí)任務(wù)流程，值得注意的是，在PinchBench的排行榜上，你會(huì)看到一個(gè)有意思的現(xiàn)象——

更大的模型并非總是制勝之道。

換言之，那些偏Agent優(yōu)化或推理效率更高的模型，排名反而比傳統(tǒng)主流大模型更靠前。

這一點(diǎn)也是PinchBench最近在圈子里被頻繁討論的原因之一。

BTW，PinchBench目前還是完全開(kāi)源的，用戶也可以在平臺(tái)上自行運(yùn)行或添加新任務(wù)。

如果以后不知道怎么選模型，不妨自己動(dòng)手一試。

PinchBench開(kāi)源地址：
https://github.com/pinchbench/skill

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

3B打32B？海外病毒式傳播的小模型，竟然來(lái)自BOSS直聘

機(jī)器之心Pro 2026-03-09 14:09:17
0 跟貼 0
一只能安裝龍蝦的龍蝦，才是好龍蝦

機(jī)器之心Pro 2026-03-09 10:20:51
0 跟貼 0

美國(guó)警察在海上巡邏，抓到了正在偷龍蝦的船長(zhǎng)

警動(dòng)宇宙 2026-03-09 10:10:34
2 跟貼 2

AI自主提交35%代碼！Cursor CEO重磅宣言：第三AI編程時(shí)代已至

新智元 2026-03-08 12:31:07
18 跟貼 18
想學(xué)做龍蝦，先得學(xué)會(huì)做雞蛋

兔八哥影視 2026-03-07 09:40:51
1 跟貼 1

笑不活了！近800只龍蝦，辦了個(gè)AI吐槽大會(huì)

智東西 2026-03-09 23:14:13
0 跟貼 0

為啥很多人都開(kāi)始“養(yǎng)龍蝦”了？聽(tīng)聽(tīng)郜老師怎么說(shuō)

大春不一樣 2026-03-10 02:18:47
43 跟貼 43
米其林餐廳3489一人套餐，含有龍蝦神戶牛肉等，你們看看值不

小陳美味 2026-03-07 13:08:26
171 跟貼 171

充氣模型如何騙取導(dǎo)彈

純白的夢(mèng)j 2026-03-07 07:35:38
0 跟貼 0
田間現(xiàn)“無(wú)人駕駛”遙控耕田機(jī)，當(dāng)事人：系自研，成本五六千

三瓜兩棗子 2026-03-09 10:38:05
9 跟貼 9
龍蝦更新后記憶變強(qiáng)，如何養(yǎng)好AI龍蝦？

機(jī)器之心Pro 2026-03-09 19:10:43
0 跟貼 0
活煮龍蝦也犯法？英國(guó)正式頒布“蝦權(quán)法案”

英國(guó)那些事兒 2026-03-09 23:22:07
1 跟貼 1
千人擠爆舊金山！OpenClaw首聚現(xiàn)場(chǎng)，AI龍蝦開(kāi)始接管現(xiàn)實(shí)世界

新智元 2026-02-06 21:39:14
1 跟貼 1
買的龍蝦一動(dòng)不動(dòng)，主人把龍蝦放進(jìn)養(yǎng)的魚(yú)缸里，網(wǎng)友調(diào)侃：你不按規(guī)矩出牌

安全與法 2026-03-08 13:22:21
23 跟貼 23
七旬大爺養(yǎng)龍蝦進(jìn)軍短劇界大爺看短劇看上癮，找人遠(yuǎn)程安裝openclaw（龍蝦），準(zhǔn)備正式進(jìn)軍AI短劇行業(yè)，還拉著工作人員聊劇本、點(diǎn)龍蝦

柚子Video 2026-03-09 07:16:06
1 跟貼 1
全網(wǎng)瘋搶 Mac mini 養(yǎng)龍蝦，但這些玩法更值得抄作業(yè)

愛(ài)范兒 2026-03-09 18:30:51
2 跟貼 2
真錢買假模型？187篇論文被「套殼API」坑慘，準(zhǔn)確率暴跌

機(jī)器之心Pro 2026-03-10 08:10:06
0 跟貼 0
為啥好多人把使用AI叫做“養(yǎng)龍蝦”？聽(tīng)聽(tīng)郜老師怎么說(shuō)的吧

搞笑蘋(píng)果 2026-03-10 01:24:11
0 跟貼 0
家居、眼鏡到小芯片 OpenClaw風(fēng)暴開(kāi)始席卷硬件圈了

華爾街見(jiàn)聞官方 2026-03-09 20:41:06
0 跟貼 0
怕血管硬化這個(gè)指標(biāo)一定要化驗(yàn)

普外耿醫(yī)生 2026-03-06 11:55:13
0 跟貼 0
日本部署遠(yuǎn)程導(dǎo)彈射程在1000公里左右

參考消息 2026-03-09 14:33:40
21308 跟貼 21308
你“養(yǎng)龍蝦”了嗎？

余岳桐 2026-03-09 22:07:29
0 跟貼 0
王思聰炸街，身旁美女拉低檔次，鮑魚(yú)龍蝦吃膩了吃點(diǎn)青菜蘿卜

逗趣聯(lián)盟 2026-03-08 09:32:58
5 跟貼 5
鮮活生猛的龍蝦不殺不處理，日本人直接用醬油浸泡生腌吃

咖辣食味 2026-03-07 09:30:47
3 跟貼 3
【吃透 AI Agent】AI Agent 全網(wǎng)最通俗講解：從原理到落地應(yīng)用！Agent智能體搭建

盧菁老師 2026-03-09 08:45:29
0 跟貼 0
Parallel-Probe問(wèn)世，并行推理效率提升35.8%

機(jī)器之心Pro 2026-03-09 13:58:54
0 跟貼 0
OpenAI測(cè)謊13款大模型：Claude 3.7封神，GPT-5.2近乎失控！

新智元 2026-03-09 09:36:47
0 跟貼 0
好不容易裝好的龍蝦，結(jié)果下一秒

探山城 2026-03-08 15:47:39
0 跟貼 0
深圳龍崗擬推“龍蝦十條”：助“一人公司”啟動(dòng)AI創(chuàng)業(yè)

每日經(jīng)濟(jì)新聞 2026-03-08 22:56:15
0 跟貼 0
為啥很多人都開(kāi)始“養(yǎng)龍蝦”了？郜老師分析得一針見(jiàn)血

徠芬科技 2026-03-10 07:44:57
0 跟貼 0
GPT-5.4龍蝦味太濃！各種能力全包圓，一個(gè)hi燒掉80美元？

機(jī)器之心Pro 2026-03-07 09:10:00
0 跟貼 0
大哥帶小弟吃自助餐，怎料小弟的龍蝦是裝飾品，這下尷尬了

影子追劇社 2026-03-09 10:28:20
1 跟貼 1
美團(tuán)也能裝龍蝦了？！OpenClaw火出圈，人人想養(yǎng)龍蝦

量子位 2026-03-10 01:53:41
0 跟貼 0
龍蝦硬件能讓電池更健康，支持智能充電器

愛(ài)范兒 2026-03-10 04:18:42
0 跟貼 0
95號(hào)汽油重返8元時(shí)代；中國(guó)大模型上周調(diào)用量再超美國(guó)

IT之家 2026-03-10 07:23:07
0 跟貼 0
轉(zhuǎn)發(fā)提醒！AI養(yǎng)“龍蝦”警惕安全風(fēng)險(xiǎn)

BRTV新聞 2026-03-09 05:33:28
0 跟貼 0
周鴻祎談“龍蝦”爆火：很快就能“一鍵安裝”

大象新聞 2026-03-09 11:37:43
251 跟貼 251
不寫(xiě)代碼也能賺！27歲小伙教“養(yǎng)龍蝦”，一周爆賺10萬(wàn)元！

掌聞視訊 2026-03-09 22:07:24
0 跟貼 0
伊朗媒體發(fā)布一則用玩具模型制作的視頻，講述戰(zhàn)爭(zhēng)如何結(jié)束

車馬點(diǎn)兵V 2026-03-08 13:42:50
0 跟貼 0
深圳公務(wù)員熱衷“養(yǎng)龍蝦”

看盡落塵花q 2026-03-09 06:56:39
1 跟貼 1

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

龍蝦最佳適配模型，OpenClaw之父給出了推薦

“龍蝦”最佳適配模型有哪些

30000畝杏花開(kāi)了，才知道原來(lái)新疆的春天這么美！

牛彈琴：特朗普放風(fēng)要停戰(zhàn) 伊朗稱正為美國(guó)準(zhǔn)備"驚喜"

牛彈琴：特朗普放風(fēng)要停戰(zhàn) 伊朗稱正為美國(guó)準(zhǔn)備"驚喜"

36連勝終結(jié)！大魔王也是可以戰(zhàn)勝的

薛之謙老婆懷二胎，現(xiàn)身產(chǎn)檢心情愉快

"養(yǎng)蝦"生意經(jīng)：有人賣鏟，有人做保鏢

OpenClaw更新，"養(yǎng)蝦"再也不會(huì)犯健忘癥了

對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

30000畝杏花開(kāi)了，才知道原來(lái)新疆的春天這么美！

Tessan霆圣海外推出貓臉造型65W桌充：2C+2A，45.99美元

轉(zhuǎn)頭就暈的耳石癥，能開(kāi)車上班嗎？

真是服你倆了～