網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

龍蝦最佳適配模型，OpenClaw之父給出了推薦

“龍蝦”最佳適配模型有哪些

2026-03-09 12:18:35　來源: 量子位

北京舉報

分享至

龍蝦太火，所有人都想一試。但真到了上手環(huán)節(jié)就會迎來第一道“攔路虎”——

急急急，究竟哪個模型最適合OpenClaw啊？？

知道你急，龍蝦之父親自趕來支招了：可以關(guān)注這個因吹斯汀的榜單。

榜單名為PinchBench，專為龍蝦而生，從成功率、速度、價格等維度評估全球大模型對OpenClaw的適配程度。（劃重點，還是實時更新那種）

這個榜單其實今年2月底就出現(xiàn)了，但現(xiàn)在卻更火了——

這里面不止有龍蝦之父推薦的功勞，更重要的原因是咱中國模型的表現(xiàn)確實出色。（老外一看，嗯？？）

前排國產(chǎn)模型含量好高啊

熟悉龍蝦的朋友都知道，這選模型可是一件大事。

畢竟龍蝦這玩意兒一吃token耗錢，二又不能太慢影響用戶體驗。

換言之，人人都在價格和速度之間艱難走鋼絲。

而PinchBench要做的，就是直接告訴你答案——它按照成功率、速度、價格這三個基本維度對全球模型進行排名，所以哪個模型更擅長什么基本都一目了然。

截至本文發(fā)稿前，榜單具體情況如下——

整體而言，中國模型在成功率和速度方面都有不俗表現(xiàn)，價格方面則稍遜。

比成功率，除了第一名谷歌Gemini 3 Flash，第二、第三名都出自國內(nèi)。

第一名（Gemini 3 Flash）：成功率95.1%
第二名（MiniMax M2.1）：成功率93.6%
第三名（Kimi K2.5）：成功率93.4%

而且注意沒，MiniMax用的還不是它家最新模型MiniMax M2.5。

（注：MiniMax M2.5于春節(jié)期間上線，官方主打“讓無限運行復雜Agent在經(jīng)濟上可行”。）

比速度，國產(chǎn)模型MiniMax M2.5更是一舉超越Gemini、Llama等模型，登上榜首。

當時發(fā)布時，MiniMax M2.5就在SWE-Bench Verified測試中，完成任務的速度較上一代M2.1提升了37%，端到端運行時間縮短至22.8分鐘，與Claude Opus 4.6持平。

而Claude Opus 4.6的最新排名是30（M2.1是第22）。

不過在價格方面，國產(chǎn)模型和OpenAI、谷歌模型相比則缺乏優(yōu)勢。

排第一的GPT-5-nano（專為輕量級、高性價比場景設計），輸入價格低至0.05美元/百萬tokens，輸出價格低至0.40美元/百萬tokens。

而國產(chǎn)模型中最便宜的MiniMax M2.1，輸入價格為2.1元/百萬tokens（約0.3美元/百萬tokens），輸出價格為8.4元/百萬tokens（約1.2美元/百萬tokens）。

平均下來，后者的價格幾乎是前者的3倍。

綜合來看，如果要在成功率和價格之間取得最佳平衡，下面這張圖可以作為參考。

左上角的方框已經(jīng)圈選出了還不錯的模型——一共8個，其中有4個還都是中國模型。

Anyway，在這份專為龍蝦而生的Benchmark中，國產(chǎn)模型的含量確實很高，而且在某些單項上表現(xiàn)出色。

那么問題來了，這榜單靠譜嗎？背后的篩選機制又是什么？

來看PinchBench的介紹。

誰是PinchBench？

簡單來說，PinchBench并不是某家大廠推出的標準Benchmark，而是來自一支做Agent基礎(chǔ)設施的創(chuàng)業(yè)團隊。

團隊名為Kilo AI，由GitLab前聯(lián)合創(chuàng)始人兼CEO Sid Sijbrandij投資并參與創(chuàng)立，曾推出爆火“氛圍編程”工具Kilo Code。

年初龍蝦爆火后，他們又順勢推出了基于OpenClaw構(gòu)建的全托管智能體平臺KiloClaw。

而隨著KiloClaw一起發(fā)布的，就有PinchBench這個智能體框架評測工具。

PinchBench主要被用來測試不同大模型在真實工作流中的執(zhí)行能力，和傳統(tǒng)大模型Benchmark（比如知識問答、數(shù)學推理）不同，其定位更接近“Agent能力測試”——

不只看模型會不會回答問題，而是看模型能不能完成一整件事。

目前它大約包含23個真實任務的測試，包括但不限于：

查詢并整理資料
寫郵件或生成報告
調(diào)用API完成操作

在評分機制上，PinchBench采用的是自動化檢查+LLM評審的組合方式：

一部分任務有明確的自動檢查腳本，例如是否生成正確文件、是否完成指定操作等；另一部分任務則會由LLM Judge來判斷結(jié)果質(zhì)量。

最終統(tǒng)計的核心指標就是我們上面提到的Success Rate（任務完成率）、Speed（完成速度）、Cost（推理成本）。

由于評測方式偏向真實任務流程，值得注意的是，在PinchBench的排行榜上，你會看到一個有意思的現(xiàn)象——

更大的模型并非總是制勝之道。

換言之，那些偏Agent優(yōu)化或推理效率更高的模型，排名反而比傳統(tǒng)主流大模型更靠前。

這一點也是PinchBench最近在圈子里被頻繁討論的原因之一。

BTW，PinchBench目前還是完全開源的，用戶也可以在平臺上自行運行或添加新任務。

如果以后不知道怎么選模型，不妨自己動手一試。

PinchBench開源地址：
https://github.com/pinchbench/skill

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

3B打32B？海外病毒式傳播的小模型，竟然來自BOSS直聘

機器之心Pro 2026-03-09 14:09:17
0 跟貼 0
一只能安裝龍蝦的龍蝦，才是好龍蝦

機器之心Pro 2026-03-09 10:20:51
0 跟貼 0

美國警察在海上巡邏，抓到了正在偷龍蝦的船長

警動宇宙 2026-03-09 10:10:34
1 跟貼 1

AI自主提交35%代碼！Cursor CEO重磅宣言：第三AI編程時代已至

新智元 2026-03-08 12:31:07
9 跟貼 9
想學做龍蝦，先得學會做雞蛋

兔八哥影視 2026-03-07 09:40:51
1 跟貼 1

“龍蝦”引爆A股行情：AI革命前夜，資本提前下菜

鈦媒體APP 2026-03-09 19:54:07
1 跟貼 1

笑不活了！近800只龍蝦，辦了個AI吐槽大會

智東西 2026-03-09 23:14:13
0 跟貼 0
米其林餐廳3489一人套餐，含有龍蝦神戶牛肉等，你們看看值不

小陳美味 2026-03-07 13:08:26
171 跟貼 171

充氣模型如何騙取導彈

純白的夢j 2026-03-07 07:35:38
0 跟貼 0
龍蝦更新后記憶變強，如何養(yǎng)好AI龍蝦？

機器之心Pro 2026-03-09 19:10:43
0 跟貼 0
千人擠爆舊金山！OpenClaw首聚現(xiàn)場，AI龍蝦開始接管現(xiàn)實世界

新智元 2026-02-06 21:39:14
1 跟貼 1
買的龍蝦一動不動，主人把龍蝦放進養(yǎng)的魚缸里，網(wǎng)友調(diào)侃：你不按規(guī)矩出牌

安全與法 2026-03-08 13:22:21
14 跟貼 14
七旬大爺養(yǎng)龍蝦進軍短劇界大爺看短劇看上癮，找人遠程安裝openclaw（龍蝦），準備正式進軍AI短劇行業(yè)，還拉著工作人員聊劇本、點龍蝦

柚子Video 2026-03-09 07:16:06
1 跟貼 1
家居、眼鏡到小芯片 OpenClaw風暴開始席卷硬件圈了

華爾街見聞官方 2026-03-09 20:41:06
0 跟貼 0
一鍵接入OpenClaw,谷歌CLI狂攬15k Stars,Agent開始接管Workspace

機器之心Pro 2026-03-09 11:47:49
1 跟貼 1
【吃透 AI Agent】AI Agent 全網(wǎng)最通俗講解：從原理到落地應用！Agent智能體搭建

盧菁老師 2026-03-09 08:45:29
0 跟貼 0
全網(wǎng)瘋搶 Mac mini 養(yǎng)龍蝦，但這些玩法更值得抄作業(yè)

愛范兒 2026-03-09 18:30:51
2 跟貼 2
怕血管硬化這個指標一定要化驗

普外耿醫(yī)生 2026-03-06 11:55:13
0 跟貼 0
王思聰炸街，身旁美女拉低檔次，鮑魚龍蝦吃膩了吃點青菜蘿卜

逗趣聯(lián)盟 2026-03-08 09:32:58
5 跟貼 5
你“養(yǎng)龍蝦”了嗎？

余岳桐 2026-03-09 22:07:29
0 跟貼 0
鮮活生猛的龍蝦不殺不處理，日本人直接用醬油浸泡生腌吃

咖辣食味 2026-03-07 09:30:47
3 跟貼 3
活煮龍蝦也犯法？英國正式頒布“蝦權(quán)法案”

英國那些事兒 2026-03-09 23:22:07
0 跟貼 0
OpenAI測謊13款大模型：Claude 3.7封神，GPT-5.2近乎失控！

新智元 2026-03-09 09:36:47
0 跟貼 0
打敗GPT-5.2，嵌入真實工業(yè)生產(chǎn)，這個大模型什么來頭？

量子位 2026-03-09 15:44:13
1 跟貼 1
Parallel-Probe問世，并行推理效率提升35.8%

機器之心Pro 2026-03-09 13:58:54
0 跟貼 0
好不容易裝好的龍蝦，結(jié)果下一秒

探山城 2026-03-08 15:47:39
0 跟貼 0
大風315 | 游客稱飛3000公里在西雙版納一景區(qū)游玩，因明星錄制綜藝節(jié)目被清場；景區(qū)：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
3181 跟貼 3181
深圳龍崗擬推“龍蝦十條”：助“一人公司”啟動AI創(chuàng)業(yè)

每日經(jīng)濟新聞 2026-03-08 22:56:15
0 跟貼 0
GPT-5.4龍蝦味太濃！各種能力全包圓，一個hi燒掉80美元？

機器之心Pro 2026-03-07 09:10:00
0 跟貼 0
大哥帶小弟吃自助餐，怎料小弟的龍蝦是裝飾品，這下尷尬了

影子追劇社 2026-03-09 10:28:20
1 跟貼 1
周鴻祎談“龍蝦”爆火：很快就能“一鍵安裝”

大象新聞 2026-03-09 11:37:43
206 跟貼 206
43天寒假無休送外賣掙萬元，財務管理專業(yè)大三學生收獲人生“第一桶金”

封面新聞 2026-03-09 13:14:08
6153 跟貼 6153
轉(zhuǎn)發(fā)提醒！AI養(yǎng)“龍蝦”警惕安全風險

BRTV新聞 2026-03-09 05:33:28
0 跟貼 0
不寫代碼也能賺！27歲小伙教“養(yǎng)龍蝦”，一周爆賺10萬元！

掌聞視訊 2026-03-09 22:07:24
0 跟貼 0
為啥很多人都開始“養(yǎng)龍蝦”了？聽聽郜老師怎么說

大春不一樣 2026-03-10 02:18:47
0 跟貼 0
深圳公務員熱衷“養(yǎng)龍蝦”

看盡落塵花q 2026-03-09 06:56:39
1 跟貼 1
首個物理AI數(shù)據(jù)基座平臺“無垠”落戶浙江，專治機器人數(shù)據(jù)荒

量子位 2026-03-09 18:39:03
0 跟貼 0
如果員工都是按Token收費的龍蝦，老板們還敢開會嗎？還敢PUA嗎？

網(wǎng)易科技態(tài)度見聞 2026-03-09 11:23:43
0 跟貼 0
“龍蝦”全網(wǎng)爆火！超多人搶著要，上門服務500元一次，有人稱賺了26萬?

掌聞視訊 2026-03-08 12:47:49
0 跟貼 0
騰訊免費裝“龍蝦”，大爺大媽都在排隊

極果酷玩 2026-03-07 21:28:36
0 跟貼 0

手機 / 數(shù)碼

房產(chǎn) / 家居

龍蝦最佳適配模型，OpenClaw之父給出了推薦

“龍蝦”最佳適配模型有哪些

扎哈·哈迪德事務所未來或更名

媒體：美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

媒體：美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

36連勝終結(jié)！大魔王也是可以戰(zhàn)勝的

薛之謙老婆懷二胎，現(xiàn)身產(chǎn)檢心情愉快

油價破100美元年內(nèi)漲80% 全球市場劇震

OpenClaw更新，"養(yǎng)蝦"再也不會犯健忘癥了

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

獨棟獨院 精致親子墅

到底怎么裝飾手柄，才不像內(nèi)褲？

取消調(diào)休，多放假！代表們集體為打工人發(fā)聲

國家要砸400億！海南這個超級項目又有新消息！

媒體：美軍用極殘酷方式擊沉伊朗軍艦令世界不寒而栗

媒體：美軍用極殘酷方式擊沉伊朗軍艦令世界不寒而栗

對標奔馳小號G級路虎小型衛(wèi)士最新消息曝光

獨棟獨院精致親子墅