<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      龍蝦最佳適配模型,OpenClaw之父給出了推薦

      “龍蝦”最佳適配模型有哪些

      0
      分享至

      龍蝦太火,所有人都想一試。但真到了上手環(huán)節(jié)就會(huì)迎來(lái)第一道“攔路虎”——

      急急急,究竟哪個(gè)模型最適合OpenClaw啊??

      知道你急,龍蝦之父親自趕來(lái)支招了:可以關(guān)注這個(gè)因吹斯汀的榜單



      榜單名為PinchBench,專為龍蝦而生,從成功率、速度、價(jià)格等維度評(píng)估全球大模型對(duì)OpenClaw的適配程度。(劃重點(diǎn),還是實(shí)時(shí)更新那種)

      這個(gè)榜單其實(shí)今年2月底就出現(xiàn)了,但現(xiàn)在卻更火了——

      這里面不止有龍蝦之父推薦的功勞,更重要的原因是咱中國(guó)模型的表現(xiàn)確實(shí)出色。(老外一看,嗯??)



      前排國(guó)產(chǎn)模型含量好高啊

      熟悉龍蝦的朋友都知道,這選模型可是一件大事。

      畢竟龍蝦這玩意兒一吃token耗錢,二又不能太慢影響用戶體驗(yàn)。

      換言之,人人都在價(jià)格和速度之間艱難走鋼絲。

      而PinchBench要做的,就是直接告訴你答案——它按照成功率、速度、價(jià)格這三個(gè)基本維度對(duì)全球模型進(jìn)行排名,所以哪個(gè)模型更擅長(zhǎng)什么基本都一目了然。

      截至本文發(fā)稿前,榜單具體情況如下——

      整體而言,中國(guó)模型在成功率和速度方面都有不俗表現(xiàn),價(jià)格方面則稍遜。

      比成功率,除了第一名谷歌Gemini 3 Flash,第二、第三名都出自國(guó)內(nèi)。

      • 第一名(Gemini 3 Flash):成功率95.1%
      • 第二名(MiniMax M2.1):成功率93.6%
      • 第三名(Kimi K2.5):成功率93.4%

      而且注意沒(méi),MiniMax用的還不是它家最新模型MiniMax M2.5。

      (注:MiniMax M2.5于春節(jié)期間上線,官方主打“讓無(wú)限運(yùn)行復(fù)雜Agent在經(jīng)濟(jì)上可行”。)



      比速度,國(guó)產(chǎn)模型MiniMax M2.5更是一舉超越Gemini、Llama等模型,登上榜首。



      當(dāng)時(shí)發(fā)布時(shí),MiniMax M2.5就在SWE-Bench Verified測(cè)試中,完成任務(wù)的速度較上一代M2.1提升了37%,端到端運(yùn)行時(shí)間縮短至22.8分鐘,與Claude Opus 4.6持平。

      而Claude Opus 4.6的最新排名是30(M2.1是第22)。



      不過(guò)在價(jià)格方面,國(guó)產(chǎn)模型和OpenAI、谷歌模型相比則缺乏優(yōu)勢(shì)。

      排第一的GPT-5-nano(專為輕量級(jí)、高性價(jià)比場(chǎng)景設(shè)計(jì)),輸入價(jià)格低至0.05美元/百萬(wàn)tokens,輸出價(jià)格低至0.40美元/百萬(wàn)tokens。

      而國(guó)產(chǎn)模型中最便宜的MiniMax M2.1,輸入價(jià)格為2.1元/百萬(wàn)tokens(約0.3美元/百萬(wàn)tokens),輸出價(jià)格為8.4元/百萬(wàn)tokens(約1.2美元/百萬(wàn)tokens)。

      平均下來(lái),后者的價(jià)格幾乎是前者的3倍。



      綜合來(lái)看,如果要在成功率和價(jià)格之間取得最佳平衡,下面這張圖可以作為參考。

      左上角的方框已經(jīng)圈選出了還不錯(cuò)的模型——一共8個(gè),其中有4個(gè)還都是中國(guó)模型。



      Anyway,在這份專為龍蝦而生的Benchmark中,國(guó)產(chǎn)模型的含量確實(shí)很高,而且在某些單項(xiàng)上表現(xiàn)出色。

      那么問(wèn)題來(lái)了,這榜單靠譜嗎?背后的篩選機(jī)制又是什么?

      來(lái)看PinchBench的介紹。

      誰(shuí)是PinchBench?

      簡(jiǎn)單來(lái)說(shuō),PinchBench并不是某家大廠推出的標(biāo)準(zhǔn)Benchmark,而是來(lái)自一支做Agent基礎(chǔ)設(shè)施的創(chuàng)業(yè)團(tuán)隊(duì)。

      團(tuán)隊(duì)名為Kilo AI,由GitLab前聯(lián)合創(chuàng)始人兼CEO Sid Sijbrandij投資并參與創(chuàng)立,曾推出爆火“氛圍編程”工具Kilo Code。

      年初龍蝦爆火后,他們又順勢(shì)推出了基于OpenClaw構(gòu)建的全托管智能體平臺(tái)KiloClaw。

      而隨著KiloClaw一起發(fā)布的,就有PinchBench這個(gè)智能體框架評(píng)測(cè)工具。



      PinchBench主要被用來(lái)測(cè)試不同大模型在真實(shí)工作流中的執(zhí)行能力,和傳統(tǒng)大模型Benchmark(比如知識(shí)問(wèn)答、數(shù)學(xué)推理)不同,其定位更接近“Agent能力測(cè)試”——

      不只看模型會(huì)不會(huì)回答問(wèn)題,而是看模型能不能完成一整件事。

      目前它大約包含23個(gè)真實(shí)任務(wù)的測(cè)試,包括但不限于:

      • 查詢并整理資料
      • 寫(xiě)郵件或生成報(bào)告
      • 調(diào)用API完成操作



      在評(píng)分機(jī)制上,PinchBench采用的是自動(dòng)化檢查+LLM評(píng)審的組合方式:

      一部分任務(wù)有明確的自動(dòng)檢查腳本,例如是否生成正確文件、是否完成指定操作等;另一部分任務(wù)則會(huì)由LLM Judge來(lái)判斷結(jié)果質(zhì)量。

      最終統(tǒng)計(jì)的核心指標(biāo)就是我們上面提到的Success Rate(任務(wù)完成率)、Speed(完成速度)、Cost(推理成本)。

      由于評(píng)測(cè)方式偏向真實(shí)任務(wù)流程,值得注意的是,在PinchBench的排行榜上,你會(huì)看到一個(gè)有意思的現(xiàn)象——

      更大的模型并非總是制勝之道

      換言之,那些偏Agent優(yōu)化或推理效率更高的模型,排名反而比傳統(tǒng)主流大模型更靠前。

      這一點(diǎn)也是PinchBench最近在圈子里被頻繁討論的原因之一。



      BTW,PinchBench目前還是完全開(kāi)源的,用戶也可以在平臺(tái)上自行運(yùn)行或添加新任務(wù)。

      如果以后不知道怎么選模型,不妨自己動(dòng)手一試。

      PinchBench開(kāi)源地址:
      https://github.com/pinchbench/skill

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      驚魂24小時(shí)!美企中東大撤退:數(shù)據(jù)中心被炸,百億投資說(shuō)扔就扔

      驚魂24小時(shí)!美企中東大撤退:數(shù)據(jù)中心被炸,百億投資說(shuō)扔就扔

      藍(lán)色海邊
      2026-03-09 13:15:43
      正式退役?郭艾倫重傷后曝光收入,16年薪水+代言到手有多少錢?

      正式退役?郭艾倫重傷后曝光收入,16年薪水+代言到手有多少錢?

      蘇甩甩
      2026-03-08 12:58:30
      哈梅內(nèi)伊次子當(dāng)選伊朗最高領(lǐng)袖 特朗普威脅其“難長(zhǎng)久” 以色列揚(yáng)言要“追殺”

      哈梅內(nèi)伊次子當(dāng)選伊朗最高領(lǐng)袖 特朗普威脅其“難長(zhǎng)久” 以色列揚(yáng)言要“追殺”

      極目新聞
      2026-03-09 06:50:47
      以色列何去何從,歷史驚人的相似,猶太人在打中國(guó)的主意

      以色列何去何從,歷史驚人的相似,猶太人在打中國(guó)的主意

      趙枹是個(gè)熱血青年
      2026-03-05 21:34:25
      第二批栽在黃金里的人醒了!3月9日暴跌后才懂:全是“貪”惹的禍

      第二批栽在黃金里的人醒了!3月9日暴跌后才懂:全是“貪”惹的禍

      說(shuō)故事的阿襲
      2026-03-10 07:40:37
      42歲王寶強(qiáng)形象大變!為配學(xué)霸女友不惜整容,戴金框眼鏡撞臉汪小菲

      42歲王寶強(qiáng)形象大變!為配學(xué)霸女友不惜整容,戴金框眼鏡撞臉汪小菲

      八卦王者
      2026-03-08 11:16:11
      一大早國(guó)家隊(duì)送來(lái)大禮!王曼昱這個(gè)婦女節(jié),男友和爸媽全都輸了

      一大早國(guó)家隊(duì)送來(lái)大禮!王曼昱這個(gè)婦女節(jié),男友和爸媽全都輸了

      銀河史記
      2026-03-09 18:21:40
      你有知道哪些炸裂的秘密?網(wǎng)友:我有個(gè)秘密說(shuō)出來(lái)肯定大家要笑死

      你有知道哪些炸裂的秘密?網(wǎng)友:我有個(gè)秘密說(shuō)出來(lái)肯定大家要笑死

      帶你感受人間冷暖
      2026-01-29 00:10:05
      機(jī)票價(jià)格大跳水!多地跌至200元以內(nèi)

      機(jī)票價(jià)格大跳水!多地跌至200元以內(nèi)

      閃電新聞
      2026-03-09 15:18:11
      扛不住了,北京知名建筑裝飾公司暴雷破產(chǎn)!

      扛不住了,北京知名建筑裝飾公司暴雷破產(chǎn)!

      黯泉
      2026-03-09 20:16:45
      54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

      54歲楊鈺瑩近況曝光:定居深圳,每天打理菜園子,生活平淡

      小徐講八卦
      2025-11-17 07:29:28
      隊(duì)內(nèi)人終于說(shuō)真話!維蒂尼亞:當(dāng)年的巴黎帶不動(dòng)3個(gè)不跑的巨星

      隊(duì)內(nèi)人終于說(shuō)真話!維蒂尼亞:當(dāng)年的巴黎帶不動(dòng)3個(gè)不跑的巨星

      逗比演員說(shuō)體育
      2026-03-09 07:34:24
      一錘定音!高速收費(fèi)改革落地,2026年車主將享更人性化減免政策

      一錘定音!高速收費(fèi)改革落地,2026年車主將享更人性化減免政策

      藍(lán)色海邊
      2026-03-07 12:00:24
      鐵血硬漢也繃不住了!巴拉克首談18歲愛(ài)子離世:痛到無(wú)法呼吸

      鐵血硬漢也繃不住了!巴拉克首談18歲愛(ài)子離世:痛到無(wú)法呼吸

      仰臥撐FTUer
      2026-03-08 13:28:16
      執(zhí)掌蘇寧30年,從江蘇首富到資產(chǎn)清零!張近東經(jīng)歷了什么?

      執(zhí)掌蘇寧30年,從江蘇首富到資產(chǎn)清零!張近東經(jīng)歷了什么?

      新浪財(cái)經(jīng)
      2026-03-05 21:16:23
      阿布律師警告英政府:出售切爾西所得23.5億鎊完全屬于阿布

      阿布律師警告英政府:出售切爾西所得23.5億鎊完全屬于阿布

      懂球帝
      2026-03-09 18:29:32
      美股三大指數(shù)集體收漲

      美股三大指數(shù)集體收漲

      界面新聞
      2026-03-10 07:02:08
      紐約期金失守5140美元/盎司

      紐約期金失守5140美元/盎司

      每日經(jīng)濟(jì)新聞
      2026-03-10 06:15:04
      舅舅剛?cè)ナ溃?0歲外甥就把45歲舅媽睡了,舅媽逼他離婚他選擇殺人

      舅舅剛?cè)ナ溃?0歲外甥就把45歲舅媽睡了,舅媽逼他離婚他選擇殺人

      談史論天地
      2026-03-06 14:19:08
      歐洲打死也不會(huì)想到,這場(chǎng)戰(zhàn)爭(zhēng)徹底打掉了歐洲五十年的國(guó)運(yùn)

      歐洲打死也不會(huì)想到,這場(chǎng)戰(zhàn)爭(zhēng)徹底打掉了歐洲五十年的國(guó)運(yùn)

      揭秘歷史的真相
      2026-01-19 21:05:12
      2026-03-10 08:52:51
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12253文章數(shù) 176412關(guān)注度
      往期回顧 全部

      藝術(shù)要聞

      30000畝杏花開(kāi)了,才知道原來(lái)新疆的春天這么美!

      頭條要聞

      牛彈琴:特朗普放風(fēng)要停戰(zhàn) 伊朗稱正為美國(guó)準(zhǔn)備"驚喜"

      頭條要聞

      牛彈琴:特朗普放風(fēng)要停戰(zhàn) 伊朗稱正為美國(guó)準(zhǔn)備"驚喜"

      體育要聞

      36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

      娛樂(lè)要聞

      薛之謙老婆懷二胎,現(xiàn)身產(chǎn)檢心情愉快

      財(cái)經(jīng)要聞

      "養(yǎng)蝦"生意經(jīng):有人賣鏟,有人做保鏢

      科技要聞

      OpenClaw更新,"養(yǎng)蝦"再也不會(huì)犯健忘癥了

      汽車要聞

      對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      數(shù)碼
      健康
      親子
      公開(kāi)課

      藝術(shù)要聞

      30000畝杏花開(kāi)了,才知道原來(lái)新疆的春天這么美!

      數(shù)碼要聞

      Tessan霆圣海外推出貓臉造型65W桌充:2C+2A,45.99美元

      轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

      親子要聞

      真是服你倆了~

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版