當(dāng)?shù)貢r間3月7日,OpenClaw 創(chuàng)始人 Peter Steinberger 在平臺X上分享龍蝦基準測試排行榜。PinchBench 測試了32款主流大模型,從成功率、速度、費用三個維度,測試哪個模型最適合養(yǎng)龍蝦。
排行榜顯示,谷歌(GOOGL.US)的Gemini 3 Flash Preview 以95.1% 的成功率奪冠,其次是國產(chǎn)模型 MiniMax M2.1,成功率93.6%,戰(zhàn)勝 Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)等一眾國際大模型。
Kimi K2.5則以93.4%的成功率緊隨其后,位居第三。至此,國產(chǎn)雙雄直接占據(jù)了 TOP3的兩個席位。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.