網易首頁 > 網易號 > 正文申請入駐

Kimi-K2-Thinking 開源大模型新王，權威測試結果公布

2025-11-11 18:30:39　來源: 機器學習與Python社區

北京舉報

分享至

K2 Thinking 前情回顧

大家好，我是 Ai 學習的老章

Kimi K2 Thinking 我已經介紹過很多

K2 Thinking 是迄今最大的開放權重模型之一，也是 K2 模型家族的首個推理模型，總參數量 1T，激活 32B。

最近看了一些市面上比較權威的測評結果，可以更全面的看看 K2 Thinking 的水平，看是否真就到了開源新王水平。

聯合創始人兼首席執行官 @HuggingFace Artificial Analysis——智能水平逼近閉源大模型

Artificial Analysis 用官方 API 做了一系列測試

結論：開源大模型在智能水平已逼近閉源模型

Kimi K2 Thinking 在 Artificial Analysis Intelligence Index 中得分 67，創下開放權重模型最高分。這使其明顯領先于所有其他開源權重模型，包括近期發布的 MiniMax-M2 和 DeepSeek-V3.2-Exp，在專有模型中也僅次于 GPT-5。

人工智能分析指數 v3.0 包含 10 項評估：MMLU-Pro、GPQA Diamond、人類終極考試、LiveCodeBench、SciCode、2025 年美國數學邀請賽、IFBench、AA-LCR、Terminal-Bench Hard、2-Bench Telecom

具體得分如下：

? 開源權重代碼模型第一，但仍落后閉源模型：K2 Thinking 在任何代碼評測中均未奪冠——Terminal-Bench Hard 第 6、SciCode 第 7、LiveCodeBench 第 2。若僅對比開源權重模型，它在三項評測中均排名第一或并列第一，因此在 Artificial Analysis Coding Index 中超越此前的開源權重榜首 DeepSeek V3.2

? 開放權重在 Humanity’s Last Exam 上的最大飛躍：K2 Thinking 的最強成績之一是在 Humanity’s Last Exam 上取得 22.3% 的得分（無工具），創下開放權重模型歷史新高，僅次于 GPT-5 與 Grok 4

? 強勁的代理性能：Kimi K2 Thinking 在代理場景中表現尤為突出，在 Artificial Analysis Agentic Index 中位列第 2，僅次于 GPT-5。這主要得益于 K2 Thinking 在 2-Bench Telecom（一個讓模型充當客服代理的代理工具使用基準）中取得 93% 的成績，這是 Artificial Analysis 獨立測得的最高分。在需要長期規劃的代理場景下，Kimi K2 Instruct 的工具使用能力本就出色，而新的 Thinking 版本顯然又實現了顯著提升

但是 Kimi K2 Thinking 缺點也很明顯——太耗 Token 了，它在 Artificial Analysis Intelligence Index 評估中使用了史無前例的 1.4 億 token，約為 DeepSeek V3.2 的 2.5 倍、GPT-5 的 2 倍。

好在定價比閉源模型便宜不少，但 Turbo 模式很貴：

按 MoonShot 官方 API 定價，整體運行Intelligence Index 的成本低于主流前沿模型。Moonshot 還提供更快的 turbo API，此模式下運行Intelligence Index 的成本僅次于 Grok 4，成為第二昂貴的模型。

第二個缺點就是它的上下文窗口了，最大 256K，一眾大佬面前還排不上號。。。

最后就是生成速度了，與平均水平相比，Kimi K2 Thinking 的速度較慢，每秒 80 Tokens 的樣子。好在延遲還行，接收第一個 Token（TTFT）僅需 0.75 秒。

IUMB——領先所有開、閉源模型

IUMB（Introductory Undergraduate Mathematics Benchmark）是一個用于評估模型在解決本科數學問題上的表現的基準。它旨在較為全面地體現普通本科院校數學專業大一和大二水平的數學能力。

目前 K2 Thinking 在這個榜當上都可以碾壓開、閉源所有模型了

https://pellaml.github.io/iumb/

即便如此，得分也僅 54，大模型搞本科數學通通不及格

PMPP-Eval ——最優開源模型

PMPP-Eval 是一個以編碼為重點的評估基準，用于評估大型語言模型的性能。它專門在“編碼子集”上對模型進行評估，并根據模型在編程任務（如與 CUDA 相關的任務）中的表現對其進行排名。

根據 cuda 任務的結果，K2-Thinking 現在是可用的最優開源模型。

個人用戶的測評——褒貶不一BinduReddy 測評：Kimi-K2 在代理編碼方面非常出色，但整體上仍落后于 DeepSeek Kimi-K2 是不斷增長的優秀開源模型列表中的又一個優秀模型。 - 與 GLM 4.6 一樣，在代理編碼方面表現最佳 - DeepSeek 3.2 是世界上最好的開源模型

但是他使用的非官方 API，其實其他網友也對他的測試結果表示過質疑

Kimi 回應

Kimi 官方也注意到，不同提供商的基準結果存在差異——部分第三方端點出現顯著準確率下降（例如超過 20 個百分點），這對 LiveBench 等重推理任務的得分產生負面影響。

然后 Kimi 官方給出了建議

使用我們的官方 API 端點 kimi-k2-thinking-turbo
啟用 stream = True
設置 temperature = 1.0
建議的 max_token：推理 128k | 編碼 256k | 其他 ≥64k
在腳本中添加重試邏輯

Kimi 也給出完整的基準測試設置指南， https://platform.moonshot.ai/docs/guide/benchmark-best-practice

最后總結：Kimi K2 Thinking 綜合實力很強，在多個權威測評中展現了逼近甚至超越閉源模型的潛力，暫居開源新王的寶座。但諸多基準測試、上下文窗口和生成速度與業界頂級大模型相比，還有差距。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.