![]()
根據(jù)著名AI分析機(jī)構(gòu)Artificial Analysis的評估,Kimi K2 Thinking在智能體(agentic)相關(guān)任務(wù)中表現(xiàn)非常突出,但在完成評測時生成了所有模型中最多的token,表現(xiàn)出非常“話癆”的特性
以下是其核心要點(diǎn):
智能指數(shù)67分,登頂開源榜首
Kimi K2 Thinking在Artificial Analysis智能指數(shù)中獲得67分。
這一成績使其明確領(lǐng)先于所有其他開源權(quán)重模型,包括最近發(fā)布的MiniMax-M2(61分)和DeepSeek-V3.2-Exp(57分),在所有模型中僅次于GPT-5
![]()
Agent能力突出,推理表現(xiàn)強(qiáng)勁
Kimi K2 Thinking在智能體應(yīng)用場景中展現(xiàn)出強(qiáng)大實(shí)力,在Artificial Analysis智能體指數(shù)中排名第二,僅次于GPT-5
其優(yōu)異表現(xiàn)主要得益于在2-Bench Telecom基準(zhǔn)測試中取得了93%的成績。這是一個智能體工具使用評測。這是該機(jī)構(gòu)獨(dú)立測量到的最高分
![]()
此外,在Humanity’s Last Exam(人類終極考試)評測中,Kimi K2 Thinking在無工具情況下的得分為22.3%,創(chuàng)下開源模型歷史新高,僅次于GPT-5和Grok 4
![]()
成為新晉開源代碼模型冠軍
盡管Kimi K2 Thinking并未在任何一項(xiàng)代碼評測中奪得總冠軍,但相較于其他開源模型,它在各項(xiàng)評測中均排名第一或并列第一
具體排名為:Terminal-Bench Hard第6名,SciCode第7名,LiveCodeBench第2名
因此,它在Artificial Analysis代碼指數(shù)中超越了先前的開源領(lǐng)導(dǎo)者DeepSeek V3.2
更多排名:
![]()
模型細(xì)節(jié):1萬億參數(shù),INT4原生精度
模型規(guī)格:總參數(shù)量1萬億,激活參數(shù)320億(約594GB),僅支持文本輸入,擁有256K上下文窗口
模型定位:該模型是Kimi K2 Instruct的推理變體,擁有相同的架構(gòu)和參數(shù)數(shù)量
INT4精度:與此前Kimi K2 Instruct發(fā)布的FP8精度不同,該模型原生以INT4精度發(fā)布。月之暗面在后訓(xùn)練階段使用了量化感知訓(xùn)練來實(shí)現(xiàn)這一點(diǎn)。這使得模型大小僅為約594GB,相比K2 Instruct的1TB以上大幅縮小,從而提升了推理和訓(xùn)練效率
代價:高冗余度、成本與延遲
Kimi K2 Thinking表現(xiàn)得非常“話癆”。在完成智能指數(shù)評測時,它總共使用了1.4億個token,約為DeepSeek V3.2的2.5倍,GPT-5的2倍。
![]()
高冗余度直接影響了成本和延遲
基礎(chǔ)版API:
定價:輸入 百 萬 , 輸 出 2.5/百萬token。
評測總成本:$356,比頂尖前沿模型便宜(比GPT-5(高)便宜2.5倍),但比DeepSeek V3.2貴9倍
速度:非常慢,約8個輸出token/秒
Turbo版API:
定價:輸入 百 萬 , 輸 出 8/百萬token。
評測總成本:$1172,是第二昂貴的模型,僅次于Grok 4。
速度:相對較快,約50個輸出token/秒
報告指出,此次發(fā)布再次凸顯了一個持續(xù)的趨勢:后訓(xùn)練,特別是強(qiáng)化學(xué)習(xí)(RL),正在推動推理模型和涉及工具調(diào)用的長程任務(wù)性能實(shí)現(xiàn)增長
參考:
https://artificialanalysis.ai/models/kimi-k2-thinking
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.