<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Kimi-K2-Thinking 開源大模型新王,權威測試結果公布

      0
      分享至


      K2 Thinking 前情回顧

      大家好,我是 Ai 學習的老章

      Kimi K2 Thinking 我已經介紹過很多

      K2 Thinking 是迄今最大的開放權重模型之一,也是 K2 模型家族的首個推理模型,總參數量 1T,激活 32B。


      最近看了一些市面上比較權威的測評結果,可以更全面的看看 K2 Thinking 的水平,看是否真就到了開源新王水平。


      聯合創始人兼首席執行官 @HuggingFace Artificial Analysis——智能水平逼近閉源大模型

      Artificial Analysis 用官方 API 做了一系列測試


      結論:開源大模型在智能水平已逼近閉源模型


      Kimi K2 Thinking 在 Artificial Analysis Intelligence Index 中得分 67,創下開放權重模型最高分。這使其明顯領先于所有其他開源權重模型,包括近期發布的 MiniMax-M2 和 DeepSeek-V3.2-Exp,在專有模型中也僅次于 GPT-5。

      人工智能分析指數 v3.0 包含 10 項評估:MMLU-Pro、GPQA Diamond、人類終極考試、LiveCodeBench、SciCode、2025 年美國數學邀請賽、IFBench、AA-LCR、Terminal-Bench Hard、2-Bench Telecom

      具體得分如下:


      ? 開源權重代碼模型第一,但仍落后閉源模型:K2 Thinking 在任何代碼評測中均未奪冠——Terminal-Bench Hard 第 6、SciCode 第 7、LiveCodeBench 第 2。若僅對比開源權重模型,它在三項評測中均排名第一或并列第一,因此在 Artificial Analysis Coding Index 中超越此前的開源權重榜首 DeepSeek V3.2

      ? 開放權重在 Humanity’s Last Exam 上的最大飛躍:K2 Thinking 的最強成績之一是在 Humanity’s Last Exam 上取得 22.3% 的得分(無工具),創下開放權重模型歷史新高,僅次于 GPT-5 與 Grok 4

      ? 強勁的代理性能:Kimi K2 Thinking 在代理場景中表現尤為突出,在 Artificial Analysis Agentic Index 中位列第 2,僅次于 GPT-5。這主要得益于 K2 Thinking 在 2-Bench Telecom(一個讓模型充當客服代理的代理工具使用基準)中取得 93% 的成績,這是 Artificial Analysis 獨立測得的最高分。在需要長期規劃的代理場景下,Kimi K2 Instruct 的工具使用能力本就出色,而新的 Thinking 版本顯然又實現了顯著提升

      但是 Kimi K2 Thinking 缺點也很明顯——太耗 Token 了,它在 Artificial Analysis Intelligence Index 評估中使用了史無前例的 1.4 億 token,約為 DeepSeek V3.2 的 2.5 倍、GPT-5 的 2 倍。


      好在定價比閉源模型便宜不少,但 Turbo 模式很貴

      按 MoonShot 官方 API 定價,整體運行Intelligence Index 的成本低于主流前沿模型。Moonshot 還提供更快的 turbo API,此模式下運行Intelligence Index 的成本僅次于 Grok 4,成為第二昂貴的模型。


      第二個缺點就是它的上下文窗口了,最大 256K,一眾大佬面前還排不上號。。。


      最后就是生成速度了,與平均水平相比,Kimi K2 Thinking 的速度較慢,每秒 80 Tokens 的樣子。好在延遲還行,接收第一個 Token(TTFT)僅需 0.75 秒。


      IUMB——領先所有開、閉源模型

      IUMB(Introductory Undergraduate Mathematics Benchmark)是一個用于評估模型在解決本科數學問題上的表現的基準。它旨在較為全面地體現普通本科院校數學專業大一和大二水平的數學能力。

      目前 K2 Thinking 在這個榜當上都可以碾壓開、閉源所有模型了


      https://pellaml.github.io/iumb/

      即便如此,得分也僅 54,大模型搞本科數學通通不及格


      PMPP-Eval ——最優開源模型

      PMPP-Eval 是一個以編碼為重點的評估基準,用于評估大型語言模型的性能。它專門在“編碼子集”上對模型進行評估,并根據模型在編程任務(如與 CUDA 相關的任務)中的表現對其進行排名。

      根據 cuda 任務的結果,K2-Thinking 現在是可用的最優開源模型。


      個人用戶的測評——褒貶不一BinduReddy 測評:Kimi-K2 在代理編碼方面非常出色,但整體上仍落后于 DeepSeek Kimi-K2 是不斷增長的優秀開源模型列表中的又一個優秀模型。 - 與 GLM 4.6 一樣,在代理編碼方面表現最佳 - DeepSeek 3.2 是世界上最好的開源模型

      但是他使用的非官方 API,其實其他網友也對他的測試結果表示過質疑


      Kimi 回應

      Kimi 官方也注意到,不同提供商的基準結果存在差異——部分第三方端點出現顯著準確率下降(例如超過 20 個百分點),這對 LiveBench 等重推理任務的得分產生負面影響。

      然后 Kimi 官方給出了建議

      • 使用我們的官方 API 端點 kimi-k2-thinking-turbo

      • 啟用 stream = True

      • 設置 temperature = 1.0

      • 建議的 max_token:推理 128k | 編碼 256k | 其他 ≥64k

      • 在腳本中添加重試邏輯

      Kimi 也給出完整的基準測試設置指南, https://platform.moonshot.ai/docs/guide/benchmark-best-practice

      最后總結:Kimi K2 Thinking 綜合實力很強,在多個權威測評中展現了逼近甚至超越閉源模型的潛力,暫居開源新王的寶座。但諸多基準測試、上下文窗口和生成速度與業界頂級大模型相比,還有差距。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      愛潑斯坦案亞裔受害者發聲:被帶進紅房間,被逼迫帶女孩同行

      愛潑斯坦案亞裔受害者發聲:被帶進紅房間,被逼迫帶女孩同行

      法老不說教
      2026-02-11 17:08:59
      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      深度報
      2026-02-11 23:35:03
      陶琳回應特斯拉中國銷量下滑真相!還預告了FSD入華進展

      陶琳回應特斯拉中國銷量下滑真相!還預告了FSD入華進展

      車東西
      2026-02-09 18:43:34
      破案了!看了牢A的直播后,終于知道宋祖兒為什么會被全網黑了!

      破案了!看了牢A的直播后,終于知道宋祖兒為什么會被全網黑了!

      樂悠悠娛樂
      2026-01-22 08:57:21
      央視動真格了!2026春晚大換血,趙本山當年的狠話終于應驗

      央視動真格了!2026春晚大換血,趙本山當年的狠話終于應驗

      絢麗的畫卷
      2026-02-07 13:53:12
      冠軍聯賽三連冠+賽季第三冠!塞爾比輕取吳宜澤斬獲巡回賽第41冠

      冠軍聯賽三連冠+賽季第三冠!塞爾比輕取吳宜澤斬獲巡回賽第41冠

      世界體壇觀察家
      2026-02-12 06:33:50
      清算終于開始了!一個要求,震動東京:中國要求日本限期內歸還

      清算終于開始了!一個要求,震動東京:中國要求日本限期內歸還

      壹知眠羊
      2026-01-28 22:03:28
      隨著利物浦1-0,曼城3-0,維拉1-0,英超最新積分榜出爐

      隨著利物浦1-0,曼城3-0,維拉1-0,英超最新積分榜出爐

      側身凌空斬
      2026-02-12 06:34:40
      美股三大股指收盤普跌 美光科技漲近10%

      美股三大股指收盤普跌 美光科技漲近10%

      每日經濟新聞
      2026-02-12 05:10:06
      巨力索具:網傳“中標4.58億海南火箭海上回收系統項目”等不實

      巨力索具:網傳“中標4.58億海南火箭海上回收系統項目”等不實

      界面新聞
      2026-02-11 20:42:45
      地點:內蒙古!“拍蠅打虎”一晚四連擊!

      地點:內蒙古!“拍蠅打虎”一晚四連擊!

      看看新聞Knews
      2026-02-11 17:52:04
      罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發生了

      罪有應得!官方徹查后,閆學晶再迎噩耗,她最擔心的事還是發生了

      來科點譜
      2026-01-23 11:08:02
      王晶談萬梓良晚年凄涼!稱其不懂江湖規矩,演戲夸張對手很難接

      王晶談萬梓良晚年凄涼!稱其不懂江湖規矩,演戲夸張對手很難接

      小徐講八卦
      2026-02-11 11:40:12
      光速打臉,弗蘭克賽后說自己1000%會繼續帶隊,不到24h就下課

      光速打臉,弗蘭克賽后說自己1000%會繼續帶隊,不到24h就下課

      懂球帝
      2026-02-11 19:25:06
      拓媒:楊瀚森在場上太笨拙,這樣很難在NBA生存

      拓媒:楊瀚森在場上太笨拙,這樣很難在NBA生存

      懂球帝
      2026-02-11 17:37:02
      已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

      已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

      全球風情大揭秘
      2026-02-09 18:41:27
      加拿大2000人小鎮唯一中學突發槍案10死,女槍手穿連衣裙作案,疑自殺身亡

      加拿大2000人小鎮唯一中學突發槍案10死,女槍手穿連衣裙作案,疑自殺身亡

      紅星新聞
      2026-02-11 12:09:14
      直線拉升!黃金、白銀 再度爆發!倫敦金現 COMEX黃金 均重回5100美元/盎司上方

      直線拉升!黃金、白銀 再度爆發!倫敦金現 COMEX黃金 均重回5100美元/盎司上方

      每日經濟新聞
      2026-02-12 00:07:14
      被無數人吐槽的“反人類設計”,知道正確用法后我集體破防了……

      被無數人吐槽的“反人類設計”,知道正確用法后我集體破防了……

      暢談裝修
      2026-02-10 18:08:05
      和謝賢分手7年后,40歲Coco胖到認不出,拿著巨額分手費周游世界

      和謝賢分手7年后,40歲Coco胖到認不出,拿著巨額分手費周游世界

      小熊侃史
      2026-02-11 12:57:49
      2026-02-12 08:39:01
      機器學習與Python社區 incentive-icons
      機器學習與Python社區
      機器學習算法與Python
      3247文章數 11085關注度
      往期回顧 全部

      科技要聞

      傳蘋果新Siri再遇挫 多項AI功能或推遲發布

      頭條要聞

      牛彈琴:德國真急了要學習中國好榜樣 中國要防幺蛾子

      頭條要聞

      牛彈琴:德國真急了要學習中國好榜樣 中國要防幺蛾子

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      這個春節,中美AI“隔空開打”

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態度原創

      本地
      健康
      時尚
      公開課
      軍事航空

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      轉頭就暈的耳石癥,能開車上班嗎?

      這些才是適合普通人的冬天穿搭!不露腿、不露腰,得體又大方

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:若美伊談判失敗 或再派一支航母打擊群

      無障礙瀏覽 進入關懷版