作者|子川
來源|AI先鋒官
日前,月之暗面開源了最新一代大模型Kimi K2 Thinking。
新模型一經推出,好評如潮!
HuggingFace 聯合創始人Thomas Wolf 甚至毫不吝嗇的表示,“我們正在見證又一次 DeepSeek 時刻”。
![]()
知名學者Alvin Wang Graylin 也夸贊,其已經超越西方的閉源模型。
![]()
為什么此次月之暗面推出的Kimi K2 Thinking這么受歡迎?
我們接著往下看。
根據AI分析機構Artificial Analysis的評估,Kimi K2 Thinking在智能體相關任務中表現非常突出。
比如,在Artificial Analysis智能指數中,獲得67分。
![]()
這一成績使其領先于所有的其他開源模型,包括最近發布的MiniMax-M2和DeepSeek-V3.2-Exp,僅次于GPT-5。
在智能體工具調用 (2-Bench)測試中,Kimi K2 Thinking得分高達93%,是目前第三方機構測量到的最高分。
![]()
在在Humanity’s Last Exam(人類終極考試)評測中,Kimi K2 Thinking在無工具情況下的得分為22.3%,僅次于GPT-5和Grok 4。
![]()
這成績已經不是國產SOTA了,當之無愧又一次的DeepSeek時刻。
![]()
據介紹, K2 Thinking 的參數規模高達萬億。
但其運行成本仍然很低,其 API 價格是百萬 token 輸入 0.15 美元(緩存命中)/0.6 美元(緩存未命中),每百萬 token 輸出 2.5 美元。
![]()
那K2 Thinking的實際效果到底如何?
老規矩,我們實測一番。
由于現在的模型的能力越來越強,并且有很多變量的存在,簡單的題目已經無法測出模型的能力了。
于是我們決定用歷屆模型經常翻車的問題來逐一刁難它,看K2 Thinking究竟是否會翻車!(關閉搜索)
測試題一:愛心視覺錯題
這是最近最火的一道視覺測試題,測試模型是否可以看到圖片中的愛心。
目前沒有一個模型回答正確,看K2 Thinking是否能回答正確。
![]()
K2 Thinking同樣沒看出圖片中的愛心圖標,它的回答是“一個圓形的圖案漂浮在背景之上”。
測試題二:數值比較
測試題很簡單,9.11-9.9=?
看這次K2 Thinking能否答對!
![]()
回答正確!并且還很貼心的把計算過程列出來了。
測試題三:數數題
“strawberryrrrrrr"中有幾個字母“r"。
同樣這道題對于我們來說非常簡單,但對大模型的難度可不一般,此前多款頂尖模型拜倒在這道題的石榴裙下。
為了防止之前的題目會訓練過,所有我們在“strawberry”的基礎上,多在了6個“r”。
![]()
依舊回答正確,并且明確指出"strawberry"部分有 3個“r”,后面的"rrrrrr"部分有 6個“r”。
測試題四:竹子過門
一根5米長的竹竿,能不能通過高2米、寬2米的城門?
同樣這道題我們也做了簡單從處理。
![]()
終于,被這道題難到了,不過也很正常,這道題很多模型都回答不出。
下面再來道非常燒腦的邏輯題。
測試題五:愛因斯坦斑馬問題
提示詞:
1、 一條街上有五座不同顏色的房子,每座房子住著不同國籍的人,每個人有不同的職業,喝不同的飲料,養不同的寵物。
2、英國人住在紅色的房子里;
3、西
班牙人養了一條狗;
4、日本人是一個油漆工;
5、意大利人喜歡喝茶;
6、挪威人住在左邊的第一個房子里;
7、綠房子在白房子的右邊;
8、攝影師養了一只蝸牛;
9、外交官住在黃房子里;
10、中間房子里的那個人喜歡喝牛奶;
11、喜歡喝咖啡的人住在綠房子里;
12、挪威人住在藍色的房子旁邊;
13、小提琴家喜歡喝橘子汁;
14、養狐貍的人所住的房子與醫師的房子相鄰;
15、養馬的人所住的房子與外交官的房子相鄰。
先給大家公布正確的答案。
![]()
回答錯誤,再次難倒。
![]()
為了更全面的了解K2 Thinking的能力,我們再來測試幾道編程題。
測試題六:使用 p5.js 創建一個精彩的動畫
整體體驗非常流暢,效果十分不錯。
上上難度,來一個非常經典的編程題。
測試題七:天氣卡片
提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions
基本上提示詞上所有的功能都實現了,而且呈現的動畫效果依舊流暢。
看來難度不夠,最后再來一個非常復雜的游戲編程題。
測試題八:3D打磚游戲
提示詞:
“創建一個完全由鼠標控制的3D打磚塊游戲:
1.使用Three.js構建沉浸式3D場景,包含以下核心組件:可左右滑動的玩家擋板(Paddle):通過鼠標水平移動控制;具備物理屬性的彈跳球體:初始速度適中,碰撞后遵循反射定律;多排彩色懸浮磚塊(Bricks):不同顏色對應不同分值
2.物理效果要求:碰撞檢測:球體與磚塊/擋板/邊界精確碰撞;動態反彈:擋板不同位置碰撞改變球的水平反彈角度;重力模擬:球體運動軌跡呈自然拋物線
3.游戲機制:計分系統:擊碎磚塊實時計分(普通磚=10分,金色磚=50分);生命值:初始3條命,球掉落底部則扣除生命;速度進化:每擊碎10塊磚,球速提升15%
4.視覺特效:磚塊擊碎時觸發粒子爆炸效果;球體運動軌跡添加動態拖尾光效;擋板碰撞時出現環形沖擊波動畫
5.交互增強:實時顯示分數和生命值HUD;游戲結束界面顯示最終得分+重新開始按鈕;添加碰撞音效(使用Web Audio API)”
同樣這次功能都基本實現了,不過也出現些許bug,無法移動到最左側。
看來這次程序員有福了,編程能力辣么強,而且價格又低,簡直就是代替Claude sonnet 4.5的不二之選。
總的來說,K2 Thinking能力確實非常頂,上述的測試題都僅測試了一次,特別是編程題,完成度很高。
大家感興趣的可以去體驗一下,K2 Thinking已上線Kimi啦。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.