<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      被指又一次DeepSeek時刻,實測kimi K2 Thinking被這幾道題難住了

      0
      分享至

      作者|子川

      來源|AI先鋒官

      日前,月之暗面開源了最新一代大模型Kimi K2 Thinking。

      新模型一經(jīng)推出,好評如潮!

      HuggingFace 聯(lián)合創(chuàng)始人Thomas Wolf 甚至毫不吝嗇的表示,“我們正在見證又一次 DeepSeek 時刻”。


      知名學者Alvin Wang Graylin 也夸贊,其已經(jīng)超越西方的閉源模型。


      為什么此次月之暗面推出的Kimi K2 Thinking這么受歡迎?

      我們接著往下看。

      根據(jù)AI分析機構Artificial Analysis的評估,Kimi K2 Thinking在智能體相關任務中表現(xiàn)非常突出。

      比如,在Artificial Analysis智能指數(shù)中,獲得67分。


      這一成績使其領先于所有的其他開源模型,包括最近發(fā)布的MiniMax-M2和DeepSeek-V3.2-Exp,僅次于GPT-5。

      在智能體工具調用 (2-Bench)測試中,Kimi K2 Thinking得分高達93%,是目前第三方機構測量到的最高分。


      在在Humanity’s Last Exam(人類終極考試)評測中,Kimi K2 Thinking在無工具情況下的得分為22.3%,僅次于GPT-5和Grok 4。


      這成績已經(jīng)不是國產SOTA了,當之無愧又一次的DeepSeek時刻。


      據(jù)介紹, K2 Thinking 的參數(shù)規(guī)模高達萬億。

      但其運行成本仍然很低,其 API 價格是百萬 token 輸入 0.15 美元(緩存命中)/0.6 美元(緩存未命中),每百萬 token 輸出 2.5 美元。


      那K2 Thinking的實際效果到底如何?

      老規(guī)矩,我們實測一番。

      由于現(xiàn)在的模型的能力越來越強,并且有很多變量的存在,簡單的題目已經(jīng)無法測出模型的能力了。

      于是我們決定用歷屆模型經(jīng)常翻車的問題來逐一刁難它,看K2 Thinking究竟是否會翻車!(關閉搜索)

      測試題一:愛心視覺錯題

      這是最近最火的一道視覺測試題,測試模型是否可以看到圖片中的愛心。

      目前沒有一個模型回答正確,看K2 Thinking是否能回答正確。


      K2 Thinking同樣沒看出圖片中的愛心圖標,它的回答是“一個圓形的圖案漂浮在背景之上”。

      測試題二:數(shù)值比較

      測試題很簡單,9.11-9.9=?

      看這次K2 Thinking能否答對!


      回答正確!并且還很貼心的把計算過程列出來了。

      測試題三:數(shù)數(shù)題

      “strawberryrrrrrr"中有幾個字母“r"。

      同樣這道題對于我們來說非常簡單,但對大模型的難度可不一般,此前多款頂尖模型拜倒在這道題的石榴裙下。

      為了防止之前的題目會訓練過,所有我們在“strawberry”的基礎上,多在了6個“r”。


      依舊回答正確,并且明確指出"strawberry"部分有 3個“r”,后面的"rrrrrr"部分有 6個“r”。

      測試題四:竹子過門

      一根5米長的竹竿,能不能通過高2米、寬2米的城門?

      同樣這道題我們也做了簡單從處理。


      終于,被這道題難到了,不過也很正常,這道題很多模型都回答不出。

      下面再來道非常燒腦的邏輯題。

      測試題五:愛因斯坦斑馬問題

      提示詞:

      1、 一條街上有五座不同顏色的房子,每座房子住著不同國籍的人,每個人有不同的職業(yè),喝不同的飲料,養(yǎng)不同的寵物。

      2、英國人住在紅色的房子里;

      3、西

      班牙人養(yǎng)了一條狗;

      4、日本人是一個油漆工;

      5、意大利人喜歡喝茶;

      6、挪威人住在左邊的第一個房子里;

      7、綠房子在白房子的右邊;

      8、攝影師養(yǎng)了一只蝸牛;

      9、外交官住在黃房子里;

      10、中間房子里的那個人喜歡喝牛奶;

      11、喜歡喝咖啡的人住在綠房子里;

      12、挪威人住在藍色的房子旁邊;

      13、小提琴家喜歡喝橘子汁;

      14、養(yǎng)狐貍的人所住的房子與醫(yī)師的房子相鄰;

      15、養(yǎng)馬的人所住的房子與外交官的房子相鄰。

      先給大家公布正確的答案。


      回答錯誤,再次難倒。


      為了更全面的了解K2 Thinking的能力,我們再來測試幾道編程題。

      測試題六:使用 p5.js 創(chuàng)建一個精彩的動畫

      整體體驗非常流暢,效果十分不錯。

      上上難度,來一個非常經(jīng)典的編程題。

      測試題七:天氣卡片

      提示詞:

      Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

      基本上提示詞上所有的功能都實現(xiàn)了,而且呈現(xiàn)的動畫效果依舊流暢。

      看來難度不夠,最后再來一個非常復雜的游戲編程題。

      測試題八:3D打磚游戲

      提示詞:

      “創(chuàng)建一個完全由鼠標控制的3D打磚塊游戲:

      1.使用Three.js構建沉浸式3D場景,包含以下核心組件:可左右滑動的玩家擋板(Paddle):通過鼠標水平移動控制;具備物理屬性的彈跳球體:初始速度適中,碰撞后遵循反射定律;多排彩色懸浮磚塊(Bricks):不同顏色對應不同分值

      2.物理效果要求:碰撞檢測:球體與磚塊/擋板/邊界精確碰撞;動態(tài)反彈:擋板不同位置碰撞改變球的水平反彈角度;重力模擬:球體運動軌跡呈自然拋物線

      3.游戲機制:計分系統(tǒng):擊碎磚塊實時計分(普通磚=10分,金色磚=50分);生命值:初始3條命,球掉落底部則扣除生命;速度進化:每擊碎10塊磚,球速提升15%

      4.視覺特效:磚塊擊碎時觸發(fā)粒子爆炸效果;球體運動軌跡添加動態(tài)拖尾光效;擋板碰撞時出現(xiàn)環(huán)形沖擊波動畫

      5.交互增強:實時顯示分數(shù)和生命值HUD;游戲結束界面顯示最終得分+重新開始按鈕;添加碰撞音效(使用Web Audio API)”

      同樣這次功能都基本實現(xiàn)了,不過也出現(xiàn)些許bug,無法移動到最左側。

      看來這次程序員有福了,編程能力辣么強,而且價格又低,簡直就是代替Claude sonnet 4.5的不二之選。

      總的來說,K2 Thinking能力確實非常頂,上述的測試題都僅測試了一次,特別是編程題,完成度很高。

      大家感興趣的可以去體驗一下,K2 Thinking已上線Kimi啦。

      掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

      往期文章回顧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      車庫法拉利不見,保姆說她兒開去見女兒,我淡定打110報車庫被撬

      車庫法拉利不見,保姆說她兒開去見女兒,我淡定打110報車庫被撬

      奶茶麥子
      2026-03-20 14:04:10
      謝婷婷帶混血兒子回香港,飛機上曬兒子正臉照,長相俊俏像極父親

      謝婷婷帶混血兒子回香港,飛機上曬兒子正臉照,長相俊俏像極父親

      八斗小先生
      2026-03-20 15:59:46
      美宜佳回應假煙事件進展:廣東是此次假煙問題集中區(qū),不存在“自設卷煙廠”,已出臺“四個零容忍”新規(guī),公開承諾假煙“假一賠十”

      美宜佳回應假煙事件進展:廣東是此次假煙問題集中區(qū),不存在“自設卷煙廠”,已出臺“四個零容忍”新規(guī),公開承諾假煙“假一賠十”

      大風新聞
      2026-03-20 20:30:04
      試駕 Model Y “撞壞車門”,賠了特斯拉 14586 元!

      試駕 Model Y “撞壞車門”,賠了特斯拉 14586 元!

      新浪財經(jīng)
      2026-03-20 01:31:01
      伊朗女足球員回國后控訴:澳大利亞警方施壓,逼迫我們說想留下

      伊朗女足球員回國后控訴:澳大利亞警方施壓,逼迫我們說想留下

      塵語者
      2026-03-20 16:45:13
      剛剛,全線跳水!霍爾木茲,大消息!

      剛剛,全線跳水!霍爾木茲,大消息!

      中國基金報
      2026-03-20 19:38:00
      妻子身上莫名散發(fā)腐臭味,連查兩次都指標正常,直到我開她的衣柜

      妻子身上莫名散發(fā)腐臭味,連查兩次都指標正常,直到我開她的衣柜

      古怪奇談錄
      2026-03-21 09:28:13
      熱點|我不撈窮人的錢!我是有良心的!“國產三上老師”被彈幕吐槽是撈女!硬氣回懟!

      熱點|我不撈窮人的錢!我是有良心的!“國產三上老師”被彈幕吐槽是撈女!硬氣回懟!

      TVB的四小花
      2026-03-21 11:57:37
      4786家下跌!小微盤股跌停潮,量化抱團再次瓦解,散戶不再被割了

      4786家下跌!小微盤股跌停潮,量化抱團再次瓦解,散戶不再被割了

      清流財記
      2026-03-21 04:20:03
      伊朗:已成功破解以色列軍隊的安全通信相關代碼

      伊朗:已成功破解以色列軍隊的安全通信相關代碼

      閃電新聞
      2026-03-19 22:01:11
      三亞旅游新規(guī)

      三亞旅游新規(guī)

      三亞發(fā)布
      2026-03-21 10:25:03
      特朗普破防咆哮,盟友集體“叛逃”,中國出手改寫中東棋局

      特朗普破防咆哮,盟友集體“叛逃”,中國出手改寫中東棋局

      門前小溪下
      2026-03-21 11:46:28
      研究發(fā)現(xiàn):就算駕駛每秒一光年的飛船,也飛不到宇宙的邊緣

      研究發(fā)現(xiàn):就算駕駛每秒一光年的飛船,也飛不到宇宙的邊緣

      觀察宇宙
      2026-03-20 18:55:12
      你見過天才嗎?網(wǎng)友:有些領域,努力在天賦面前,一文不值

      你見過天才嗎?網(wǎng)友:有些領域,努力在天賦面前,一文不值

      帶你感受人間冷暖
      2026-03-20 00:47:24
      4個20CM漲停后突然宣布退市,復牌暴跌52%,抄底的股民虧到崩潰

      4個20CM漲停后突然宣布退市,復牌暴跌52%,抄底的股民虧到崩潰

      財經(jīng)智多星
      2026-03-21 07:49:52
      410次開房賬單!南航“捷徑女”從臨時工到副處長,撕開央企遮羞布

      410次開房賬單!南航“捷徑女”從臨時工到副處長,撕開央企遮羞布

      墨印齋
      2025-12-16 19:15:31
      油價暴漲,俄羅斯每天多賺1.5億美元!普京:抓住時機,利用新增收入減輕債務

      油價暴漲,俄羅斯每天多賺1.5億美元!普京:抓住時機,利用新增收入減輕債務

      新浪財經(jīng)
      2026-03-20 20:38:56
      “32G內存漲了約3000元”沖上熱搜,背后到底發(fā)生了什么?

      “32G內存漲了約3000元”沖上熱搜,背后到底發(fā)生了什么?

      穿透
      2026-03-20 16:33:07
      一年流出視頻294部的小寶到底探過多少朵花?

      一年流出視頻294部的小寶到底探過多少朵花?

      挪威森林
      2026-01-25 17:18:42
      汪家反擊了!張?zhí)m律師曝攻擊汪家幕后黑手是許雅鈞 S媽一直在賣慘

      汪家反擊了!張?zhí)m律師曝攻擊汪家幕后黑手是許雅鈞 S媽一直在賣慘

      漫婷侃娛樂
      2026-03-21 08:47:34
      2026-03-21 14:15:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      459文章數(shù) 69關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      81歲老人呼吸衰竭 女兒曾拒絕插管:以為要失去爸爸了

      頭條要聞

      81歲老人呼吸衰竭 女兒曾拒絕插管:以為要失去爸爸了

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      CMG盛典獲獎名單:章子怡高葉同獲影后

      財經(jīng)要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態(tài)度原創(chuàng)

      游戲
      時尚
      藝術
      親子
      家居

      泰國電競丑聞男女主判決出爐!刑期減至3個月拘留

      今年春天一定要擁有“這件衣服”,減齡又好看!

      藝術要聞

      第四屆深圳大芬國際油畫雙年展 | 國際入選油畫選刊(二)

      親子要聞

      十萬火急,產婦在家突發(fā)急產,29 周早產男寶全身發(fā)紫!兒科醫(yī)院早產兒救援與時間賽跑

      家居要聞

      時空交織 空間綺夢

      無障礙瀏覽 進入關懷版