<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      被指又一次DeepSeek時刻,實測kimi K2 Thinking被這幾道題難住了

      0
      分享至

      作者|子川

      來源|AI先鋒官

      日前,月之暗面開源了最新一代大模型Kimi K2 Thinking。

      新模型一經推出,好評如潮!

      HuggingFace 聯合創始人Thomas Wolf 甚至毫不吝嗇的表示,“我們正在見證又一次 DeepSeek 時刻”。


      知名學者Alvin Wang Graylin 也夸贊,其已經超越西方的閉源模型。


      為什么此次月之暗面推出的Kimi K2 Thinking這么受歡迎?

      我們接著往下看。

      根據AI分析機構Artificial Analysis的評估,Kimi K2 Thinking在智能體相關任務中表現非常突出。

      比如,在Artificial Analysis智能指數中,獲得67分。


      這一成績使其領先于所有的其他開源模型,包括最近發布的MiniMax-M2和DeepSeek-V3.2-Exp,僅次于GPT-5。

      在智能體工具調用 (2-Bench)測試中,Kimi K2 Thinking得分高達93%,是目前第三方機構測量到的最高分。


      在在Humanity’s Last Exam(人類終極考試)評測中,Kimi K2 Thinking在無工具情況下的得分為22.3%,僅次于GPT-5和Grok 4。


      這成績已經不是國產SOTA了,當之無愧又一次的DeepSeek時刻。


      據介紹, K2 Thinking 的參數規模高達萬億。

      但其運行成本仍然很低,其 API 價格是百萬 token 輸入 0.15 美元(緩存命中)/0.6 美元(緩存未命中),每百萬 token 輸出 2.5 美元。


      那K2 Thinking的實際效果到底如何?

      老規矩,我們實測一番。

      由于現在的模型的能力越來越強,并且有很多變量的存在,簡單的題目已經無法測出模型的能力了。

      于是我們決定用歷屆模型經常翻車的問題來逐一刁難它,看K2 Thinking究竟是否會翻車!(關閉搜索)

      測試題一:愛心視覺錯題

      這是最近最火的一道視覺測試題,測試模型是否可以看到圖片中的愛心。

      目前沒有一個模型回答正確,看K2 Thinking是否能回答正確。


      K2 Thinking同樣沒看出圖片中的愛心圖標,它的回答是“一個圓形的圖案漂浮在背景之上”。

      測試題二:數值比較

      測試題很簡單,9.11-9.9=?

      看這次K2 Thinking能否答對!


      回答正確!并且還很貼心的把計算過程列出來了。

      測試題三:數數題

      “strawberryrrrrrr"中有幾個字母“r"。

      同樣這道題對于我們來說非常簡單,但對大模型的難度可不一般,此前多款頂尖模型拜倒在這道題的石榴裙下。

      為了防止之前的題目會訓練過,所有我們在“strawberry”的基礎上,多在了6個“r”。


      依舊回答正確,并且明確指出"strawberry"部分有 3個“r”,后面的"rrrrrr"部分有 6個“r”。

      測試題四:竹子過門

      一根5米長的竹竿,能不能通過高2米、寬2米的城門?

      同樣這道題我們也做了簡單從處理。


      終于,被這道題難到了,不過也很正常,這道題很多模型都回答不出。

      下面再來道非常燒腦的邏輯題。

      測試題五:愛因斯坦斑馬問題

      提示詞:

      1、 一條街上有五座不同顏色的房子,每座房子住著不同國籍的人,每個人有不同的職業,喝不同的飲料,養不同的寵物。

      2、英國人住在紅色的房子里;

      3、西

      班牙人養了一條狗;

      4、日本人是一個油漆工;

      5、意大利人喜歡喝茶;

      6、挪威人住在左邊的第一個房子里;

      7、綠房子在白房子的右邊;

      8、攝影師養了一只蝸牛;

      9、外交官住在黃房子里;

      10、中間房子里的那個人喜歡喝牛奶;

      11、喜歡喝咖啡的人住在綠房子里;

      12、挪威人住在藍色的房子旁邊;

      13、小提琴家喜歡喝橘子汁;

      14、養狐貍的人所住的房子與醫師的房子相鄰;

      15、養馬的人所住的房子與外交官的房子相鄰。

      先給大家公布正確的答案。


      回答錯誤,再次難倒。


      為了更全面的了解K2 Thinking的能力,我們再來測試幾道編程題。

      測試題六:使用 p5.js 創建一個精彩的動畫

      整體體驗非常流暢,效果十分不錯。

      上上難度,來一個非常經典的編程題。

      測試題七:天氣卡片

      提示詞:

      Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

      基本上提示詞上所有的功能都實現了,而且呈現的動畫效果依舊流暢。

      看來難度不夠,最后再來一個非常復雜的游戲編程題。

      測試題八:3D打磚游戲

      提示詞:

      “創建一個完全由鼠標控制的3D打磚塊游戲:

      1.使用Three.js構建沉浸式3D場景,包含以下核心組件:可左右滑動的玩家擋板(Paddle):通過鼠標水平移動控制;具備物理屬性的彈跳球體:初始速度適中,碰撞后遵循反射定律;多排彩色懸浮磚塊(Bricks):不同顏色對應不同分值

      2.物理效果要求:碰撞檢測:球體與磚塊/擋板/邊界精確碰撞;動態反彈:擋板不同位置碰撞改變球的水平反彈角度;重力模擬:球體運動軌跡呈自然拋物線

      3.游戲機制:計分系統:擊碎磚塊實時計分(普通磚=10分,金色磚=50分);生命值:初始3條命,球掉落底部則扣除生命;速度進化:每擊碎10塊磚,球速提升15%

      4.視覺特效:磚塊擊碎時觸發粒子爆炸效果;球體運動軌跡添加動態拖尾光效;擋板碰撞時出現環形沖擊波動畫

      5.交互增強:實時顯示分數和生命值HUD;游戲結束界面顯示最終得分+重新開始按鈕;添加碰撞音效(使用Web Audio API)”

      同樣這次功能都基本實現了,不過也出現些許bug,無法移動到最左側。

      看來這次程序員有福了,編程能力辣么強,而且價格又低,簡直就是代替Claude sonnet 4.5的不二之選。

      總的來說,K2 Thinking能力確實非常頂,上述的測試題都僅測試了一次,特別是編程題,完成度很高。

      大家感興趣的可以去體驗一下,K2 Thinking已上線Kimi啦。

      掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

      往期文章回顧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      打虎!包惠被查

      打虎!包惠被查

      新京報
      2026-01-27 18:32:14
      重鑄業界榮光,()輩義不容辭

      重鑄業界榮光,()輩義不容辭

      貴圈真亂
      2026-01-27 12:04:05
      自殺學生的父母職業分布,排在第一名的竟是……

      自殺學生的父母職業分布,排在第一名的竟是……

      心理提升課堂
      2026-01-27 09:32:01
      特朗普通告全球,將對法國加稅200%,不到24小時,馬克龍喊話中國

      特朗普通告全球,將對法國加稅200%,不到24小時,馬克龍喊話中國

      法老不說教
      2026-01-26 23:14:58
      印度暴發疫情詳情披露:護士或誤飲蝙蝠污染的椰棗汁,傳染同事,均現高燒和呼吸困難!張文宏發聲→

      印度暴發疫情詳情披露:護士或誤飲蝙蝠污染的椰棗汁,傳染同事,均現高燒和呼吸困難!張文宏發聲→

      大風新聞
      2026-01-27 09:50:04
      身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆天團來了

      身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆天團來了

      泠泠說史
      2026-01-26 14:19:11
      袁世凱稱帝迷局:他已是大總統,為何非要拼上身家,換一件龍袍?

      袁世凱稱帝迷局:他已是大總統,為何非要拼上身家,換一件龍袍?

      小豫講故事
      2026-01-27 06:00:04
      太敢說!特朗普語出驚人:十年后我就不在了,天堂都不收我!

      太敢說!特朗普語出驚人:十年后我就不在了,天堂都不收我!

      知法而形
      2026-01-27 16:52:59
      安以軒老公被抓3年后首露臉!模樣大變老到認不出,素顏聚餐像大媽

      安以軒老公被抓3年后首露臉!模樣大變老到認不出,素顏聚餐像大媽

      八星人
      2026-01-27 14:12:34
      傷腎名列前茅,有些人天天在做!

      傷腎名列前茅,有些人天天在做!

      掌上腎醫
      2026-01-27 18:08:43
      被核武轟炸45次,羅布泊本該寸草不生,結果卻成世界最大鉀肥基地

      被核武轟炸45次,羅布泊本該寸草不生,結果卻成世界最大鉀肥基地

      鑒史錄
      2026-01-23 12:12:32
      被官媒“點名”后,一言不發的郭晶晶,終不再顧及豪門所謂的體面

      被官媒“點名”后,一言不發的郭晶晶,終不再顧及豪門所謂的體面

      攬星河的筆記
      2026-01-26 16:04:54
      阿爾沙文:沒想到皇馬只落后巴薩1分,希望阿韋洛亞遭遇失敗

      阿爾沙文:沒想到皇馬只落后巴薩1分,希望阿韋洛亞遭遇失敗

      懂球帝
      2026-01-27 21:08:06
      “后坐力”太大!閆學晶又被爆出猛料,她和兒子已經一個也跑不了

      “后坐力”太大!閆學晶又被爆出猛料,她和兒子已經一個也跑不了

      來科點譜
      2026-01-22 08:53:11
      美國芝加哥出現負電價

      美國芝加哥出現負電價

      每日經濟新聞
      2026-01-27 13:41:01
      陳光標怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

      陳光標怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

      奇思妙想草葉君
      2026-01-25 23:58:08
      “把這種視頻發網上,真是好媽”,女兒的尊嚴被扒的一絲不剩

      “把這種視頻發網上,真是好媽”,女兒的尊嚴被扒的一絲不剩

      蝴蝶花雨話教育
      2026-01-26 12:05:11
      原來她已離世26年!23歲登春晚一夜成名,卻因一個巴掌付出生命

      原來她已離世26年!23歲登春晚一夜成名,卻因一個巴掌付出生命

      法老不說教
      2025-12-24 12:22:51
      男子賣400克金條借給朋友14萬,金價大漲后要求按黃金現值還30萬,法院駁回:以實際交付為準

      男子賣400克金條借給朋友14萬,金價大漲后要求按黃金現值還30萬,法院駁回:以實際交付為準

      極目新聞
      2026-01-27 21:50:30
      貝克漢姆家齊聚巴黎!被問起大布全體冷漠,15歲小七胖成兩個貝嫂

      貝克漢姆家齊聚巴黎!被問起大布全體冷漠,15歲小七胖成兩個貝嫂

      李健政觀察
      2026-01-27 09:46:07
      2026-01-27 23:43:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      421文章數 40關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      藝術
      家居
      游戲
      房產
      健康

      藝術要聞

      日本東京國立博物館中的100幅宋畫

      家居要聞

      現代古典 中性又顯韻味

      《生化危機9》注定能成功!避開了開放世界的坑

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      耳石脫落為何讓人天旋地轉+惡心?

      無障礙瀏覽 進入關懷版