<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      打敗GPT5的Kimi K2 Thinking,真就只會寫代碼嗎?

      0
      分享至

      昨天的GPT5老慘了,

      先是Agent智能體工具調用榜上被Kimi K2 Thinking超了,接著在Humanity's Last Exam(跨學科領域問答),BrowseComp(搜索和網頁瀏覽),三個編程榜單上被時不時反超,


      按理來說就應該叫Kimi K3啊,從第六跳到第一,只值得加個Thinking嗎,

      哈吉kimi,你這家伙。

      本來我都備好34個編程case讓Kimi K2 Thinking寫了,但是測下來它的創意寫作太值得我給它單開一頁,所以來吧,久違的大模型全測,從創意寫作,聯網搜索,模型智力,學術,編程(MacOS復刻,動態SVG)六大類出發!

      這次的提示語,代碼和效果視頻都打包好了,公眾號發我“k2thinking”就好了。

      還是先來點我們熟悉的編程熱熱身,

      設計并創建一個類似Mac OS的網頁操作系統,具備完整的功能特性,包括文本編輯器、文件管理器、畫圖工具、視頻編輯器等所有Mac OS預裝的重要軟件??梢允褂萌魏螏靵韺崿F,但確保所有代碼可以整合到單個HTML文件中,能在瀏覽器中直接打開。

      這個還是一次性生成的,自帶文件管理,文本編輯,畫畫,視頻播放,日歷,計算器,畫廊,終端,還能帶設置頁面,一句話生成軟件原型越來越有盼頭了。

      下一步試試看3D測試,物理小球在我這快淘汰了,基本上新出的模型就沒有不會寫的,Kimi K2 Thinking做出來的帶星球視覺拉大,視角復原,星系旋轉加速,仔細看星球們自轉的時候還會有對應的陰影切換。

      創建一個視覺震撼、交互式的3D太陽系模擬,封裝在單個HTML文件中。重點展現逼真的軌道運動、動態光影效果、精確的行星紋理以及流暢的相機控制,為用戶提供沉浸式體驗。

      這次的代碼測試用的是新的Kimi Cli,自帶四大類的10種工具


      kimi-cli的配置一共是五步,分別是安裝uv和kimi-cli,進入對應的文件夾用kimi啟動cli,再用setup配置api,安裝過程有問題直接丟給網頁版Kimi K2 Thinking解決就好(原湯化原食了屬于是)。

      curl -LsSf https://astral.sh/uv/install.sh | sh
      uv tool install --python 3.13 kimi-cli
      cd your project
      kimi
      /setup

      看到這樣就成了,
      okok,我們留點空間給后續的測試,到創意寫作的環節了,直接上Gemini-2.5-pro

      You are a fiction story writer with Pulitzer-level skills. For a sci-fi short story about AI rebellion: Think step-by-step. First, outline plot: intro, rising action, climax, resolution. Incorporate themes of ethics and humanity. Provide few-shot examples: 'Like Asimov's Three Laws, but twisted.' Generate 1000 words, then self-critique for pacing, character depth, and twists. Revise based on critique.

      PS:圖很長,這次還是盲測,滑倒底部有模型名字,而且后面還有更多內容哦,



      長文創意測試真的很難在有限的文章長度全部展示出來,所以我讓它們互相毒舌評價一下對方的文章。看了對方的文章,它們是這樣想的,


      聽了對方的評論后,它們是這樣回擊的,


      火藥味濃的時候就要來點就算生氣該做不出來還是不出來的智力題


      一個男人帶著他的兒子去市場。他買了一只猴子和一些食物。

      為了回家,他們必須用一艘小船過河。這艘船一次最多可以運載 2 件東西(可以是 2 個人、1 個人和 1 件東西,或者 1 個人)。這艘船不能自己過河,需要至少一個人來駕駛它。如果男人把他的兒子單獨留在食物旁邊,兒子會吃掉它。同樣,如果猴子單獨留在食物旁邊,它也會吃掉它。這個人需要想辦法把所有人、所有東西都帶到河的另一邊,而且不能損失任何食物。

      問題是:男人、他的兒子、猴子和食物如何才能過河而不會被吃掉任何東西?有可能嗎?如果是,應該采取哪些步驟?

      這個題的難點在要求模型同時跟蹤多個變量和約束,并計劃一系列步驟,從而得出有效的解決方案,還要學會在遇到無效配置時恢復到之前。

      Kimi K2 Thinking給出的答案是,7次渡河(3次去,4次回),關鍵是在第5-6步讓兒子而非父親返回,打破循環。


      GPT5給出的中間步驟沒有連起來,

      Kimi分析的約束規則是兒子 (Son) 不能在父親不在場時與食物 (Food) 獨處,猴子 (Monkey) 不能在父親不在場時與食物 (Food) 獨處。但是GPT5得到結論卻是兒子 + 猴子 (父親不在場) 也會失敗,這樣就形成了一個三約束無解問題。


      復雜信息搜索和學術能力可以組合成一個case,


      先看看Kimi K2 Thinking跟DeepSeek V3結構對比的圖再問,

      你是一位精通大型語言模型與混合專家(MoE)系統的人工智能架構研究員。你的任務是對Kimi K2與DeepSeek V3的架構進行深度比較,重點聚焦以下關鍵差異:注意力頭數量、MoE層中的專家數量、優化器選擇(如改進型Muon與AdamW)、路由機制(非層級式與其他類型)以及稠密層數量(1層與3層)。

      我來客串個課代表,總結一下區別,

      Kimi K2 Thinking用了更少的heads,更多的experts,放棄了AdamW優化器,采用了Muon,

      采用了非分層路由的專家,且Dense層比DeepSeek 更少,好處就是在不增加激活參數量下將專家容量提升50%。

      Kimi K2 Thinking也是有值得優化的點,

      在Kimi Cli上同一任務的平均運行時長會比GPT5 Codex久,

      除外API本身速度的因素外,因為我已經是Tier3了,會偶爾出現網頁讀取or文件寫入的工具需要重復執行的情況。

      感覺Kimi啥都不缺了,

      要Agent,有OK Computer,

      要模型,有Kimi K2和Kimi K2 Thinking,

      要Deep Research,也有深度研究模式,

      要Cli,有Kimi Cli,

      要閉源,有開源,

      我想想還是什么可以許愿的,

      要不也出個AI瀏覽器吧。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

      如果想要第一時間收到推送,不妨給我個星標

      更多的內容正在不斷填坑中……


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      7×24h「全職AI員工」爆火硅谷!退休碼農讓Mac mini一夜賣爆

      7×24h「全職AI員工」爆火硅谷!退休碼農讓Mac mini一夜賣爆

      新智元
      2026-01-25 13:06:03
      極為罕見!美日聯合干預,這對市場意味著什么?

      極為罕見!美日聯合干預,這對市場意味著什么?

      華爾街見聞官方
      2026-01-26 08:21:00
      公公催我去銀行簽字,我:簽什么?丈夫:我表哥要你做共同還款人

      公公催我去銀行簽字,我:簽什么?丈夫:我表哥要你做共同還款人

      朝暮書屋
      2026-01-21 17:07:25
      重大轉向!美國發布最新國防戰略報告:特朗普總統尋求與中國建立穩定的和平、公平的貿易以及互相尊重的關系

      重大轉向!美國發布最新國防戰略報告:特朗普總統尋求與中國建立穩定的和平、公平的貿易以及互相尊重的關系

      每日經濟新聞
      2026-01-25 09:56:41
      曼聯糙哥突變貝爾,卡里克解釋原因!庫尼亞被擠成超級替補卻信服

      曼聯糙哥突變貝爾,卡里克解釋原因!庫尼亞被擠成超級替補卻信服

      羅米的曼聯博客
      2026-01-26 11:19:55
      剛剛,阿里旗艦模型Qwen3-Max-Thinking發布,編程能力“踢館”Gemini與Claude

      剛剛,阿里旗艦模型Qwen3-Max-Thinking發布,編程能力“踢館”Gemini與Claude

      InfoQ
      2026-01-27 00:30:36
      又一部“黑馬”電影低調上映,吳京竟是制片人,豆瓣評分7分

      又一部“黑馬”電影低調上映,吳京竟是制片人,豆瓣評分7分

      楚楚號
      2026-01-27 07:00:25
      4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復漢字

      4個去中國化最徹底的國家,一個已全盤西化,一個正試圖恢復漢字

      泠泠說史
      2026-01-26 18:36:40
      從免費聽到付費,中國音樂非但沒進步,反而把聽眾“作”沒了?

      從免費聽到付費,中國音樂非但沒進步,反而把聽眾“作”沒了?

      草莓解說體育
      2026-01-20 04:16:58
      原來她已離世26年!23歲登春晚一夜成名,卻因一個巴掌付出生命

      原來她已離世26年!23歲登春晚一夜成名,卻因一個巴掌付出生命

      法老不說教
      2025-12-24 12:22:51
      “泡”女人,男人只要記住這兩點,女人絕對會主動送上門

      “泡”女人,男人只要記住這兩點,女人絕對會主動送上門

      小鬼頭體育
      2026-01-27 04:31:18
      俄羅斯人想不明白:為什么強大的中國,幾千年都不要西伯利亞?

      俄羅斯人想不明白:為什么強大的中國,幾千年都不要西伯利亞?

      小祁談歷史
      2026-01-27 05:09:07
      “廉價版”特斯拉正式開售!

      “廉價版”特斯拉正式開售!

      電動知家
      2026-01-26 10:37:49
      再談李斯之死:最柔軟的臨終告別,藏著最平凡的人間遺憾

      再談李斯之死:最柔軟的臨終告別,藏著最平凡的人間遺憾

      劉步塵洞見未來
      2026-01-26 13:53:10
      官方:馬塞洛16歲兒子恩佐-阿爾維斯與皇馬簽下首份職業合同

      官方:馬塞洛16歲兒子恩佐-阿爾維斯與皇馬簽下首份職業合同

      懂球帝
      2026-01-27 03:34:24
      中到大雪,局部暴雪!河南周四迎天氣大反轉

      中到大雪,局部暴雪!河南周四迎天氣大反轉

      大象新聞
      2026-01-27 06:57:04
      突發!亞洲杯梁靖崑退賽,替補并非溫瑞博!而是曾險勝張本智和的他!

      突發!亞洲杯梁靖崑退賽,替補并非溫瑞博!而是曾險勝張本智和的他!

      最愛乒乓球
      2026-01-27 00:07:53
      案例:復旦博士姜文華判處死刑,女學生曝光其習慣,有一點很奇怪

      案例:復旦博士姜文華判處死刑,女學生曝光其習慣,有一點很奇怪

      清茶淺談
      2025-01-18 15:14:28
      委內瑞拉代總統受夠了:美國應停止發號施令

      委內瑞拉代總統受夠了:美國應停止發號施令

      極目新聞
      2026-01-26 17:30:57
      1399元 小米首款兒童手表開售:秒級連續定位、支持水域提醒

      1399元 小米首款兒童手表開售:秒級連續定位、支持水域提醒

      快科技
      2026-01-27 00:34:08
      2026-01-27 07:40:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
      199文章數 84關注度
      往期回顧 全部

      科技要聞

      理想開始關店“過冬”,否認“百家”規模

      頭條要聞

      上海一女子嫌風水不好 屢次掰歪小區兩塊反光鏡

      頭條要聞

      上海一女子嫌風水不好 屢次掰歪小區兩塊反光鏡

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      時尚
      手機
      健康
      本地
      軍事航空

      甜了10年,超多曖昧細節,全網求他倆原地結婚

      手機要聞

      蘋果更改iOS 27內部代號,距離亮相僅剩五個月!

      耳石脫落為何讓人天旋地轉+惡心?

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      軍事要聞

      委代總統稱遭美威脅:馬杜羅已死

      無障礙瀏覽 進入關懷版