網易首頁 > 網易號 > 正文申請入駐

實測 Kimi K2.5 新版本，一鍵讓一群 AI 來給我打工。

2026-01-28 22:55:12　來源: 差評XPIN

浙江舉報

分享至

現在的 AI 大模型，越來越像是一個許愿機了。

人類想要，人類得到。

不管是讓 AI 寫首小詩，還是讓 AI 來幫我們點個外賣，還是直接做些游戲。。。

大模型能做到的事情越來越多。

甚至可以讓它根據你的需求，直接幫我們定制一個獨一無二的應用出來。

而今天，Kimi 開源的新模型 Kimi 2.5，再次把大模型干活的能力推到了一個全新的高度。

能幫你干活的不再只是單個的 AI agent 智能體，而是一群 Agents。

光看跑分測試就能發現，Kimi 這次更新的模型，完全就是沖著解決 “怎么讓 AI 能更好地干活” 這個問題去的。整個評測指標的設計，也明顯圍繞著實際生產力展開。

不僅在 Agent 測試，也就是模型動手干活的能力測試里全面領先，而且同時在寫代碼、圖片識別、視頻理解這三個方面全面開花，作為一個開源模型，能和 GPT、Claude、Gemini 這些頂尖的閉源模型打個有來有回。

在大模型真刀實槍線上 PVP 的正面戰場 LLMarena 里，Kimi 更是僅次于 Claude 和 Google 這倆老伙計。

而且在成本上還是個傳奇省錢王，Kimi 在跑完分之后，還特意留意了一下，看看這次測試跑分花了多少錢。

結果發現，Kimi在跑分成績和 GPT5.2 差不多的情況下，只花了 GPT 的二十分之一，甚至是五分之一的成本，這還要啥自行車了兄弟們。。。

模型性能與成本對比分析

當然，經常看大模型發布的差友們都知道，跑分僅供參考，實戰才是王道。為了驗驗 Kimi K2.5的成色，世超也是在模型發布的第一時間幫大家來體驗了一波。

先來個簡單的任務試試水，讓 Kimi 來幫我統計一下，B 站上的差評君，在過去一年里發了多少視頻，這些視頻的數據質量如何。

這個任務如果讓人工來做的話難度也不高，無非是需要花點時間，去 B 站上把視頻一個一個搜索，然后把結果一個一個的粘貼到 Excel 表格里。

結果在兩輪對話后，Kimi 就通過寫代碼的方式，成功的把大家去年一年來的工作成功給收集了下來，在數據的準確程度上也沒出啥岔子。

很穩啊，說真的，如果 Kimi 能早一個月發布的話，那世超就不用跨年夜熬夜扒數據，自己手動寫報告了。。。

接下來，世超又測試了一下 Kimi 這回重點宣傳的 Agent Swarm 能力，也就是讓一群 Agent 來幫你一起干活。

畢竟單個 Agent 的能力是有極限的，就和我們人類需要分工合作一樣，AI 在處理復雜任務的時候，為了避免干活干到一半報錯，有時也需要在 AI 和 AI 之間展開合作.

Kimi 官方也在測試中發現：隨著問題越來越復雜，讓 AI 組團處理的效率就越好。

世超也簡單試了一下這個 Agent 集群功能。最近國產 GPU 在大 A 市場不是很火么，那么這些公司到底發展的咋樣？于是就準備讓 Kimi 去盡可能詳細地調研一下這行的發展情況。

結果沒想到 Kimi 在收到了這個任務之后，直接原地給我開了家數據調研公司，拆分出了“市場格局分析師 —— 東坡”、“技術對比專家——李斯特”、“產業鏈研究員——小楊博士”，這一群 Agent 們。

然后再讓這一堆 Agent 分頭行動，從不同的視角收集不同的信息。

等它們都完成了工作后，最后再把這些不同維度的信息來一起做個整合，生成了一份最終的報告。

世超仔細看了一下這份報告，不僅討論了市場規模、行業龍頭、產品的硬實力指標，就連上下游產業線都給分析了一波。光看信息的思考維度和廣度，確實比之前用 GPT 和 Gemini 的 Deep Research 做出來的要更全面，邏輯也更順暢。

而代碼能力就更不用多說了，編程一直是 Kimi 的強項，世超隨便截了個 B 站的主頁丟給它，結果 Kimi 就自己跑回去哼哧哼哧的寫代碼畫圖來做了個七七八八。

世超還看到有朋友給咱們分享了一個他拿 Kimi 做出來的 demo。

這哥們為了讓自己上班摸魚的時候能有點背景音樂，用 Kimi K2.5 搓了個能收聽全球 33 個電臺的網站。

寫出來的代碼審美也很不錯，脫離了 AI 生成代碼時常見的神秘漸變藍紫色模版，不管是太空中緩緩轉動的地球，還是角落的像素風播放器都非常解壓。

最后，我們來點更刺激的測試。到了 2026 年，單純的出題目，測試大模型的代碼能力已經不稀奇了。

于是世超決定同步來測試一下 Kimi K2.5 的多模態能力和代碼能力。

不知道差友們有沒有過這種經歷：在刷短視頻的時候，總能刷到那種看起來特別解壓、邏輯甚至有點“弱智”的廣告小游戲。

但是當你真的點進去的時候，就發現剛才那個解壓小游戲直接不見了。

實際玩的游戲和大家剛才刷到的短視頻不能說是風馬牛不相及吧，只能說是八竿子打不著了。

又上當了。

為了彌補這種被欺騙的遺憾，世超這次決定讓 Kimi 直接把廣告里的游戲給“摳”出來。

自己動手，豐衣足食。

當然，為了給 Kimi 上點強度，我決定不像往常一樣，寫個大幾千字的提示詞來描述這個小游戲應該怎么玩。

反而是直接丟了一個廣告小游戲的視頻給它，讓Kimi 想辦法看視頻，自己來生成能生成這個游戲的提示詞出來。

Kimi 的反應也很快，馬上把視頻給截出來一幀一幀的看，然后拆分出了三個專家來理解這個游戲視頻，給出了一套提示詞。

接下來，我再讓 Kimi 根據這個提示詞來直接生成游戲。

看著這五個 Agent 員工哼哧哼哧工作幾分鐘后，世超就收獲了第一版的復制小游戲。

說實話，這版小游戲的 bug 還是蠻明顯的。跑到一半就消失了的跑道，還有打 Boss 時毫無交互的反饋。。。

還只能支持觸碰操作，甚至你仔細看上面這個 GIF 的話，你會發現鼠標滑動的方向，和小人運動的方向實際上是相反的。

第一次嘗試的結果只能說是能跑，但是跑得不夠完美。

但是好在咱們可以通過和 Agent 的對話來快速的修復這些問題，而且 Kimi 還有個很有趣的設計，大家如果平時喜歡用 AI 寫代碼的話肯定會非常有感覺。

眾所周知，想讓 AI 修改畫面里的特定元素的話，其實是個非常麻煩的事情，你需要準確的描述你要改的元素在哪里，叫什么，長什么樣，不然 AI 可能就會聽不懂你在說什么，開始隨地大小改，亂改一通。

而 Kimi 為了讓大伙能更快的告訴 AI 應該改哪里，直接在它的預覽界面增加了一個截圖的編輯系統，你可以直接把畫面上想改的東西給圈圈畫畫，然后把這些截圖丟給 Kimi 讓它來把 Bug 給修改。

雖然 Kimi 最終能修復這些 Bug，靠的還是自己的圖像識別多模態能力，但是對用戶來說，用平臺自帶的截圖功能顯然會更加方便，修改起來也會更加得心應手。

在要求了 Kimi 修復了小人運動方向、延長了游戲的跑道之后，這個游戲就變成了這樣：

游戲的核心玩法基本被復刻得明明白白，和最開始的視頻相比，差距最大的地方可能就是體現在了美術素材的區別上了。

看著屏幕上那個被我不到半小時就“調教”得服服帖帖的小人兒，世超心里確實有種莫名的成就感。

說實話，從丟過去一段幾十秒的視頻，到最終拿到一個邏輯通順、手感絲滑的小游戲，整個過程我幾乎沒怎么動腦子去想代碼邏輯，更多的是在扮演一個“監工”的角色：發現問題，截圖圈出來，然后看著AI把活兒干完。

總而言之，從信息收集到代碼編程，從 Office 辦公到多 Agent 協同。這次 Kimi 的 K2.5 在解決復雜任務上的表現相當硬核。更關鍵的是，它的使用門檻極低，不僅僅是說上手容易，更是指它的價格便宜。

而且還開源，這種極致的性價比，意味著我們可以毫無顧忌地把繁瑣的工作丟給 AI，而不用擔心 AI 干活干到一半，就直接把我們的錢包給刷爆了。

這讓世超想起楊德昌導演在電影《一一》里那句經典的臺詞：

“電影發明以后，人類的生命，比起以前延長了至少三倍。”

有了電影，我們就能在短短兩個小時里，體驗到別人完整的一生。

而現在，大模型也在做類似的事情。

它不是字面意義上地讓你活得更久，而是讓你在有限的時間里，擁有了三倍、甚至十倍的產出能力。

我們可以把復雜的 Office 操作、枯燥的數據收集、掉頭發的代碼撰寫，都丟給大模型，讓自己直接享受結果，或者去思考更有創造力的事情。

以前因為怕麻煩、怕花錢而不敢嘗試的想法，現在都可以丟給這一群 AI Agent 去試一試。

人類以后只需要學會怎么動嘴就行，剩下的“臟活累活”，就放心交給這個AI項目組吧。

撰文：早起

編輯：江江 && 面線

美編：素描

圖片、資料來源：Kimi 官網

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

錄屏扒代碼、截圖改網頁！Kimi K2.5把「視覺x代碼」玩明白了

量子位 2026-01-28 08:28:15
2 跟貼 2
與阿里、DeepSeek同臺競技，K2.5進化Agent集群，楊植麟為Kimi鎖定系統智能主賽道

每日經濟新聞 2026-01-28 14:11:08
6 跟貼 6

楊植麟為何親自為Kimi站臺？

虎嗅APP 2026-01-29 06:13:04
9 跟貼 9

國產大模型同日轉向：參數競賽結束，工程化時代開啟

雷科技 2026-01-28 21:21:57
0 跟貼 0
Gemini 3「開眼」像素級操控！谷歌回應DeepSeek-OCR2

新智元 2026-01-28 17:51:48
2 跟貼 2

JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力？

機器之心Pro 2025-12-24 14:52:46
0 跟貼 0

10天隨手寫的AI，竟在GitHub狂飆7萬星！「它開口那一刻，我嚇懵了」

新智元 2026-01-28 13:08:59
22 跟貼 22
Meta電話會：推薦系統正在被大模型重寫，沒有智能眼鏡的未來“難以想象”

華爾街見聞官方 2026-01-29 10:28:03
0 跟貼 0

國外流行的小游戲，仔細一看上面的門道，都是我們玩剩下的

快樂發源地 2026-01-28 11:40:36
1 跟貼 1
原來我們就是關稅戰的最大BUG，全世界只有我們頂住了壓力！

包子同學呀 2026-01-25 11:42:12
1 跟貼 1
想用Clawdbot何必搶Mac mini，手把手教你打造最強本地Agent，立省200美元 | 附保姆級教程

愛范兒 2026-01-28 17:58:34
0 跟貼 0
很多人不明白牢A是怎么火的？其實只要代入孔子視角就會一目了然

大又元 2026-01-26 17:23:56
0 跟貼 0
爆款CPA低于0.2美元！TikTok小游戲終于來了

游戲茶館 2026-01-27 19:01:34
1 跟貼 1
東風所過皆為真理之《山河一統2-3》

我是MrSu 2026-01-25 20:26:02
0 跟貼 0
“女子考編第1因學歷重疊政審不合格”最新進展：該崗位已由第2名遞補

極目新聞 2026-01-28 11:38:11
6701 跟貼 6701
跨境電商版Sora發布：全球首個AI原生電商視頻Multi-Agent來了

機器之心Pro 2026-01-27 14:37:00
0 跟貼 0
皇冠跑酷達人死亡騎士魔獸爭霸xiaoy解說LabyRinth soin

魔獸解說xiaoy 2026-01-25 15:50:44
0 跟貼 0
《FF7重制版》總監：女王之血將強化在第三部回歸

3DM游戲 2026-01-28 06:47:06
1 跟貼 1
接親小游戲新花樣，不用手穿上褲衩，可把新郎給難壞了！

幽默發電 2026-01-28 14:09:33
1 跟貼 1
84%程序員用AI寫代碼，Node.js之父：手寫代碼已死 “人類編程時代已經結束了。”Node.j

量子位 2026-01-26 21:07:44
0 跟貼 0
月之暗面三位聯創深夜回應一切！3小時答全球網友23問，楊植麟劇透Kimi K3提升巨大

智東西 2026-01-29 07:00:15
4 跟貼 4
團建小游戲，氣球傳杯子，這氛圍太可樂了！

搞笑笑搞笑 2026-01-27 17:54:48
0 跟貼 0
接親小游戲之嘴傳牌不出意外的出意外了

小火柴視頻 2026-01-28 11:07:59
0 跟貼 0
跟米粉玩個小游戲

恒蘇 2026-01-27 18:15:47
30 跟貼 30
伴郎來接親做小游戲，就這樣水靈靈地親上了

重慶焦點 2026-01-28 17:46:33
0 跟貼 0
婚禮現場小游戲環節，新郎只用了一個圈就套中了，全場歡呼

安全與法 2026-01-28 14:57:01
0 跟貼 0
紅警攜帶核彈頭的天啟是什么實力

愛之初音符 2026-01-27 13:11:04
0 跟貼 0
年度十佳！

蛋蛋秀 2026-01-27 09:08:53
1 跟貼 1
【院線觀察】《翠湖》，像一面鏡子

閃電新聞 2026-01-25 12:41:37
1 跟貼 1
出橙了兄弟們！沒想到P2前的最后一個MC還是讓我破蛋了

我在右 2026-01-26 03:30:15
0 跟貼 0
全球最獨特兵種，只有29人，配特種兵保護，無法培養靠天生

燦若銀爛 2026-01-28 13:55:25
0 跟貼 0
嚴肅版AI編程助手 GitHub星標3k+

量子位 2025-12-08 15:29:06
0 跟貼 0
Claude Code之父，推特親傳使用技巧，超 500 萬人關注

機器之心Pro 2026-01-05 13:26:18
0 跟貼 0
果然爸爸適合帶娃，創意小游戲順便拖地，簡直一舉兩得！

瘋狂的大叔 2026-01-26 08:19:00
0 跟貼 0
開源AI編程工具CoStrict，GitHub星標3K+

量子位 2025-12-09 01:52:08
0 跟貼 0
親子感統小游戲，鍛煉孩子空間感知，就是有點費爹媽！

愛搞笑豬豬女 2026-01-28 14:57:00
0 跟貼 0
開源鴻蒙重寫世界，從一行微小的代碼開始

量子位 2025-12-31 01:50:02
0 跟貼 0
電影《翠湖》：多少中國家庭的面影都映照在這片湖水里

文匯報 2026-01-25 11:32:05
1 跟貼 1
重大利好：時光服MC開啟摸獎模式，大量BOSS可以直接跳過

我在右 2026-01-26 20:58:26
0 跟貼 0
真拿別人當bug卡了啊

肥羅愛追劇 2026-01-26 07:57:20
1 跟貼 1

差評XPIN

用知識和觀點Debug the world！

10199文章數 489419關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

親子

手機

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最正宗的紋飾是什么？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

實測 Kimi K2.5 新版本，一鍵讓一群 AI 來給我打工。

周亞輝的AI新賭局：國內太卷 出海另起爐灶

澤連斯基求見普京 媒體：聽到此消息不免有些驚奇

澤連斯基求見普京 媒體：聽到此消息不免有些驚奇

詹姆斯哭了！騎士視頻致敬41歲超巨

張譯不再隱瞞！公開回應退圈息影真相

黃金價格太高了嗎

預測一下比亞迪“9系”旗艦SUV 「大唐」 風采

態度原創

云游中國｜撥開云霧，巫山每幀都是航拍大片

強烈建議，所有孩子在這個年齡前就開始預防近視！

REDMI Turbo 5系列今晚發布即開售！支持國補

冬天大衣怎么穿才更好看？選好顏色、找對單品，高級簡約又大氣

周亞輝的AI新賭局：國內太卷出海另起爐灶

澤連斯基求見普京媒體：聽到此消息不免有些驚奇

澤連斯基求見普京媒體：聽到此消息不免有些驚奇

預測一下比亞迪“9系”旗艦SUV 「大唐」風采