
現在的 AI 大模型,越來越像是一個許愿機了。
人類想要,人類得到。
不管是讓 AI 寫首小詩,還是讓 AI 來幫我們點個外賣,還是直接做些游戲。。。
大模型能做到的事情越來越多。
甚至可以讓它根據你的需求,直接幫我們定制一個獨一無二的應用出來。
而今天,Kimi 開源的新模型 Kimi 2.5,再次把大模型干活的能力推到了一個全新的高度。
![]()
能幫你干活的不再只是單個的 AI agent 智能體,而是一群 Agents。
光看跑分測試就能發現,Kimi 這次更新的模型,完全就是沖著解決 “怎么讓 AI 能更好地干活” 這個問題去的。整個評測指標的設計,也明顯圍繞著實際生產力展開。
不僅在 Agent 測試,也就是模型動手干活的能力測試里全面領先,而且同時在寫代碼、圖片識別、視頻理解這三個方面全面開花,作為一個開源模型,能和 GPT、Claude、Gemini 這些頂尖的閉源模型打個有來有回。
![]()
在大模型真刀實槍線上 PVP 的正面戰場 LLMarena 里,Kimi 更是僅次于 Claude 和 Google 這倆老伙計。
![]()
而且在成本上還是個傳奇省錢王,Kimi 在跑完分之后,還特意留意了一下,看看這次測試跑分花了多少錢。
結果發現,Kimi在跑分成績和 GPT5.2 差不多的情況下,只花了 GPT 的二十分之一,甚至是五分之一的成本,這還要啥自行車了兄弟們。。。
模型性能與成本對比分析
![]()
當然,經常看大模型發布的差友們都知道,跑分僅供參考,實戰才是王道。為了驗驗 Kimi K2.5的成色,世超也是在模型發布的第一時間幫大家來體驗了一波。
先來個簡單的任務試試水,讓 Kimi 來幫我統計一下,B 站上的差評君,在過去一年里發了多少視頻,這些視頻的數據質量如何。
這個任務如果讓人工來做的話難度也不高,無非是需要花點時間,去 B 站上把視頻一個一個搜索,然后把結果一個一個的粘貼到 Excel 表格里。
![]()
結果在兩輪對話后,Kimi 就通過寫代碼的方式,成功的把大家去年一年來的工作成功給收集了下來,在數據的準確程度上也沒出啥岔子。
![]()
很穩啊,說真的,如果 Kimi 能早一個月發布的話,那世超就不用跨年夜熬夜扒數據,自己手動寫報告了。。。
接下來,世超又測試了一下 Kimi 這回重點宣傳的 Agent Swarm 能力,也就是讓一群 Agent 來幫你一起干活。
畢竟單個 Agent 的能力是有極限的,就和我們人類需要分工合作一樣,AI 在處理復雜任務的時候,為了避免干活干到一半報錯,有時也需要在 AI 和 AI 之間展開合作.
Kimi 官方也在測試中發現:隨著問題越來越復雜,讓 AI 組團處理的效率就越好。
![]()
世超也簡單試了一下這個 Agent 集群功能。最近國產 GPU 在大 A 市場不是很火么,那么這些公司到底發展的咋樣?于是就準備讓 Kimi 去盡可能詳細地調研一下這行的發展情況。
結果沒想到 Kimi 在收到了這個任務之后,直接原地給我開了家數據調研公司,拆分出了“市場格局分析師 —— 東坡”、“技術對比專家——李斯特”、“產業鏈研究員——小楊博士”,這一群 Agent 們。
![]()
然后再讓這一堆 Agent 分頭行動,從不同的視角收集不同的信息。
![]()
等它們都完成了工作后,最后再把這些不同維度的信息來一起做個整合,生成了一份最終的報告。

世超仔細看了一下這份報告,不僅討論了市場規模、行業龍頭、產品的硬實力指標,就連上下游產業線都給分析了一波。光看信息的思考維度和廣度,確實比之前用 GPT 和 Gemini 的 Deep Research 做出來的要更全面,邏輯也更順暢。
![]()
而代碼能力就更不用多說了,編程一直是 Kimi 的強項,世超隨便截了個 B 站的主頁丟給它,結果 Kimi 就自己跑回去哼哧哼哧的寫代碼畫圖來做了個七七八八。
![]()
![]()
世超還看到有朋友給咱們分享了一個他拿 Kimi 做出來的 demo。
這哥們為了讓自己上班摸魚的時候能有點背景音樂,用 Kimi K2.5 搓了個能收聽全球 33 個電臺的網站。
寫出來的代碼審美也很不錯,脫離了 AI 生成代碼時常見的神秘漸變藍紫色模版,不管是太空中緩緩轉動的地球,還是角落的像素風播放器都非常解壓。

最后,我們來點更刺激的測試。到了 2026 年,單純的出題目,測試大模型的代碼能力已經不稀奇了。
于是世超決定同步來測試一下 Kimi K2.5 的多模態能力和代碼能力。
不知道差友們有沒有過這種經歷:在刷短視頻的時候,總能刷到那種看起來特別解壓、邏輯甚至有點“弱智”的廣告小游戲。

但是當你真的點進去的時候,就發現剛才那個解壓小游戲直接不見了。
實際玩的游戲和大家剛才刷到的短視頻不能說是風馬牛不相及吧,只能說是八竿子打不著了。
又上當了。
為了彌補這種被欺騙的遺憾,世超這次決定讓 Kimi 直接把廣告里的游戲給“摳”出來。
自己動手,豐衣足食。
當然,為了給 Kimi 上點強度,我決定不像往常一樣,寫個大幾千字的提示詞來描述這個小游戲應該怎么玩。
反而是直接丟了一個廣告小游戲的視頻給它,讓Kimi 想辦法看視頻,自己來生成能生成這個游戲的提示詞出來。
Kimi 的反應也很快,馬上把視頻給截出來一幀一幀的看,然后拆分出了三個專家來理解這個游戲視頻,給出了一套提示詞。
![]()
接下來,我再讓 Kimi 根據這個提示詞來直接生成游戲。
![]()
看著這五個 Agent 員工哼哧哼哧工作幾分鐘后,世超就收獲了第一版的復制小游戲。

說實話,這版小游戲的 bug 還是蠻明顯的。跑到一半就消失了的跑道,還有打 Boss 時毫無交互的反饋。。。
還只能支持觸碰操作,甚至你仔細看上面這個 GIF 的話,你會發現鼠標滑動的方向,和小人運動的方向實際上是相反的。
第一次嘗試的結果只能說是能跑,但是跑得不夠完美。
但是好在咱們可以通過和 Agent 的對話來快速的修復這些問題,而且 Kimi 還有個很有趣的設計,大家如果平時喜歡用 AI 寫代碼的話肯定會非常有感覺。
眾所周知,想讓 AI 修改畫面里的特定元素的話,其實是個非常麻煩的事情,你需要準確的描述你要改的元素在哪里,叫什么,長什么樣,不然 AI 可能就會聽不懂你在說什么,開始隨地大小改,亂改一通。
而 Kimi 為了讓大伙能更快的告訴 AI 應該改哪里,直接在它的預覽界面增加了一個截圖的編輯系統,你可以直接把畫面上想改的東西給圈圈畫畫,然后把這些截圖丟給 Kimi 讓它來把 Bug 給修改。
![]()
雖然 Kimi 最終能修復這些 Bug,靠的還是自己的圖像識別多模態能力,但是對用戶來說,用平臺自帶的截圖功能顯然會更加方便,修改起來也會更加得心應手。
在要求了 Kimi 修復了小人運動方向、延長了游戲的跑道之后,這個游戲就變成了這樣:

游戲的核心玩法基本被復刻得明明白白,和最開始的視頻相比,差距最大的地方可能就是體現在了美術素材的區別上了。
看著屏幕上那個被我不到半小時就“調教”得服服帖帖的小人兒,世超心里確實有種莫名的成就感。
說實話,從丟過去一段幾十秒的視頻,到最終拿到一個邏輯通順、手感絲滑的小游戲,整個過程我幾乎沒怎么動腦子去想代碼邏輯,更多的是在扮演一個“監工”的角色:發現問題,截圖圈出來,然后看著AI把活兒干完。
總而言之,從信息收集到代碼編程,從 Office 辦公到多 Agent 協同。這次 Kimi 的 K2.5 在解決復雜任務上的表現相當硬核。更關鍵的是,它的使用門檻極低,不僅僅是說上手容易,更是指它的價格便宜。
而且還開源,這種極致的性價比,意味著我們可以毫無顧忌地把繁瑣的工作丟給 AI,而不用擔心 AI 干活干到一半,就直接把我們的錢包給刷爆了。
這讓世超想起楊德昌導演在電影《一一》里那句經典的臺詞:
“電影發明以后,人類的生命,比起以前延長了至少三倍。”
![]()
有了電影,我們就能在短短兩個小時里,體驗到別人完整的一生。
而現在,大模型也在做類似的事情。
它不是字面意義上地讓你活得更久,而是讓你在有限的時間里,擁有了三倍、甚至十倍的產出能力。
我們可以把復雜的 Office 操作、枯燥的數據收集、掉頭發的代碼撰寫,都丟給大模型,讓自己直接享受結果,或者去思考更有創造力的事情。
以前因為怕麻煩、怕花錢而不敢嘗試的想法,現在都可以丟給這一群 AI Agent 去試一試。
人類以后只需要學會怎么動嘴就行,剩下的“臟活累活”,就放心交給這個AI項目組吧。
撰文: 早起
編輯: 江江 && 面線
美編: 素描
圖片、資料來源:Kimi 官網
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.