這是蒼何的第 475 篇原創!
大家好,我是蒼何。
今天,Kimi 帶著他的最強模型 K2.5 強勢來襲,我也第一時間做了測試,給大家帶來一波分享。
這次,K2.5 是一個全能型的統一模型,最大的特點就是視覺、編程、Agent一口氣全包。
![]()
先來一個省流版預覽,K2.5 模型能力提升如下:
支持多模態理解:Kimi 終于補全了多模態的空白,而且一次性支持圖片+視頻理解。
思考模式切換:同時支持推理和非推理。
前端審美設計能力:個人感覺可以和 Gemini 3 Pro 一戰了。
![]()
基于 K2.5,Kimi 一口氣放出了 4 個產品:
1、開源的 Claude Code——Kimi code:全面支持 Skills,Benchmark 分數高,無需 MCP 即可支持視頻輸入。
![]()
2、Visual Coding:能看圖或視頻復刻網頁,還能做視覺調整,并能一鍵部署。
![]()
3、Agent 集群:智能體軍團,可根據任務創建多達 100 個 Agent 分身,并自主分工協作。
![]()
4、Office Agent:PPT、Word、Excel 審美和設計能力全面提升。
整體測試下來最大的感受是 K2.5 的 coding 能力提升比較明顯,特別是前端審美能力,在一些 case 上甚至還超過 Gemini 3 Pro。
比如,這個是我用 K2.5 一句話復刻的 X 首頁:
![]()
相對比之下,這是我當時同樣的提示詞用 Gemini 3 復刻的 X 頁面:
![]()
可以看到 K2.5 除了復刻頁面的每一個元素,甚至連頁面中的圖片都復刻了,而不是用占位符替代。
我又讓它復刻小紅書首頁,也做的很好。
![]()
因為 K2.5 能理解視頻,我又上傳了一個點擊交互的視頻,K2.5 能理解視頻中的交互,并像人一樣能看清每一個交互后的頁面,然后復刻。這是我復刻的帶有交互的 B 站首頁。

我還測試了個 APP 復刻的場景,直接錄制了一段操作即刻的視頻,然后丟給 K2.5,輸入提示詞:
復刻視頻中的 APP 頁面,包括交互,保證 APP 頁面可用。

可以看到,復刻的挺不錯,視頻中的交互,K2.5 理解后并輸出成了頁面,而且效果相當好,這或許就是 Visual Coding 的魅力所在吧。
然后我又做了個帶有手勢交互的小游戲,需要喚起攝像頭并理解我的手勢,來模擬粒子炸開的效果。
K2.5 一次就完成了這個效果,效果相當棒,而且代碼開發的速度非常快。
我記得當時 Gemini 3 我做過一個做 macos 操作系統的 case,當時挺震撼的,于是我輸入同樣的提示詞給 K2.5。
同樣一次,就出來了這樣一個,很不錯的效果。
真牛逼,而且整個一次性生成,就簡簡單單一個提示詞,整個的 macos 風格的感覺就都出來了。
硅谷閉源模型不再等于性能的天花板,Kimi K2.5提供了更具性價比的選擇。
為了繼續捶打,我又做了個實驗,把架構圖傳過去,希望生成可編輯的版本,K2.5 同樣完成的非常出色。

然后我對 Agent Swarm 模式進行了測試,說的簡單點,這是個 Agent 的軍團,能創建無數個分身來幫扶完成復雜的任務。
我輸入這樣一大串提示詞:
請模擬 5 位風格極度反差的知名藝術家或視覺流派,為當代「打工人」設計 5 個系列、每個系列 10 張的微信表情包。
主題是「職場求生記」,我希望看到的不僅是風格不同,
更是對職場情緒的不同維度的解讀,比如憤怒、焦慮、躺平、假笑和瘋狂可以看到它開始并行調用 5 個 Agent 來幫我生成不同藝術風格的表情包。
![]()
表情包圖片生成的遠比我想象中的快,有智能體軍團并行的效率太高了。
![]()
這些生成的表情包圖片有些確實符合打工人的不同情緒了。
![]()
最后我針對 Kimi code 進行了測試,這就更有意思了,在 cli 中 input 圖片變得如此絲滑,好像還是第一次。
比如我直接把這張圖丟到 cli 終端中,讓 K2.5 做下理解。這個是原圖:
![]()
可以看到把圖片拖到 Kimi Code 后,自動帶出路徑:
![]()
Kimi Code 先是調用 ReadMediaFile 這個讀取圖片和視頻文件的 agent 來理解圖片。
我看了下官方文檔說明,這個 agent 最多能讀取 100MB 大小的文件。
![]()
之后就給我一份詳細的解釋,效果不錯,整個流程,我都沒有調用外部的任何工具,模型自身就具備理解能力,這太舒服了啊。
![]()
同樣將視頻直接丟給 kimi code,也完全能理解。
![]()
然后我利用 remotion-best-practices 這個 skills 以及配音 skills,將剛才的視頻做一下翻譯配音。
這里 skills 有一個分層加載機制,并且會按照以下優先級加載。
![]()
其中 Kimi CLI 內置了 2 個 Skills:
- kimi-cli-help
:Kimi CLI 幫助。解答關于 Kimi CLI 安裝、配置、斜杠命令、鍵盤快捷鍵、MCP 集成、供應商、環境變量等問題。
- skill-creator
:Skill 創建指南。當你需要創建新的 Skill(或更新現有 Skill)來擴展 Kimi 的能力時,可以使用此 Skill 獲取詳細的創建指導和最佳實踐。
最終就出來一個做了中文配音的數字人混剪視頻了,效果還是非常 nice 的。
寫到這里,雖然測的有點累了,不過人還是相當的興奮,就像當初熬夜測 Gemini 3 一樣。
其實一開始 kimi 的 k2 模型在代碼能力上已經表現的相當不錯,還跑通了 obsidian 工作流。
![]()
這次 k2.5 的表現讓人更加振奮,是那種肉眼可見的進步和爽感。
前端審美以及對圖片視頻的理解能力有了很大提升,特別是在 kimi code 中可以絲滑的不借助外力就可以理解圖片和視頻還是非常舒服的。
整體測試下來,k2.5 給我帶來了不少的驚喜,接下來我也會嘗試用它來進行工程化的實踐。
也歡迎持續關注蒼何,你將獲得最新的關于 AI 大模型的一手真實評測。
好啦,感謝你喜歡我的文章,我們下一期見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.