這是蒼何的第 475 篇原創(chuàng)!
大家好,我是蒼何。
今天,Kimi 帶著他的最強(qiáng)模型 K2.5 強(qiáng)勢來襲,我也第一時間做了測試,給大家?guī)硪徊ǚ窒怼?/p>
這次,K2.5 是一個全能型的統(tǒng)一模型,最大的特點(diǎn)就是視覺、編程、Agent一口氣全包。
![]()
先來一個省流版預(yù)覽,K2.5 模型能力提升如下:
支持多模態(tài)理解:Kimi 終于補(bǔ)全了多模態(tài)的空白,而且一次性支持圖片+視頻理解。
思考模式切換:同時支持推理和非推理。
前端審美設(shè)計(jì)能力:個人感覺可以和 Gemini 3 Pro 一戰(zhàn)了。
![]()
基于 K2.5,Kimi 一口氣放出了 4 個產(chǎn)品:
1、開源的 Claude Code——Kimi code:全面支持 Skills,Benchmark 分?jǐn)?shù)高,無需 MCP 即可支持視頻輸入。
![]()
2、Visual Coding:能看圖或視頻復(fù)刻網(wǎng)頁,還能做視覺調(diào)整,并能一鍵部署。
![]()
3、Agent 集群:智能體軍團(tuán),可根據(jù)任務(wù)創(chuàng)建多達(dá) 100 個 Agent 分身,并自主分工協(xié)作。
![]()
4、Office Agent:PPT、Word、Excel 審美和設(shè)計(jì)能力全面提升。
整體測試下來最大的感受是 K2.5 的 coding 能力提升比較明顯,特別是前端審美能力,在一些 case 上甚至還超過 Gemini 3 Pro。
比如,這個是我用 K2.5 一句話復(fù)刻的 X 首頁:
![]()
相對比之下,這是我當(dāng)時同樣的提示詞用 Gemini 3 復(fù)刻的 X 頁面:
![]()
可以看到 K2.5 除了復(fù)刻頁面的每一個元素,甚至連頁面中的圖片都復(fù)刻了,而不是用占位符替代。
我又讓它復(fù)刻小紅書首頁,也做的很好。
![]()
因?yàn)?K2.5 能理解視頻,我又上傳了一個點(diǎn)擊交互的視頻,K2.5 能理解視頻中的交互,并像人一樣能看清每一個交互后的頁面,然后復(fù)刻。這是我復(fù)刻的帶有交互的 B 站首頁。
![]()
我還測試了個 APP 復(fù)刻的場景,直接錄制了一段操作即刻的視頻,然后丟給 K2.5,輸入提示詞:
復(fù)刻視頻中的 APP 頁面,包括交互,保證 APP 頁面可用。
![]()
可以看到,復(fù)刻的挺不錯,視頻中的交互,K2.5 理解后并輸出成了頁面,而且效果相當(dāng)好,這或許就是 Visual Coding 的魅力所在吧。
然后我又做了個帶有手勢交互的小游戲,需要喚起攝像頭并理解我的手勢,來模擬粒子炸開的效果。
K2.5 一次就完成了這個效果,效果相當(dāng)棒,而且代碼開發(fā)的速度非常快。
我記得當(dāng)時 Gemini 3 我做過一個做 macos 操作系統(tǒng)的 case,當(dāng)時挺震撼的,于是我輸入同樣的提示詞給 K2.5。
同樣一次,就出來了這樣一個,很不錯的效果。
真牛逼,而且整個一次性生成,就簡簡單單一個提示詞,整個的 macos 風(fēng)格的感覺就都出來了。
硅谷閉源模型不再等于性能的天花板,Kimi K2.5提供了更具性價比的選擇。
為了繼續(xù)捶打,我又做了個實(shí)驗(yàn),把架構(gòu)圖傳過去,希望生成可編輯的版本,K2.5 同樣完成的非常出色。
![]()
然后我對 Agent Swarm 模式進(jìn)行了測試,說的簡單點(diǎn),這是個 Agent 的軍團(tuán),能創(chuàng)建無數(shù)個分身來幫扶完成復(fù)雜的任務(wù)。
我輸入這樣一大串提示詞:
請模擬 5 位風(fēng)格極度反差的知名藝術(shù)家或視覺流派,為當(dāng)代「打工人」設(shè)計(jì) 5 個系列、每個系列 10 張的微信表情包。
主題是「職場求生記」,我希望看到的不僅是風(fēng)格不同,
更是對職場情緒的不同維度的解讀,比如憤怒、焦慮、躺平、假笑和瘋狂可以看到它開始并行調(diào)用 5 個 Agent 來幫我生成不同藝術(shù)風(fēng)格的表情包。
![]()
表情包圖片生成的遠(yuǎn)比我想象中的快,有智能體軍團(tuán)并行的效率太高了。
![]()
這些生成的表情包圖片有些確實(shí)符合打工人的不同情緒了。
![]()
最后我針對 Kimi code 進(jìn)行了測試,這就更有意思了,在 cli 中 input 圖片變得如此絲滑,好像還是第一次。
比如我直接把這張圖丟到 cli 終端中,讓 K2.5 做下理解。這個是原圖:
![]()
可以看到把圖片拖到 Kimi Code 后,自動帶出路徑:
![]()
Kimi Code 先是調(diào)用 ReadMediaFile 這個讀取圖片和視頻文件的 agent 來理解圖片。
我看了下官方文檔說明,這個 agent 最多能讀取 100MB 大小的文件。
![]()
之后就給我一份詳細(xì)的解釋,效果不錯,整個流程,我都沒有調(diào)用外部的任何工具,模型自身就具備理解能力,這太舒服了啊。
![]()
同樣將視頻直接丟給 kimi code,也完全能理解。
![]()
然后我利用 remotion-best-practices 這個 skills 以及配音 skills,將剛才的視頻做一下翻譯配音。
這里 skills 有一個分層加載機(jī)制,并且會按照以下優(yōu)先級加載。
![]()
其中 Kimi CLI 內(nèi)置了 2 個 Skills:
- kimi-cli-help
:Kimi CLI 幫助。解答關(guān)于 Kimi CLI 安裝、配置、斜杠命令、鍵盤快捷鍵、MCP 集成、供應(yīng)商、環(huán)境變量等問題。
- skill-creator
:Skill 創(chuàng)建指南。當(dāng)你需要創(chuàng)建新的 Skill(或更新現(xiàn)有 Skill)來擴(kuò)展 Kimi 的能力時,可以使用此 Skill 獲取詳細(xì)的創(chuàng)建指導(dǎo)和最佳實(shí)踐。
最終就出來一個做了中文配音的數(shù)字人混剪視頻了,效果還是非常 nice 的。
寫到這里,雖然測的有點(diǎn)累了,不過人還是相當(dāng)?shù)呐d奮,就像當(dāng)初熬夜測 Gemini 3 一樣。
其實(shí)一開始 kimi 的 k2 模型在代碼能力上已經(jīng)表現(xiàn)的相當(dāng)不錯,還跑通了 obsidian 工作流。
![]()
這次 k2.5 的表現(xiàn)讓人更加振奮,是那種肉眼可見的進(jìn)步和爽感。
前端審美以及對圖片視頻的理解能力有了很大提升,特別是在 kimi code 中可以絲滑的不借助外力就可以理解圖片和視頻還是非常舒服的。
整體測試下來,k2.5 給我?guī)砹瞬簧俚捏@喜,接下來我也會嘗試用它來進(jìn)行工程化的實(shí)踐。
也歡迎持續(xù)關(guān)注蒼何,你將獲得最新的關(guān)于 AI 大模型的一手真實(shí)評測。
好啦,感謝你喜歡我的文章,我們下一期見。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.