前幾天,Kimi的朋友神秘兮兮地說:衛老師,我們準備發最新的Kimi K2.5了,來測一測?
說實話,這個年底的確很熱鬧,各家都在整新東西,可惜我一直沒抽出時間,直到今天他們上線了我才開始跑case。
下面咱們就不緊不慢來看一看這些有意思的case以及我個人的幾點思考——
一
在實測之前,我們先來了解一下Kimi K2.5最基本的信息——
它采用原生的多模態架構設計,同時支持視覺與文本輸入、思考與非思考模式、對話與Agent任務,通過約15T混合視覺和文本token進行的預訓練。
來,先跑個分——
![]()
可以看到它在 Agent、代碼、圖像、視頻及一系列通用智能任務上取得開源SOTA的表現。
具體而言,在包括HLE、BrowseComp和DeepSearchQA在內的多個極具挑戰性的Agent評測中取得了最佳表現,部分指標超越了最前沿的閉源模型。
這些領先的Agentic的能力讓它可以從容面對復雜任務,KIMIK2.5驅動的Agent集群,能同時調度多達100個Agent分身,并行處理1500個步驟。
在正式的實測之前,我們先來看月之暗面的CEO楊植麟自己的介紹視頻——
二
視覺提升是這次的關鍵。
按官方的說話,Kimi K2.5是一個全能型的統一模型(Unified Model),實現了視覺與文本的統一:
它不再需要外掛插件來看圖,而是天生具備視覺能力,理解圖片和視頻就像閱讀文字一樣自然。
廢話少說,我們還是來一個我之前試過的谷歌DeepMind紀錄片《The Thinking Game》里哈薩比斯結尾的國際象棋case。
我照例上傳了前幾天我和我女兒下的雙馬防御的照片——
![]()
可以看到,面對這張意大利開局盤面,K2.5沒掉鏈子。
一眼認出這是雙馬防御的經典局面,直接給出了Ng5的答案:馬跳g5猛攻f7弱點。
這屬于弗里德里希攻擊的起手式,選點很精準。
![]()
而且它把道理也講得很明白:f7是黑方王前最軟的格子,只有王在保護,后續還列出了Nxf7棄馬后的連續步驟,說明它理解這個開局的套路,不是瞎蒙。
整個過程反應快,視覺識別很準確,沒把棋子位置認錯,對于國際象棋初學者,這種一眼看穿的能力夠用了。
就這個case來說,Kimi K2.5的視覺識別和推理能力,看得懂、答得準。
我再給它一張我在宜家買的椅子,讓它指導我怎么安裝——
![]()
可以看到,K2.5把這張椅子零件圖吃得挺準:一掃就認出是椅子套件,靠背、前后腿、支撐橫梁、軟坐墊、那包內六角螺絲,挨個兒點名。
![]()
安裝指導也很實在,沒拽術語,步驟按先腿后靠再裝墊的常識順序來,還特別叮囑螺絲別擰死,留點余量好調。
總體而言很照顧過動手能力參差的用戶,靠譜。
三
我決定給它稍微上點強度。
于是我隨手在手機中找出了去年我看的漢斯·季默(Hans Zimmer)在北京音樂會的現場照片,我問他舞臺上那個穿白色衣服的歌手是誰?
注意,這張照片是我的實拍,比較模糊,像素只有600x800,很難通過面部識別來確定到底是誰?
![]()
可以看到,面對這張演唱會現場圖,K2.5沒急著瞎猜,而是先動手搜了圖片——這是聰明的第一步,看不清歌手正臉,與其蒙答案,不如先找線索。
![]()
很快,它通過圖片搜索結果確認是Hans Zimmer Live,這時候模型沒停著,腦子已經轉起來了:
背景是《獅子王》的畫面,穿白衣服的人在舞臺中央演唱,大概率是唱《Circle of Life》的那位。
于是馬上追了一輪搜索+思考。
第二輪結果指向了Lebo M,但模型還是沒直接回答——
它又補了一輪驗證,專門搜 Lebo M 的現場照片和身份,確認這位南非老兄確實是《獅子王》主題曲的原唱,而且確實常穿白色非洲服飾登臺。
三輪思考與行動環環相扣,這就是K2.5思維與行動交織的能力(Interleaved Reasoning):
不是先想十分鐘再一次性搜完,而是搜一點、看一點、想一下再決定下一步干什么。
這種邊想邊做的能力很接地氣——
它知道什么時候該停手(確認是 Lebo M 就收了),也知道什么時候該繼續(光靠圖片搜不出來,得補文字搜索),不死腦筋硬猜,也不過度搜索浪費算力,分寸感剛好。
一句話——Interleaved Reasoning,好使。
四
咱們繼續,這次Kimi K2.5的代碼能力也得到了大幅提升。
Benchmark分數是一回事,實際表現又是一回事,我只相信實測,咱們先來一道經典的——鵜鶘騎自行車的SVG動畫:
“make an animated SVG of a pelican riding a bicycle.”
玩過模型測評的都知道這題挺刁的——對功能和審美的要求都不低。
SVG要做好不簡單,K2.5結果很靠譜,車輪、腳蹬的聯動很流暢,背景云彩還做了視差滾動。
細看的話,鵜鶘握車把的姿態像那么回事,腳踏板帶上下相位差,車座底下還藏著陰影跟著車身一顛一顛,細節控應該很喜歡。。
顏色也不糊弄,天空漸變、柏油路上的速度線全配齊了,當然,還是有點瑕疵的,比如速度線的方向貌似搞反了,但瑕不掩瑜。
作為一個三體迷,每次測試模型網頁能力,我都會下達一個任務——
“做一個以《三體》為主題的網站。”
可以看到,Kimi K2.5 這個 case 表現挺穩的,我總共用三句話迭代了三次。
整個過程,K2.5整理解需求,輸出設計文檔、生成圖片、寫代碼、部署,流程很順。
從結果上看代碼質量可以,TypeScript、React、Tailwind用得熟練,報錯能自己修,交互細節考慮周到,加載動畫、懸停效果都有。
事實上,生成的網頁還可以直接修改,在預覽界面圈選需要修改的地方,用大白話告訴Kimi怎么改,它就能精準調整。
![]()
我喜歡它的點在于,這個網站拿捏住了三體冷峻的風格。
深黑背景,不張揚但抓人,留白給得足,看著就安靜、孤獨,跟書里的氣質對味。
人物圖生成得挺準——葉文潔有那種歷經滄桑的決絕,章北海一身軍人硬氣,都貼原著,不是那種網紅臉。
Kimi產品層面也打磨得很好,最實在的是Kimi K2.5 Agent生成的網站能直接部署,流程一條龍走完。
用戶拿到手就是個能打開的網址,不用自己折騰服務器、配環境,這個網站大家可以直接去玩——
(可直接復制訪問https://sk2b45gfnxilo.beta-ok.kimi.link/)
對普通用戶來說,這是實實在在的方便,很多其他產品到出代碼那步就停了,Kimi能推到最后一公里,nice。
更有意思的是,你可以直接上傳圖片和視頻,讓K2.5 Agent照著圖片里或視頻里的樣式來生成網站。
我找了一個交互不錯的網站錄屏給它(https://orbitaix.webflow.io),讓K2.5把上面的三體網站轉化成視頻中的設計。
5分鐘之后,風格復刻就完成了,大伙可以自行對比一下效果:
供K2.5參考的網站case
K2.5復刻后的三體網站
再來看一個更有意思一點的——
創建一個用手勢識別切西瓜的網頁小游戲。
可以看到,Kimi K2.5在這個小游戲開發任務上表現相當扎實。
從需求理解到最終交付,模型展現了完整的工程能力。
我總共提出了6輪修改——包括30秒倒計時調整、水果變大變多、特效炫酷——模型能準確理解并執行,沒有遺漏或誤解。
最終完成度還是很高的,反正我女兒玩了半個小時,下面是網址,大伙可以自己玩一玩——
https://zympv3awn3nay.beta-ok.kimi.link/
攝像頭手勢追蹤流暢,五種水果爆炸效果不錯,連擊系統、倒計時、攝像頭小窗口、分值提示等功能也都有,符合我最初的意圖。
作為單次對話的多輪迭代開發,Kimi K2.5 展現了不錯的需求跟隨能力和代碼組織水平,最終交付物直接可部署、可游玩,實用性強。
這是我復刻的網頁版的Mac OS,里邊的App都能用
五
Kimi K2.5推出了Agent Swarm,也就是“蜂群模式”,簡單來說就是讓一群AI分工協作,并行處理海量任務。
這個功能最厲害的地方在于它能分身,原本得一步步盯著的操作,它能拆解成多個子任務(最多高達1500個),對咱們普通用戶來說,它就是個批量處理神器。
咱們看下面這個任務——
搞金融研究的都知道,查30家公司的季度數據是體力活——得翻公告、算匯率、對口徑,還得盯著港股和A股披露差異。
![]()
![]()
可以看到,Kimi K2.5面對這個臟活累活展現出實打實的工程能力,先拉清單定框架,再自動切換美股、港股、A股三套數據庫。
碰到滴滴退市這種邊緣案例,也沒瞎編,老老實實標OTC市值。
還有一點難得的是誠實——9家公司市值查不到就寫未找到,15家員工數缺失也不硬湊,每個數字都帶來源腳注。
全程無需人工盯盤,它自己調度搜索、API、Python計算,最后吐出帶引用鏈的Excel。
這種批量作業不串行的路子感覺的確適合做臟活累活,多源數據自動對齊、拿不準就標紅,確實讓復雜的研究簡單很多。
再看披露生成圖片的case——
請用14個不同的藝術家風格,給金庸的14部小說設計14個封面,順序按照“飛雪連天射白鹿,笑書神俠倚碧鴛”排列。
![]()
可以看到,Kimi K2.5的批量處理能力確實能打,14張圖分兩次就全搞定了。
第一次7張,第二次7張,銜接順暢,畫質穩定,沒有前面精細后面應付的情況。
這種愿意接活的吞吐量,對實際工作很友好,做系列設計、批量配圖時能省下大量反復調試的麻煩。
整體看,多任務并行這塊Kimi K2.5有兩把刷子。
六
作為行業的觀察者,我并不擅長無死角地測試模型的每一項能力。
我更愿意結合行業演進趨勢,從這些有限的case看一看新模型迭代和突破背后的邏輯。
以下是我測完Kimi K2.5之后的4點思考——
1.KimiK2.5 的這次更新有一種樸素的實用主義取向
我的直觀感覺,Kimi的這次更新更接地氣了,換句話說Kimi K2.5這東西變得越來越像個老實人。
別笑,在AI這個圈子里,老實人是個稀缺物種。
原生視覺、Visual Coding、Agent Swarm、Office Agent,還有開源的Kimi Code,這些東西都指向一個目標——讓你能真真切切地把活兒干完。
給它一張設計稿,擼出一個能用的網頁來,不滿意,圈選就能修改還能一鍵部署上線,是真干活。
Agent Swarm的批量處理也是把模型能力轉化成剛需場景的又一個出手,實打實地干臟活累活。
Office Agent也是這個思路,PPT、Word、Excel都給你優化到位,交付物得有專業審美和結構,不用操心格式問題、排版問題,直接拿來就能用。
這年頭,用戶是識貨的,虛頭巴腦的東西沒有,能不能真正干貨,一上手就知道,這種樸素的實用主義取向對行業是正向風向標。
我想,這也是Kimi敢在國內在C端推出付費套餐的底氣。
2.Kimi這次干了很多最后一公里的活。
什么叫最后一公里?
其實就是直接能用,扔給你一張圖紙讓你自己去蓋房不是最后一公里,直接交給一把鑰匙才是。
Kimi這次做了大量的工作,算是把用戶伺候到位了。
批量搜索、批量下載論文、批量生圖,這些并不性感的工作才是生產力痛點。
對于坐在辦公室里苦逼寫報告的打工人來說,能不能瞬間幫他把100份財報扒下來分析好、PPT和Excel能不能整明白才是關鍵。
這說明Kimi產品經理是真在辦公室里被虐過的,切實地知道打工人的痛。
的確,過去一年AI領域最重要的突破是長時程任務能力(long-horizon capabilities)。
METR的研究顯示,GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能完成需要人類數小時的任務,而2024年的最佳模型只能完成30分鐘以內的工作,
坦率地講,KIMI這次的上下文長度離Gemini這類頂尖模型還是存在差距的。
但它聰明的地方在于它用Agent Swarm的批量處理很好地解決了很多日常復雜工作的痛點。
這其實也是幫用戶走完最后一公里的努力。
3.視覺是乘法,而不是直觀意義上的加法
KIMI K2.5將視覺能力從外掛插件升級為原生能力,這是從感知到理解的進步,是乘法。
Claude Sonnet 4.5在2025年9月的更新中強調“Vision for computer use”、Gemini 3 Pro強調“multimodal input with real-time reasoning”,行業共識是:原生多模態才是真正的AI Native。
在過去,很多模型處理圖片是先用OCR把字提出來,再丟給大模型,這導致圖表中的趨勢、顏色、空間關系全部丟失。
Kimi2.5的原生多模態保證了不同模態之間的對齊更精準,減少了信息在不同神經網絡模塊傳遞時的翻譯損耗。
而這會解鎖極多的能力,官方的case中有對森林圖 (Forest Plots)等專業圖表的深度解析,說明Kimi K2.5經過了大量專業垂直領域數據的Post-training。
它不僅能讀數,還能理解更復雜的統計學意義(如P值、置信區間)。
這對于金融、科研等依賴圖表數據的行業是非常直接的利好。
4.高帶寬的Context會成為未來模型能力的重要維度
在Kimi官方的case中,有一個讓我印象很深刻——
將演示視頻轉化成編程項目(上傳一段100MB以內的操作視頻,Kimi看懂意圖,復刻出可交互網頁)。
這超越了截圖生成代碼,視頻包含著時間維度的邏輯、交互的動態反饋、甚至是微妙的動效。
某種意義上,視頻等更多元的模態或許成為未來AI開發的通用語言,K2.5驗證了演示即編程的可行性。
如果AI能看懂視頻并生成代碼,這極大地壓縮了軟件供應鏈。
以前是“需求->文檔->設計->代碼->測試”,現在變成了“視頻演示->成品”。
Kimi2.5在這里展現了很強的視覺理解能力,而更重要的是對動態邏輯的捕捉能力,我把這種能力粗淺地理解為最小規模的在線學習。
我堅定地相信,未來Context的帶寬會比現在大很多倍,視頻也僅僅只是其中的一種。
事實上,作為一個模型的人腦,它的Context帶寬其實也是非常高的。
如何在高帶寬的Context下提升效率,是未來每個模型要面臨的實際挑戰。
結語
以前我們總覺得,搞懂復雜的科研圖表或者是批量處理上百份文件,是屬于專業人士的特權,但 Kimi K2.5把這道門檻踏平了。
K2.5就像個眼里有活兒、心里有數的老伙計——聰明、靠譜,我們常說AI要快,但K2.5卻學會了慢下來思考。
好的模型,是潤物細無聲滴,Kimi K2.5,值得一試。
——End——
作者簡介:衛夕,公眾號“衛夕指北”出品人,科技專欄作者,專寫長文,專注剖析AI、廣告、互聯網的底層邏輯;不關注這個賬號,你都不知道你會錯過神馬!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.