<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      新發布的Kimi K2.5是AI界的“老實人”?——實測后我的4點思考

      0
      分享至

      前幾天,Kimi的朋友神秘兮兮地說:衛老師,我們準備發最新的Kimi K2.5了,來測一測?

      說實話,這個年底的確很熱鬧,各家都在整新東西,可惜我一直沒抽出時間,直到今天他們上線了我才開始跑case。

      下面咱們就不緊不慢來看一看這些有意思的case以及我個人的幾點思考——

      在實測之前,我們先來了解一下Kimi K2.5最基本的信息——

      它采用原生的多模態架構設計,同時支持視覺與文本輸入、思考與非思考模式、對話與Agent任務,通過約15T混合視覺和文本token進行的預訓練。

      來,先跑個分——


      可以看到它在 Agent、代碼、圖像、視頻及一系列通用智能任務上取得開源SOTA的表現。

      具體而言,在包括HLE、BrowseComp和DeepSearchQA在內的多個極具挑戰性的Agent評測中取得了最佳表現,部分指標超越了最前沿的閉源模型。

      這些領先的Agentic的能力讓它可以從容面對復雜任務,KIMIK2.5驅動的Agent集群,能同時調度多達100個Agent分身,并行處理1500個步驟。

      在正式的實測之前,我們先來看月之暗面的CEO楊植麟自己的介紹視頻——

      視覺提升是這次的關鍵。

      按官方的說話,Kimi K2.5是一個全能型的統一模型(Unified Model),實現了視覺與文本的統一:

      它不再需要外掛插件來看圖,而是天生具備視覺能力,理解圖片和視頻就像閱讀文字一樣自然。

      廢話少說,我們還是來一個我之前試過的谷歌DeepMind紀錄片《The Thinking Game》里哈薩比斯結尾的國際象棋case。

      我照例上傳了前幾天我和我女兒下的雙馬防御的照片——


      可以看到,面對這張意大利開局盤面,K2.5沒掉鏈子。

      一眼認出這是雙馬防御的經典局面,直接給出了Ng5的答案:馬跳g5猛攻f7弱點

      這屬于弗里德里希攻擊的起手式,選點很精準。


      而且它把道理也講得很明白:f7是黑方王前最軟的格子,只有王在保護,后續還列出了Nxf7棄馬后的連續步驟,說明它理解這個開局的套路,不是瞎蒙。

      整個過程反應快,視覺識別很準確,沒把棋子位置認錯,對于國際象棋初學者,這種一眼看穿的能力夠用了。

      就這個case來說,Kimi K2.5的視覺識別和推理能力,看得懂、答得準。

      我再給它一張我在宜家買的椅子,讓它指導我怎么安裝——


      可以看到,K2.5把這張椅子零件圖吃得挺準:一掃就認出是椅子套件,靠背、前后腿、支撐橫梁、軟坐墊、那包內六角螺絲,挨個兒點名。


      安裝指導也很實在,沒拽術語,步驟按先腿后靠再裝墊的常識順序來,還特別叮囑螺絲別擰死,留點余量好調。

      總體而言很照顧過動手能力參差的用戶,靠譜。

      我決定給它稍微上點強度。

      于是我隨手在手機中找出了去年我看的漢斯·季默(Hans Zimmer)在北京音樂會的現場照片,我問他舞臺上那個穿白色衣服的歌手是誰?

      注意,這張照片是我的實拍,比較模糊,像素只有600x800,很難通過面部識別來確定到底是誰?


      可以看到,面對這張演唱會現場圖,K2.5沒急著瞎猜,而是先動手搜了圖片——這是聰明的第一步,看不清歌手正臉,與其蒙答案,不如先找線索。


      很快,它通過圖片搜索結果確認是Hans Zimmer Live,這時候模型沒停著,腦子已經轉起來了:

      背景是《獅子王》的畫面,穿白衣服的人在舞臺中央演唱,大概率是唱《Circle of Life》的那位。

      于是馬上追了一輪搜索+思考。

      第二輪結果指向了Lebo M,但模型還是沒直接回答——

      它又補了一輪驗證,專門搜 Lebo M 的現場照片和身份,確認這位南非老兄確實是《獅子王》主題曲的原唱,而且確實常穿白色非洲服飾登臺。

      三輪思考與行動環環相扣,這就是K2.5思維與行動交織的能力(Interleaved Reasoning):

      不是先想十分鐘再一次性搜完,而是搜一點、看一點、想一下再決定下一步干什么。

      這種邊想邊做的能力很接地氣——

      它知道什么時候該停手(確認是 Lebo M 就收了),也知道什么時候該繼續(光靠圖片搜不出來,得補文字搜索),不死腦筋硬猜,也不過度搜索浪費算力,分寸感剛好。

      一句話——Interleaved Reasoning,好使。

      咱們繼續,這次Kimi K2.5的代碼能力也得到了大幅提升。

      Benchmark分數是一回事,實際表現又是一回事,我只相信實測,咱們先來一道經典的——鵜鶘騎自行車的SVG動畫:


      “make an animated SVG of a pelican riding a bicycle.”

      玩過模型測評的都知道這題挺刁的——對功能和審美的要求都不低。

      SVG要做好不簡單,K2.5結果很靠譜,車輪、腳蹬的聯動很流暢,背景云彩還做了視差滾動。

      細看的話,鵜鶘握車把的姿態像那么回事,腳踏板帶上下相位差,車座底下還藏著陰影跟著車身一顛一顛,細節控應該很喜歡。。

      顏色也不糊弄,天空漸變、柏油路上的速度線全配齊了,當然,還是有點瑕疵的,比如速度線的方向貌似搞反了,但瑕不掩瑜。

      作為一個三體迷,每次測試模型網頁能力,我都會下達一個任務——


      “做一個以《三體》為主題的網站。”

      可以看到,Kimi K2.5 這個 case 表現挺穩的,我總共用三句話迭代了三次。

      整個過程,K2.5整理解需求,輸出設計文檔、生成圖片、寫代碼、部署,流程很順。

      從結果上看代碼質量可以,TypeScript、React、Tailwind用得熟練,報錯能自己修,交互細節考慮周到,加載動畫、懸停效果都有。

      事實上,生成的網頁還可以直接修改,在預覽界面圈選需要修改的地方,用大白話告訴Kimi怎么改,它就能精準調整。


      我喜歡它的點在于,這個網站拿捏住了三體冷峻的風格。

      深黑背景,不張揚但抓人,留白給得足,看著就安靜、孤獨,跟書里的氣質對味。

      人物圖生成得挺準——葉文潔有那種歷經滄桑的決絕,章北海一身軍人硬氣,都貼原著,不是那種網紅臉。

      Kimi產品層面也打磨得很好,最實在的是Kimi K2.5 Agent生成的網站能直接部署,流程一條龍走完。

      用戶拿到手就是個能打開的網址,不用自己折騰服務器、配環境,這個網站大家可以直接去玩——

      (可直接復制訪問https://sk2b45gfnxilo.beta-ok.kimi.link/)

      對普通用戶來說,這是實實在在的方便,很多其他產品到出代碼那步就停了,Kimi能推到最后一公里,nice。

      更有意思的是,你可以直接上傳圖片和視頻,讓K2.5 Agent照著圖片里或視頻里的樣式來生成網站。

      我找了一個交互不錯的網站錄屏給它(https://orbitaix.webflow.io),讓K2.5把上面的三體網站轉化成視頻中的設計。

      5分鐘之后,風格復刻就完成了,大伙可以自行對比一下效果:

      供K2.5參考的網站case

      K2.5復刻后的三體網站

      再來看一個更有意思一點的——


      創建一個用手勢識別切西瓜的網頁小游戲。

      可以看到,Kimi K2.5在這個小游戲開發任務上表現相當扎實。

      從需求理解到最終交付,模型展現了完整的工程能力。

      我總共提出了6輪修改——包括30秒倒計時調整、水果變大變多、特效炫酷——模型能準確理解并執行,沒有遺漏或誤解。

      最終完成度還是很高的,反正我女兒玩了半個小時,下面是網址,大伙可以自己玩一玩——

      https://zympv3awn3nay.beta-ok.kimi.link/

      攝像頭手勢追蹤流暢,五種水果爆炸效果不錯,連擊系統、倒計時、攝像頭小窗口、分值提示等功能也都有,符合我最初的意圖。

      作為單次對話的多輪迭代開發,Kimi K2.5 展現了不錯的需求跟隨能力和代碼組織水平,最終交付物直接可部署、可游玩,實用性強。

      這是我復刻的網頁版的Mac OS,里邊的App都能用

      Kimi K2.5推出了Agent Swarm,也就是“蜂群模式”,簡單來說就是讓一群AI分工協作,并行處理海量任務。

      這個功能最厲害的地方在于它能分身,原本得一步步盯著的操作,它能拆解成多個子任務(最多高達1500個),對咱們普通用戶來說,它就是個批量處理神器。

      咱們看下面這個任務——

      搞金融研究的都知道,查30家公司的季度數據是體力活——得翻公告、算匯率、對口徑,還得盯著港股和A股披露差異。



      可以看到,Kimi K2.5面對這個臟活累活展現出實打實的工程能力,先拉清單定框架,再自動切換美股、港股、A股三套數據庫。

      碰到滴滴退市這種邊緣案例,也沒瞎編,老老實實標OTC市值。

      還有一點難得的是誠實——9家公司市值查不到就寫未找到,15家員工數缺失也不硬湊,每個數字都帶來源腳注。

      全程無需人工盯盤,它自己調度搜索、API、Python計算,最后吐出帶引用鏈的Excel。

      這種批量作業不串行的路子感覺的確適合做臟活累活,多源數據自動對齊、拿不準就標紅,確實讓復雜的研究簡單很多。

      再看披露生成圖片的case——


      請用14個不同的藝術家風格,給金庸的14部小說設計14個封面,順序按照“飛雪連天射白鹿,笑書神俠倚碧鴛”排列。


      可以看到,Kimi K2.5的批量處理能力確實能打,14張圖分兩次就全搞定了。

      第一次7張,第二次7張,銜接順暢,畫質穩定,沒有前面精細后面應付的情況。

      這種愿意接活的吞吐量,對實際工作很友好,做系列設計、批量配圖時能省下大量反復調試的麻煩。

      整體看,多任務并行這塊Kimi K2.5有兩把刷子。

      作為行業的觀察者,我并不擅長無死角地測試模型的每一項能力。

      我更愿意結合行業演進趨勢,從這些有限的case看一看新模型迭代和突破背后的邏輯。

      以下是我測完Kimi K2.5之后的4點思考——

      1.KimiK2.5 的這次更新有一種樸素的實用主義取向

      我的直觀感覺,Kimi的這次更新更接地氣了,換句話說Kimi K2.5這東西變得越來越像個老實人。

      別笑,在AI這個圈子里,老實人是個稀缺物種。

      原生視覺、Visual Coding、Agent Swarm、Office Agent,還有開源的Kimi Code,這些東西都指向一個目標——讓你能真真切切地把活兒干完。

      給它一張設計稿,擼出一個能用的網頁來,不滿意,圈選就能修改還能一鍵部署上線,是真干活。

      Agent Swarm的批量處理也是把模型能力轉化成剛需場景的又一個出手,實打實地干臟活累活。

      Office Agent也是這個思路,PPT、Word、Excel都給你優化到位,交付物得有專業審美和結構,不用操心格式問題、排版問題,直接拿來就能用。

      這年頭,用戶是識貨的,虛頭巴腦的東西沒有,能不能真正干貨,一上手就知道,這種樸素的實用主義取向對行業是正向風向標。

      我想,這也是Kimi敢在國內在C端推出付費套餐的底氣。

      2.Kimi這次干了很多最后一公里的活。

      什么叫最后一公里?

      其實就是直接能用,扔給你一張圖紙讓你自己去蓋房不是最后一公里,直接交給一把鑰匙才是。

      Kimi這次做了大量的工作,算是把用戶伺候到位了。

      批量搜索、批量下載論文、批量生圖,這些并不性感的工作才是生產力痛點。

      對于坐在辦公室里苦逼寫報告的打工人來說,能不能瞬間幫他把100份財報扒下來分析好、PPT和Excel能不能整明白才是關鍵。

      這說明Kimi產品經理是真在辦公室里被虐過的,切實地知道打工人的痛。

      的確,過去一年AI領域最重要的突破是長時程任務能力(long-horizon capabilities)。

      METR的研究顯示,GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能完成需要人類數小時的任務,而2024年的最佳模型只能完成30分鐘以內的工作,

      坦率地講,KIMI這次的上下文長度離Gemini這類頂尖模型還是存在差距的。

      但它聰明的地方在于它用Agent Swarm的批量處理很好地解決了很多日常復雜工作的痛點。

      這其實也是幫用戶走完最后一公里的努力。

      3.視覺是乘法,而不是直觀意義上的加法

      KIMI K2.5將視覺能力從外掛插件升級為原生能力,這是從感知到理解的進步,是乘法。

      Claude Sonnet 4.5在2025年9月的更新中強調“Vision for computer use”、Gemini 3 Pro強調“multimodal input with real-time reasoning”,行業共識是:原生多模態才是真正的AI Native。

      在過去,很多模型處理圖片是先用OCR把字提出來,再丟給大模型,這導致圖表中的趨勢、顏色、空間關系全部丟失。

      Kimi2.5的原生多模態保證了不同模態之間的對齊更精準,減少了信息在不同神經網絡模塊傳遞時的翻譯損耗。

      而這會解鎖極多的能力,官方的case中有對森林圖 (Forest Plots)等專業圖表的深度解析,說明Kimi K2.5經過了大量專業垂直領域數據的Post-training。

      它不僅能讀數,還能理解更復雜的統計學意義(如P值、置信區間)。

      這對于金融、科研等依賴圖表數據的行業是非常直接的利好。

      4.高帶寬的Context會成為未來模型能力的重要維度

      在Kimi官方的case中,有一個讓我印象很深刻——

      將演示視頻轉化成編程項目(上傳一段100MB以內的操作視頻,Kimi看懂意圖,復刻出可交互網頁)。

      這超越了截圖生成代碼,視頻包含著時間維度的邏輯、交互的動態反饋、甚至是微妙的動效。

      某種意義上,視頻等更多元的模態或許成為未來AI開發的通用語言,K2.5驗證了演示即編程的可行性。

      如果AI能看懂視頻并生成代碼,這極大地壓縮了軟件供應鏈。

      以前是“需求->文檔->設計->代碼->測試”,現在變成了“視頻演示->成品”。

      Kimi2.5在這里展現了很強的視覺理解能力,而更重要的是對動態邏輯的捕捉能力,我把這種能力粗淺地理解為最小規模的在線學習。

      我堅定地相信,未來Context的帶寬會比現在大很多倍,視頻也僅僅只是其中的一種。

      事實上,作為一個模型的人腦,它的Context帶寬其實也是非常高的。

      如何在高帶寬的Context下提升效率,是未來每個模型要面臨的實際挑戰。

      結語

      以前我們總覺得,搞懂復雜的科研圖表或者是批量處理上百份文件,是屬于專業人士的特權,但 Kimi K2.5把這道門檻踏平了。

      K2.5就像個眼里有活兒、心里有數的老伙計——聰明、靠譜,我們常說AI要快,但K2.5卻學會了慢下來思考。

      好的模型,是潤物細無聲滴,Kimi K2.5,值得一試。

      ——End——

      作者簡介:衛夕,公眾號“衛夕指北”出品人,科技專欄作者,專寫長文,專注剖析AI、廣告、互聯網的底層邏輯;不關注這個賬號,你都不知道你會錯過神馬!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      山東大勝廣廈凸顯兩點:瓊斯讓克里斯感到危機,于德豪不能再用了

      山東大勝廣廈凸顯兩點:瓊斯讓克里斯感到危機,于德豪不能再用了

      姜大叔侃球
      2026-02-11 21:38:12
      文班8分鐘25分全美第1熱搜!張伯倫降臨 沖GOAT 思念科比言論被扒

      文班8分鐘25分全美第1熱搜!張伯倫降臨 沖GOAT 思念科比言論被扒

      顏小白的籃球夢
      2026-02-11 12:23:04
      河北彩花:被業界與觀眾共同加冕的“神顏”唯一解

      河北彩花:被業界與觀眾共同加冕的“神顏”唯一解

      碧波萬覽
      2026-02-12 00:31:36
      這不是“擼空了”,原來這是日本傳說中的「思春期の目」

      這不是“擼空了”,原來這是日本傳說中的「思春期の目」

      日本物語
      2026-02-11 22:29:49
      在小縣城名聲很臭是啥體驗?網友:臉皮夠厚,一切不成問題

      在小縣城名聲很臭是啥體驗?網友:臉皮夠厚,一切不成問題

      解讀熱點事件
      2026-02-04 00:05:07
      印度前陸軍參謀長爆大瓜!加勒萬河谷的真相,莫迪瞞了全世界6年

      印度前陸軍參謀長爆大瓜!加勒萬河谷的真相,莫迪瞞了全世界6年

      歷史小破站
      2026-02-08 07:00:08
      多名追覓科技員工稱公司年終發了1克黃金,上面印有自己的名字 入職一個月新人:非常開心

      多名追覓科技員工稱公司年終發了1克黃金,上面印有自己的名字 入職一個月新人:非常開心

      紅星新聞
      2026-02-11 09:55:59
      上海炒股冠軍肺腑之言:如果接下來迎來牛市,不妨死啃這兩根均線

      上海炒股冠軍肺腑之言:如果接下來迎來牛市,不妨死啃這兩根均線

      股經縱橫談
      2026-01-24 17:15:39
      其實根本就沒有所謂的經濟危機,有的只是社會分配出了問題

      其實根本就沒有所謂的經濟危機,有的只是社會分配出了問題

      流蘇晚晴
      2026-02-07 17:06:16
      烏克蘭發動幾年來最大規模反攻!多點猛攻扎波羅熱交界處

      烏克蘭發動幾年來最大規模反攻!多點猛攻扎波羅熱交界處

      項鵬飛
      2026-02-10 19:29:04
      聞泰科技:荷蘭企業法庭批準了對安世的調查申請

      聞泰科技:荷蘭企業法庭批準了對安世的調查申請

      觀點機構
      2026-02-11 23:48:04
      鄭欽文遲早會殺回世界第10!總分僅輸大魔王6分 ACE球+制勝分領先

      鄭欽文遲早會殺回世界第10!總分僅輸大魔王6分 ACE球+制勝分領先

      風過鄉
      2026-02-12 06:01:40
      洪森向全球發出信號,他才是柬埔寨1號人物,中方必須給個面子?

      洪森向全球發出信號,他才是柬埔寨1號人物,中方必須給個面子?

      忠于法紀
      2026-02-11 16:38:15
      2.12股市早8點丨機構提前放假散戶安心過年

      2.12股市早8點丨機構提前放假散戶安心過年

      沙黽農
      2026-02-12 06:06:22
      一降再降!南京老牌房企債臺高筑,百家湖宅地5.6折起拍

      一降再降!南京老牌房企債臺高筑,百家湖宅地5.6折起拍

      地產銳評
      2026-02-11 17:24:00
      雞蛋再次被關注!研究顯示:老年人常吃雞蛋,不過半年或有4改善

      雞蛋再次被關注!研究顯示:老年人常吃雞蛋,不過半年或有4改善

      岐黃傳人孫大夫
      2026-01-13 10:53:35
      俄羅斯女性14歲就能嫁人,為啥年紀輕輕如此著急?答案來了

      俄羅斯女性14歲就能嫁人,為啥年紀輕輕如此著急?答案來了

      千秋歷史
      2026-02-11 21:52:33
      愛潑斯坦案曝出炸裂瓜,九歲小女孩被他們戕害,殘忍程度令人發指

      愛潑斯坦案曝出炸裂瓜,九歲小女孩被他們戕害,殘忍程度令人發指

      花哥扒娛樂
      2026-02-11 21:09:57
      索尼婭是誰?愛潑斯坦女友卡琳娜發出死亡警告,比爾蓋茲睡不著了

      索尼婭是誰?愛潑斯坦女友卡琳娜發出死亡警告,比爾蓋茲睡不著了

      小寒嫣語
      2026-02-11 22:14:16
      不出意外的話,中國未來超過一半人口,將會流入到這些地方

      不出意外的話,中國未來超過一半人口,將會流入到這些地方

      社會日日鮮
      2026-02-11 14:04:49
      2026-02-12 07:16:49
      衛夕指北 incentive-icons
      衛夕指北
      深度剖析互聯網底層邏輯
      181文章數 4561關注度
      往期回顧 全部

      科技要聞

      V4來了?DeepSeek 灰度測試新版本

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態度原創

      藝術
      手機
      教育
      公開課
      軍事航空

      藝術要聞

      世界代表建筑大全,你知道幾個?

      手機要聞

      蘋果發布iOS 26.3和iPadOS 26.3 新增跨平臺遷移工具與運營商定位限制功能

      教育要聞

      高三地理備考:特殊天氣系統核心知識點梳理

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:若美伊談判失敗 或再派一支航母打擊群

      無障礙瀏覽 進入關懷版