![]()
智東西
作者 王涵
編輯 云鵬
智東西1月27日報道,今天,月之暗面Kimi開源了新模型——K2.5,楊植麟還特別發視頻親自介紹。
楊植麟分享稱,K2.5是Kimi迄今為止最強大的模型。面對復雜任務時,Kimi K2.5可自主調度包含多達100個子智能體的集群,并行執行最高1500次工具調用。
相較于單智能體模式,其任務執行效率提升最高達4.5倍。整個Agent集群由K2.5模型全自動創建與協調,無需任何預定義子智能體或工作流。該模型以Kimi K2為基礎技術架構,在原有架構之上進行了持續的預訓練優化,且訓練過程中學習、融合了約15萬億個“視覺+文本”混合形式的訓練數據單元。![]()
▲K2.5模型開源頁面(來源:Hugging Face)
基準測試上,在Agents方面,HLE-Full(綜合推理)、BrowseComp(瀏覽交互)、DeepSearchQA(深度搜索問答)三個基準測試中K2.5得分均位列第一;在編碼方面,K2.5在SWE-Bench Verified、SWE-Bench Multilingual兩項中均排名第一;在圖像多模態方面,K2.5在文檔理解測試mniDocBench 1.5中得分88.8,為第一名。
![]()
▲K2.5模型基準測試
在Agent基準測試HLE、BrowseComp和SWE-Veried中,K2.5與GPT-5.2(xhigh)相比,在性能逼近的同時成本更低。
![]()
▲K2.5模型性價比對比
外網網友對Kimi K2.5模型的評價可以說是好評如潮。FireworksAI聯合創始人兼首席技術官Dmytro Dzhulgakov評論稱“Kimi K2.5=開源SOTA推理+視覺+256K 上下文+智能體編碼”。
![]()
▲外網網友評價(來源:X)
Thrive Protocol AI與數據工程師、Ethers Club播客主持人0xSero說(他用)Kimi創建了新的網站頁面。
![]()
▲外網網友評價(來源:X)
KEA Research協作平臺創立者Stanislaw則評價Kimi看起來十分有潛力。
![]()
▲外網網友評價(來源:X)
除了K2.5模型外,針對軟件工程場景,Kimi團隊還推出了編程產品Kimi Code。Kimi Code可直接在終端運行,并支持與VSCode、Cursor、Zed等主流IDE集成。該產品已開源,支持圖像與視頻輸入,還能自動發現現有技能及MCP協議并遷移至Kimi Code工作環境。
價格上,K2.5模型API輸入(每百萬Token)4元,緩存輸入0.7元;輸出(每百萬Token)21元。
![]()
▲K2.5模型API價格
K2.5模型提供了四種模式:
1、快速模式:提供最快的響應體驗;
2、思考模式:可以用來解答復雜問題;
3、Agent模式:擅長深度研究、PPT、Excel、Word、PDF和網頁生成等任務;
4、Agent集群模式:適合需要并行處理的復雜任務。
![]()
▲K2.5模型主頁
開源地址:
Hugging Face:
https://huggingface.co/moonshotai/Kimi-K2.5
魔搭社區:
https://modelscope.cn/models/moonshotai/Kimi-K2.5
一、幾句話生成能交互的動態網頁界面,K2.5降低視覺表達門檻
在Kimi團隊內部編程基準測試集Kimi Code Bench中,K2.5在多語言環境下從構建、調試、重構、測試到腳本編寫的端到端任務上均較K2有所增強。
![]()
▲內部編程基準測試集Kimi Code Bench
楊植麟稱,Kimi團隊不只是想讓K2.5學會寫代碼,更希望它具備設計審美。在前端開發領域,K2.5能將簡單對話轉化為完整的前端界面,可以做出像專業設計師出品一樣,有高級審美和動效的網頁,就像這樣:
在視覺編程方面,通過對圖像與視頻的推理,K2.5的圖像/視頻轉代碼生成與視覺調試能力增強,降低了用戶通過視覺表達創意的門檻,直接上傳一個錄屏,就可以重建網頁。
此能力源于K2.5的大規模視覺-文本聯合預訓練。當數據規模足夠龐大時,視覺與文本能力實現同步提升。
K2.5還可以通過代碼推理謎題并標記最短路徑:
二、自主調動1500個協調步驟,K2.5端到端運行時間縮短80%
半年前,Kimi發布了首個萬億參數開源Agent模型Kimi K2。隨后推出的Kimi K2 Thinking,通過增加思考時間,具備了獨立完成長達300步操作的長程任務能力,但這還不夠。
通過并行智能體強化學習(PARL)訓練,K2.5模型學會了自主調度最多100個子智能體組成的集群,并行執行最多1500個協調步驟的工作流,整個過程無需預定義角色或人工設計工作流。
可以說,K2.5是從“單個專家”升級為了一個“專業團隊”。
![]()
▲K2.5 Agent集群結構
K2.5 Agent集群通過并行、專門化的執行方式能夠提升復雜任務的性能。在Kimi團隊內部評估中,其能夠將端到端運行時間縮短80%,同時支持更復雜、更長期的工作負載。
![]()
▲Kimi團隊內部評估
在廣泛搜索場景中,與單智能體執行相比,Agent集群可以將達到目標性能所需的最小關鍵步驟減少至原先的1/4到1/5.5。通過并行化,Agent集群實際運行時間最多可減少至原先的1/5.5。
![]()
▲運行時間對比
在實際任務中,例如在大規模并行處理方面,面對在100個細分領域中找出排名前三的YouTube創作者的任務,K2.5 Agent集群首先研究并定義每個領域,然后自主創建100個子智能體進行并行搜索。
每個子智能體在其分配的細分領域內識別出領先的創作者,并將結果匯總到一個結構化的電子表格中。
在大規模使用工具方面,K2.5 Agent集群僅憑一張結婚照,就能啟動20個并行子智能體,生成符合當地文化背景的全球婚禮旅行場景,并將它們整合到一個具有統一身份和服飾的互動網頁中。
此外,在規模化產出方面,K2.5 Agent集群可以將一項涵蓋40篇社會心理學論文的文獻綜述任務分解為多個專注于寫作的子智能體。
每個子智能體負責綜述的特定部分,它們的輸出最終被綜合成一份100頁的雙欄學術文檔,其中包含格式完整的引文和參考文獻。
最后,在大規模下載方面,K2.5 Agent集群能夠調度多個具有專業分工的子智能體,共同協作處理保羅·格雷厄姆(Paul Graham)的文章。這些子智能體分別負責搜索、下載、分類、總結與匯編任務。
在協同工作下,系統將超過200篇原始文章按主題整理至6個分類文件夾,并生成了一份結構清晰的綜合摘要報告。報告中所有引用均明確標注了對應的原始文章來源。
三、AI辦公質量提升近60%,K2.5能處理大規模辦公任務
不僅如此,K2.5已經開始熟練掌握Office套件的核心技能。
其能夠端到端處理高密度、大規模的辦公任務,該模型能解析大規模高密度輸入,協調多步驟工具使用,并通過直接對話生成專業級輸出成果,包括Word、Excel、PPT和PDF。
KImi團隊針對真實職場場景,設計了兩套內部專家生產力基準測試。AI辦公基準測試評估端到端的辦公輸出質量,而通用智能體基準測試則以人類專家表現為標準,衡量多步驟生產級工作流的表現。
在這兩項測試中,在兩項基準測試中,K2.5的性能分別比K2 Thinking提升了59.3%和24.3%。
![]()
▲kimi內部專家生產力基準測試
K2.5智能體支持高級辦公任務,例如在Word中添加批注、使用數據透視表構建財務模型、在PDF中編寫LaTeX公式,并能處理長達萬字的論文或百頁文檔等長篇輸出。
例如生成包含圖片的100個鏡頭的分鏡腳本表格:
給技術報告增添行內注釋:
從數據中提取30個帶密碼的工資單PDF文件:
結語:月之暗面或將著重多模態及智能體集群能力
一周前,市場還在為月之暗面在20天內估值暴漲約34億人民幣的消息而驚嘆。一周后,這家北京AI獨角獸就開源了新模型。
此次開源的K2.5模型,最亮眼的就是其“智能體集群”能力,將AI從執行單一指令的工具,升級為能自主調度、并行處理上千步驟的“團隊”,而這正直指企業級應用的核心痛點:復雜、高成本、長周期的知識工作流程自動化。
整體來看,這是一次聚焦于提升模型實際效能、擴展多模態能力的技術迭代。此次發布展示了月之暗面近期的研發重心與成果,此前曝光的新融資或為這類深度研發提供更多支持。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.