![]()
4月20日晚間,月之暗面(Moonshot AI)正式發布并開源最新旗艦模型 Kimi K2.6。該模型在長程編碼、Agent 集群調度及自主執行能力上實現顯著躍升,多項基準測試成績持平或超越 GPT-5.4、Claude Opus 4.6 等國際頂尖閉源模型。
一周之內,Anthropic 發布 Claude Opus 4.7、阿里推出 Qwen3.6-Max-Preview,DeepSeek V4 亦將于下旬發布。Kimi K2.6 在這個密集窗口期登場,是月之暗面在 AI 競爭從"算法創新"轉向"工程化落地"關鍵節點的一次戰略展示。
長程編碼:從單輪補全到系統級優化
![]()
與此前大模型在代碼任務中多局限于"單輪補全"或"簡單腳本編寫"不同,Kimi K2.6 的核心進步在于處理復雜系統工程的能力。據官方技術博客披露,K2.6 可自主完成從需求分析、代碼實現、測試驗證到性能優化的全流程閉環,單次任務可修改超過 4000 行代碼。
兩項實測案例展現了這一能力。
案例一:Zig 語言重寫推理引擎
在 Mac 本地部署 Qwen3.5-0.8B 模型時,K2.6 跨語言使用小眾的 Zig 語言進行推理優化,歷經 12 小時連續運行、4000 余次工具調用及 14 輪迭代,將推理吞吐量從 15 tokens/s 提升至 193 tokens/s,最終速度超越主流推理框架 LM Studio 約 20%。
![]()
案例二:8 年引擎的性能重構
在對擁有 8 年歷史的開源金融撮合引擎 exchange-core 的優化中,K2.6 在 13 小時的執行過程中迭代了 12 種優化策略,發起 1000 余次工具調用,通過分析 CPU 與內存火焰圖定位隱藏瓶頸,將核心線程拓撲從 4ME+2RE 重構為 2ME+1RE。即便引擎已接近性能極限,K2.6 仍將中位吞吐量從 0.43 提升至 1.24 MT/s(提升 185%),峰值吞吐量從 1.23 提升至 2.86 MT/s(提升 133%)。
![]()
"這不再是簡單的'做題',而是在解決真實的工程問題。"多位開發者在體驗后反饋,K2.6 已具備從編碼到前端設計再到全棧交付的專業級 Web 應用構建能力。在官方的 Code-Driven Design 內部評測中,K2.6 在落地頁構建、全棧應用開發等四類任務上表現接近 Google AI Studio。
基準測試:編碼領先,推理仍有差距
官方公布的基準測試數據顯示,K2.6 在工程類任務中全面領先,但純推理能力與國際頂尖閉源模型仍有距離。
![]()
編碼與 Agent 任務方面,K2.6 在 SWE-Bench Pro 中取得 58.6%,領先所有參與對比的模型;在 Terminal-Bench 2.0 中以 66.7% 超越 GPT-5.4 和 Claude Opus 4.6 的 65.4%;在博士級難度的 Humanity's Last Exam(工具增強版)中以 54.0% 位居第一;DeepSearchQA 的 F1 分數達 92.5%,大幅領先 GPT-5.4 的 78.6%。
然而,在不使用工具的純推理測試中,K2.6 的短板同樣明顯。HLE-Full 僅得 34.7%,低于 GPT-5.4 的 39.8% 和 Gemini 3.1 Pro 的 44.4%;在視覺推理類基準如 MathVision(87.4% vs GPT-5.4 的 92.0%)上,差距同樣存在。這套基準測試描繪了一個清晰的輪廓:K2.6 的工程化與工具調度能力已躋身全球第一梯隊,但在純粹的知識推理和視覺理解層面,仍需持續追趕。
Agent 集群:300 子 Agent 并行,協作步驟三倍擴展
K2.6 的 Agent 集群架構相比 K2.5 實現了三倍量級的擴展——子 Agent 從 100 個提升至 300 個,協作步驟從 1500 步擴展至 4000 步。這種橫向擴展的"群體智能"架構使 K2.6 能夠在一次自主運行中并行完成深度搜索、文檔分析、網頁生成、PPT 制作和表格輸出的端到端交付。
案例:天體論文一鍵轉化為學術技能
K2.6 驅動的 Agent 集群將一篇天體物理論文轉化為可復用的學術技能,最終產出一份 7000 字的研究論文、一個包含 2 萬多條數據記錄的結構化數據集及 14 張天文級圖表。上傳的文檔格式不受限——PDF、表格、PPT、Word 均可轉化為技能資產。
![]()
官方案例視頻截圖
在招聘場景中,Agent 集群可基于上傳的簡歷自動生成 100 個子 Agent,分別為用戶匹配 100 個加州崗位并定制化簡歷。官方博客還展示了 30 家零售門店的本地化頁面生成案例,300 個子 Agent 各自完成從文案撰寫到落地頁構建的全流程。
更值得關注的是 Claw Groups 的研究預覽。這是一個異構 Agent 生態,允許來自不同設備、運行不同模型、攜帶各自工具鏈的 Agent 與人類作為真正的協作者共同運行。K2.6 在其中擔任自適應協調者,根據技能畫像動態匹配任務,并在 Agent 故障或卡頓時自動重新分配。
月之暗面透露,內部團隊已使用 Claw Groups 運行端到端的內容生產和營銷活動。這一布局顯示出月之暗面正試圖從單一模型提供商向 Agent 生態基礎設施服務商轉型。
商業化:輸入成本上漲 58%
在商業層面,以美元計價,Kimi API K2.6 每百萬 Token 的輸入價格(緩存未命中)為 $0.95,較 K2.5 的 $0.60 上漲約 58%;輸出價格為 $4.00,較 K2.5 的 $3.00 上漲約 33%;緩存命中價格則為 $0.16/MTok。上下文窗口為 262,144 tokens(約 256K)。
![]()
價格調整背后,是長程編碼與 Agent 自主運行帶來的 Token 消耗遠超傳統對話模型。K2.6 支持最長 5 天的持續自主運行,官方內部團隊已使用 K2.6 驅動的 Agent 獨立運行 5 天,完成監控、事件響應和系統運維任務。這意味著單位任務中的 Token 消耗量遠非普通 API 調用可比。
與此同時,Kimi Agent 模式已內置上百個官方推薦技能,并支持將任意高質量文件——PDF、表格、PPT、Word 文檔——轉化為可復用技能,捕獲并保存文檔的結構與風格特征。這種將非結構化數據標準化為"技能資產"的能力,是月之暗面在企業服務市場構建壁壘的關鍵布局。
在 Meta 發布閉源旗艦 Muse Spark 的行業背景下,月之暗面堅持將 K2.6 全面開源。
月之暗面創始人楊植麟在 3 月 26 日的中關村論壇年會上明確表態:"如果模型能力能做到一樣的水平,開源會是絕對的勝利。"在他看來,開源的核心價值在于構建生態共贏的合作模式,通過催生海量應用場景,形成遠超閉源模式的市場總量。
Kimi K2.6 的開源,正是這一邏輯的延續。但開源并不等于免費——API 定價的上漲表明,月之暗面正通過分級計費策略,在保障高端企業用戶服務質量的同時探索可持續的 B 端盈利模式。
隨著 DeepSeek V4、阿里 Qwen3.6 等重磅模型的集體登場,2026 年大模型行業的洗牌已然加速。K2.6 的基準測試成績證明,國產開源模型已在工程化場景中站穩第一梯隊,但在純推理和視覺理解能力上仍有追趕空間。開源社區的繁榮與商業化變現之間的平衡,仍是月之暗面乃至整個行業接下來必須面對的長期考題。(本文首發鈦媒體APP,作者 | AGI Signal,編輯 | 秦聰慧)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.