![]()
4月20日晚間,月之暗面(Moonshot AI)正式發(fā)布并開(kāi)源最新旗艦?zāi)P?Kimi K2.6。該模型在長(zhǎng)程編碼、Agent 集群調(diào)度及自主執(zhí)行能力上實(shí)現(xiàn)顯著躍升,多項(xiàng)基準(zhǔn)測(cè)試成績(jī)持平或超越 GPT-5.4、Claude Opus 4.6 等國(guó)際頂尖閉源模型。
一周之內(nèi),Anthropic 發(fā)布 Claude Opus 4.7、阿里推出 Qwen3.6-Max-Preview,DeepSeek V4 亦將于下旬發(fā)布。Kimi K2.6 在這個(gè)密集窗口期登場(chǎng),是月之暗面在 AI 競(jìng)爭(zhēng)從"算法創(chuàng)新"轉(zhuǎn)向"工程化落地"關(guān)鍵節(jié)點(diǎn)的一次戰(zhàn)略展示。
長(zhǎng)程編碼:從單輪補(bǔ)全到系統(tǒng)級(jí)優(yōu)化
![]()
與此前大模型在代碼任務(wù)中多局限于"單輪補(bǔ)全"或"簡(jiǎn)單腳本編寫(xiě)"不同,Kimi K2.6 的核心進(jìn)步在于處理復(fù)雜系統(tǒng)工程的能力。據(jù)官方技術(shù)博客披露,K2.6 可自主完成從需求分析、代碼實(shí)現(xiàn)、測(cè)試驗(yàn)證到性能優(yōu)化的全流程閉環(huán),單次任務(wù)可修改超過(guò) 4000 行代碼。
兩項(xiàng)實(shí)測(cè)案例展現(xiàn)了這一能力。
案例一:Zig 語(yǔ)言重寫(xiě)推理引擎
在 Mac 本地部署 Qwen3.5-0.8B 模型時(shí),K2.6 跨語(yǔ)言使用小眾的 Zig 語(yǔ)言進(jìn)行推理優(yōu)化,歷經(jīng) 12 小時(shí)連續(xù)運(yùn)行、4000 余次工具調(diào)用及 14 輪迭代,將推理吞吐量從 15 tokens/s 提升至 193 tokens/s,最終速度超越主流推理框架 LM Studio 約 20%。
![]()
案例二:8 年引擎的性能重構(gòu)
在對(duì)擁有 8 年歷史的開(kāi)源金融撮合引擎 exchange-core 的優(yōu)化中,K2.6 在 13 小時(shí)的執(zhí)行過(guò)程中迭代了 12 種優(yōu)化策略,發(fā)起 1000 余次工具調(diào)用,通過(guò)分析 CPU 與內(nèi)存火焰圖定位隱藏瓶頸,將核心線(xiàn)程拓?fù)鋸?4ME+2RE 重構(gòu)為 2ME+1RE。即便引擎已接近性能極限,K2.6 仍將中位吞吐量從 0.43 提升至 1.24 MT/s(提升 185%),峰值吞吐量從 1.23 提升至 2.86 MT/s(提升 133%)。
![]()
"這不再是簡(jiǎn)單的'做題',而是在解決真實(shí)的工程問(wèn)題。"多位開(kāi)發(fā)者在體驗(yàn)后反饋,K2.6 已具備從編碼到前端設(shè)計(jì)再到全棧交付的專(zhuān)業(yè)級(jí) Web 應(yīng)用構(gòu)建能力。在官方的 Code-Driven Design 內(nèi)部評(píng)測(cè)中,K2.6 在落地頁(yè)構(gòu)建、全棧應(yīng)用開(kāi)發(fā)等四類(lèi)任務(wù)上表現(xiàn)接近 Google AI Studio。
基準(zhǔn)測(cè)試:編碼領(lǐng)先,推理仍有差距
官方公布的基準(zhǔn)測(cè)試數(shù)據(jù)顯示,K2.6 在工程類(lèi)任務(wù)中全面領(lǐng)先,但純推理能力與國(guó)際頂尖閉源模型仍有距離。
![]()
編碼與 Agent 任務(wù)方面,K2.6 在 SWE-Bench Pro 中取得 58.6%,領(lǐng)先所有參與對(duì)比的模型;在 Terminal-Bench 2.0 中以 66.7% 超越 GPT-5.4 和 Claude Opus 4.6 的 65.4%;在博士級(jí)難度的 Humanity's Last Exam(工具增強(qiáng)版)中以 54.0% 位居第一;DeepSearchQA 的 F1 分?jǐn)?shù)達(dá) 92.5%,大幅領(lǐng)先 GPT-5.4 的 78.6%。
然而,在不使用工具的純推理測(cè)試中,K2.6 的短板同樣明顯。HLE-Full 僅得 34.7%,低于 GPT-5.4 的 39.8% 和 Gemini 3.1 Pro 的 44.4%;在視覺(jué)推理類(lèi)基準(zhǔn)如 MathVision(87.4% vs GPT-5.4 的 92.0%)上,差距同樣存在。這套基準(zhǔn)測(cè)試描繪了一個(gè)清晰的輪廓:K2.6 的工程化與工具調(diào)度能力已躋身全球第一梯隊(duì),但在純粹的知識(shí)推理和視覺(jué)理解層面,仍需持續(xù)追趕。
Agent 集群:300 子 Agent 并行,協(xié)作步驟三倍擴(kuò)展
K2.6 的 Agent 集群架構(gòu)相比 K2.5 實(shí)現(xiàn)了三倍量級(jí)的擴(kuò)展——子 Agent 從 100 個(gè)提升至 300 個(gè),協(xié)作步驟從 1500 步擴(kuò)展至 4000 步。這種橫向擴(kuò)展的"群體智能"架構(gòu)使 K2.6 能夠在一次自主運(yùn)行中并行完成深度搜索、文檔分析、網(wǎng)頁(yè)生成、PPT 制作和表格輸出的端到端交付。
案例:天體論文一鍵轉(zhuǎn)化為學(xué)術(shù)技能
K2.6 驅(qū)動(dòng)的 Agent 集群將一篇天體物理論文轉(zhuǎn)化為可復(fù)用的學(xué)術(shù)技能,最終產(chǎn)出一份 7000 字的研究論文、一個(gè)包含 2 萬(wàn)多條數(shù)據(jù)記錄的結(jié)構(gòu)化數(shù)據(jù)集及 14 張?zhí)煳募?jí)圖表。上傳的文檔格式不受限——PDF、表格、PPT、Word 均可轉(zhuǎn)化為技能資產(chǎn)。
![]()
官方案例視頻截圖
在招聘場(chǎng)景中,Agent 集群可基于上傳的簡(jiǎn)歷自動(dòng)生成 100 個(gè)子 Agent,分別為用戶(hù)匹配 100 個(gè)加州崗位并定制化簡(jiǎn)歷。官方博客還展示了 30 家零售門(mén)店的本地化頁(yè)面生成案例,300 個(gè)子 Agent 各自完成從文案撰寫(xiě)到落地頁(yè)構(gòu)建的全流程。
更值得關(guān)注的是 Claw Groups 的研究預(yù)覽。這是一個(gè)異構(gòu) Agent 生態(tài),允許來(lái)自不同設(shè)備、運(yùn)行不同模型、攜帶各自工具鏈的 Agent 與人類(lèi)作為真正的協(xié)作者共同運(yùn)行。K2.6 在其中擔(dān)任自適應(yīng)協(xié)調(diào)者,根據(jù)技能畫(huà)像動(dòng)態(tài)匹配任務(wù),并在 Agent 故障或卡頓時(shí)自動(dòng)重新分配。
月之暗面透露,內(nèi)部團(tuán)隊(duì)已使用 Claw Groups 運(yùn)行端到端的內(nèi)容生產(chǎn)和營(yíng)銷(xiāo)活動(dòng)。這一布局顯示出月之暗面正試圖從單一模型提供商向 Agent 生態(tài)基礎(chǔ)設(shè)施服務(wù)商轉(zhuǎn)型。
商業(yè)化:輸入成本上漲 58%
在商業(yè)層面,以美元計(jì)價(jià),Kimi API K2.6 每百萬(wàn) Token 的輸入價(jià)格(緩存未命中)為 $0.95,較 K2.5 的 $0.60 上漲約 58%;輸出價(jià)格為 $4.00,較 K2.5 的 $3.00 上漲約 33%;緩存命中價(jià)格則為 $0.16/MTok。上下文窗口為 262,144 tokens(約 256K)。
![]()
價(jià)格調(diào)整背后,是長(zhǎng)程編碼與 Agent 自主運(yùn)行帶來(lái)的 Token 消耗遠(yuǎn)超傳統(tǒng)對(duì)話(huà)模型。K2.6 支持最長(zhǎng) 5 天的持續(xù)自主運(yùn)行,官方內(nèi)部團(tuán)隊(duì)已使用 K2.6 驅(qū)動(dòng)的 Agent 獨(dú)立運(yùn)行 5 天,完成監(jiān)控、事件響應(yīng)和系統(tǒng)運(yùn)維任務(wù)。這意味著單位任務(wù)中的 Token 消耗量遠(yuǎn)非普通 API 調(diào)用可比。
與此同時(shí),Kimi Agent 模式已內(nèi)置上百個(gè)官方推薦技能,并支持將任意高質(zhì)量文件——PDF、表格、PPT、Word 文檔——轉(zhuǎn)化為可復(fù)用技能,捕獲并保存文檔的結(jié)構(gòu)與風(fēng)格特征。這種將非結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化為"技能資產(chǎn)"的能力,是月之暗面在企業(yè)服務(wù)市場(chǎng)構(gòu)建壁壘的關(guān)鍵布局。
在 Meta 發(fā)布閉源旗艦 Muse Spark 的行業(yè)背景下,月之暗面堅(jiān)持將 K2.6 全面開(kāi)源。
月之暗面創(chuàng)始人楊植麟在 3 月 26 日的中關(guān)村論壇年會(huì)上明確表態(tài):"如果模型能力能做到一樣的水平,開(kāi)源會(huì)是絕對(duì)的勝利。"在他看來(lái),開(kāi)源的核心價(jià)值在于構(gòu)建生態(tài)共贏的合作模式,通過(guò)催生海量應(yīng)用場(chǎng)景,形成遠(yuǎn)超閉源模式的市場(chǎng)總量。
Kimi K2.6 的開(kāi)源,正是這一邏輯的延續(xù)。但開(kāi)源并不等于免費(fèi)——API 定價(jià)的上漲表明,月之暗面正通過(guò)分級(jí)計(jì)費(fèi)策略,在保障高端企業(yè)用戶(hù)服務(wù)質(zhì)量的同時(shí)探索可持續(xù)的 B 端盈利模式。
隨著 DeepSeek V4、阿里 Qwen3.6 等重磅模型的集體登場(chǎng),2026 年大模型行業(yè)的洗牌已然加速。K2.6 的基準(zhǔn)測(cè)試成績(jī)證明,國(guó)產(chǎn)開(kāi)源模型已在工程化場(chǎng)景中站穩(wěn)第一梯隊(duì),但在純推理和視覺(jué)理解能力上仍有追趕空間。開(kāi)源社區(qū)的繁榮與商業(yè)化變現(xiàn)之間的平衡,仍是月之暗面乃至整個(gè)行業(yè)接下來(lái)必須面對(duì)的長(zhǎng)期考題。(本文首發(fā)鈦媒體APP,作者 | AGI Signal,編輯 | 秦聰慧)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.