網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Kimi K2.6 開(kāi)源直逼 GPT-5.4：漲 58% 的 API 定價(jià)，暴露了月之暗面的真實(shí)意圖

2026-04-21 17:27:53　來(lái)源: 鈦媒體APP

北京舉報(bào)

分享至

4月20日晚間，月之暗面（Moonshot AI）正式發(fā)布并開(kāi)源最新旗艦?zāi)Ｐ?Kimi K2.6。該模型在長(zhǎng)程編碼、Agent 集群調(diào)度及自主執(zhí)行能力上實(shí)現(xiàn)顯著躍升，多項(xiàng)基準(zhǔn)測(cè)試成績(jī)持平或超越 GPT-5.4、Claude Opus 4.6 等國(guó)際頂尖閉源模型。

一周之內(nèi)，Anthropic 發(fā)布 Claude Opus 4.7、阿里推出 Qwen3.6-Max-Preview，DeepSeek V4 亦將于下旬發(fā)布。Kimi K2.6 在這個(gè)密集窗口期登場(chǎng)，是月之暗面在 AI 競(jìng)爭(zhēng)從"算法創(chuàng)新"轉(zhuǎn)向"工程化落地"關(guān)鍵節(jié)點(diǎn)的一次戰(zhàn)略展示。

長(zhǎng)程編碼：從單輪補(bǔ)全到系統(tǒng)級(jí)優(yōu)化

與此前大模型在代碼任務(wù)中多局限于"單輪補(bǔ)全"或"簡(jiǎn)單腳本編寫(xiě)"不同，Kimi K2.6 的核心進(jìn)步在于處理復(fù)雜系統(tǒng)工程的能力。據(jù)官方技術(shù)博客披露，K2.6 可自主完成從需求分析、代碼實(shí)現(xiàn)、測(cè)試驗(yàn)證到性能優(yōu)化的全流程閉環(huán)，單次任務(wù)可修改超過(guò) 4000 行代碼。

兩項(xiàng)實(shí)測(cè)案例展現(xiàn)了這一能力。

案例一：Zig 語(yǔ)言重寫(xiě)推理引擎

在 Mac 本地部署 Qwen3.5-0.8B 模型時(shí)，K2.6 跨語(yǔ)言使用小眾的 Zig 語(yǔ)言進(jìn)行推理優(yōu)化，歷經(jīng) 12 小時(shí)連續(xù)運(yùn)行、4000 余次工具調(diào)用及 14 輪迭代，將推理吞吐量從 15 tokens/s 提升至 193 tokens/s，最終速度超越主流推理框架 LM Studio 約 20%。

案例二：8 年引擎的性能重構(gòu)

在對(duì)擁有 8 年歷史的開(kāi)源金融撮合引擎 exchange-core 的優(yōu)化中，K2.6 在 13 小時(shí)的執(zhí)行過(guò)程中迭代了 12 種優(yōu)化策略，發(fā)起 1000 余次工具調(diào)用，通過(guò)分析 CPU 與內(nèi)存火焰圖定位隱藏瓶頸，將核心線(xiàn)程拓?fù)鋸?4ME+2RE 重構(gòu)為 2ME+1RE。即便引擎已接近性能極限，K2.6 仍將中位吞吐量從 0.43 提升至 1.24 MT/s（提升 185%），峰值吞吐量從 1.23 提升至 2.86 MT/s（提升 133%）。

"這不再是簡(jiǎn)單的'做題'，而是在解決真實(shí)的工程問(wèn)題。"多位開(kāi)發(fā)者在體驗(yàn)后反饋，K2.6 已具備從編碼到前端設(shè)計(jì)再到全棧交付的專(zhuān)業(yè)級(jí) Web 應(yīng)用構(gòu)建能力。在官方的 Code-Driven Design 內(nèi)部評(píng)測(cè)中，K2.6 在落地頁(yè)構(gòu)建、全棧應(yīng)用開(kāi)發(fā)等四類(lèi)任務(wù)上表現(xiàn)接近 Google AI Studio。

基準(zhǔn)測(cè)試：編碼領(lǐng)先，推理仍有差距

官方公布的基準(zhǔn)測(cè)試數(shù)據(jù)顯示，K2.6 在工程類(lèi)任務(wù)中全面領(lǐng)先，但純推理能力與國(guó)際頂尖閉源模型仍有距離。

編碼與 Agent 任務(wù)方面，K2.6 在 SWE-Bench Pro 中取得 58.6%，領(lǐng)先所有參與對(duì)比的模型；在 Terminal-Bench 2.0 中以 66.7% 超越 GPT-5.4 和 Claude Opus 4.6 的 65.4%；在博士級(jí)難度的 Humanity's Last Exam（工具增強(qiáng)版）中以 54.0% 位居第一；DeepSearchQA 的 F1 分?jǐn)?shù)達(dá) 92.5%，大幅領(lǐng)先 GPT-5.4 的 78.6%。

然而，在不使用工具的純推理測(cè)試中，K2.6 的短板同樣明顯。HLE-Full 僅得 34.7%，低于 GPT-5.4 的 39.8% 和 Gemini 3.1 Pro 的 44.4%；在視覺(jué)推理類(lèi)基準(zhǔn)如 MathVision（87.4% vs GPT-5.4 的 92.0%）上，差距同樣存在。這套基準(zhǔn)測(cè)試描繪了一個(gè)清晰的輪廓：K2.6 的工程化與工具調(diào)度能力已躋身全球第一梯隊(duì)，但在純粹的知識(shí)推理和視覺(jué)理解層面，仍需持續(xù)追趕。

Agent 集群：300 子 Agent 并行，協(xié)作步驟三倍擴(kuò)展

K2.6 的 Agent 集群架構(gòu)相比 K2.5 實(shí)現(xiàn)了三倍量級(jí)的擴(kuò)展——子 Agent 從 100 個(gè)提升至 300 個(gè)，協(xié)作步驟從 1500 步擴(kuò)展至 4000 步。這種橫向擴(kuò)展的"群體智能"架構(gòu)使 K2.6 能夠在一次自主運(yùn)行中并行完成深度搜索、文檔分析、網(wǎng)頁(yè)生成、PPT 制作和表格輸出的端到端交付。

案例：天體論文一鍵轉(zhuǎn)化為學(xué)術(shù)技能

K2.6 驅(qū)動(dòng)的 Agent 集群將一篇天體物理論文轉(zhuǎn)化為可復(fù)用的學(xué)術(shù)技能，最終產(chǎn)出一份 7000 字的研究論文、一個(gè)包含 2 萬(wàn)多條數(shù)據(jù)記錄的結(jié)構(gòu)化數(shù)據(jù)集及 14 張?zhí)煳募?jí)圖表。上傳的文檔格式不受限——PDF、表格、PPT、Word 均可轉(zhuǎn)化為技能資產(chǎn)。

官方案例視頻截圖

在招聘場(chǎng)景中，Agent 集群可基于上傳的簡(jiǎn)歷自動(dòng)生成 100 個(gè)子 Agent，分別為用戶(hù)匹配 100 個(gè)加州崗位并定制化簡(jiǎn)歷。官方博客還展示了 30 家零售門(mén)店的本地化頁(yè)面生成案例，300 個(gè)子 Agent 各自完成從文案撰寫(xiě)到落地頁(yè)構(gòu)建的全流程。

更值得關(guān)注的是 Claw Groups 的研究預(yù)覽。這是一個(gè)異構(gòu) Agent 生態(tài)，允許來(lái)自不同設(shè)備、運(yùn)行不同模型、攜帶各自工具鏈的 Agent 與人類(lèi)作為真正的協(xié)作者共同運(yùn)行。K2.6 在其中擔(dān)任自適應(yīng)協(xié)調(diào)者，根據(jù)技能畫(huà)像動(dòng)態(tài)匹配任務(wù)，并在 Agent 故障或卡頓時(shí)自動(dòng)重新分配。

月之暗面透露，內(nèi)部團(tuán)隊(duì)已使用 Claw Groups 運(yùn)行端到端的內(nèi)容生產(chǎn)和營(yíng)銷(xiāo)活動(dòng)。這一布局顯示出月之暗面正試圖從單一模型提供商向 Agent 生態(tài)基礎(chǔ)設(shè)施服務(wù)商轉(zhuǎn)型。

商業(yè)化：輸入成本上漲 58%

在商業(yè)層面，以美元計(jì)價(jià)，Kimi API K2.6 每百萬(wàn) Token 的輸入價(jià)格（緩存未命中）為 $0.95，較 K2.5 的 $0.60 上漲約 58%；輸出價(jià)格為 $4.00，較 K2.5 的 $3.00 上漲約 33%；緩存命中價(jià)格則為 $0.16/MTok。上下文窗口為 262,144 tokens（約 256K）。

價(jià)格調(diào)整背后，是長(zhǎng)程編碼與 Agent 自主運(yùn)行帶來(lái)的 Token 消耗遠(yuǎn)超傳統(tǒng)對(duì)話(huà)模型。K2.6 支持最長(zhǎng) 5 天的持續(xù)自主運(yùn)行，官方內(nèi)部團(tuán)隊(duì)已使用 K2.6 驅(qū)動(dòng)的 Agent 獨(dú)立運(yùn)行 5 天，完成監(jiān)控、事件響應(yīng)和系統(tǒng)運(yùn)維任務(wù)。這意味著單位任務(wù)中的 Token 消耗量遠(yuǎn)非普通 API 調(diào)用可比。

與此同時(shí)，Kimi Agent 模式已內(nèi)置上百個(gè)官方推薦技能，并支持將任意高質(zhì)量文件——PDF、表格、PPT、Word 文檔——轉(zhuǎn)化為可復(fù)用技能，捕獲并保存文檔的結(jié)構(gòu)與風(fēng)格特征。這種將非結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化為"技能資產(chǎn)"的能力，是月之暗面在企業(yè)服務(wù)市場(chǎng)構(gòu)建壁壘的關(guān)鍵布局。

在 Meta 發(fā)布閉源旗艦 Muse Spark 的行業(yè)背景下，月之暗面堅(jiān)持將 K2.6 全面開(kāi)源。

月之暗面創(chuàng)始人楊植麟在 3 月 26 日的中關(guān)村論壇年會(huì)上明確表態(tài)："如果模型能力能做到一樣的水平，開(kāi)源會(huì)是絕對(duì)的勝利。"在他看來(lái)，開(kāi)源的核心價(jià)值在于構(gòu)建生態(tài)共贏的合作模式，通過(guò)催生海量應(yīng)用場(chǎng)景，形成遠(yuǎn)超閉源模式的市場(chǎng)總量。

Kimi K2.6 的開(kāi)源，正是這一邏輯的延續(xù)。但開(kāi)源并不等于免費(fèi)——API 定價(jià)的上漲表明，月之暗面正通過(guò)分級(jí)計(jì)費(fèi)策略，在保障高端企業(yè)用戶(hù)服務(wù)質(zhì)量的同時(shí)探索可持續(xù)的 B 端盈利模式。

隨著 DeepSeek V4、阿里 Qwen3.6 等重磅模型的集體登場(chǎng)，2026 年大模型行業(yè)的洗牌已然加速。K2.6 的基準(zhǔn)測(cè)試成績(jī)證明，國(guó)產(chǎn)開(kāi)源模型已在工程化場(chǎng)景中站穩(wěn)第一梯隊(duì)，但在純推理和視覺(jué)理解能力上仍有追趕空間。開(kāi)源社區(qū)的繁榮與商業(yè)化變現(xiàn)之間的平衡，仍是月之暗面乃至整個(gè)行業(yè)接下來(lái)必須面對(duì)的長(zhǎng)期考題。（本文首發(fā)鈦媒體APP，作者 | AGI Signal，編輯 | 秦聰慧）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.