網易首頁 > 網易號 > 正文申請入駐

Kimi K2 - 非主流的超級大杯非推理大模型

2025-07-12 08:18:54　來源: 平凡AI

海外舉報

分享至

馬斯克的Grok4剛發布沒兩天，我以為Grok4會是世界上最大的非推理模型，畢竟它背后有世界上最大的GPU集群之一，但是它走的還是其他家的老路，做一個不錯的foundation model，然后用RL做post-training，刷榜，最后再搞個一年2萬塊的會員門檻將普通用戶拒之門外。

但Kimi給全世界交出來一份另類的卷子，我覺得簡直就是針對于馬斯克Grok4的回手掏，這是一點兒不那么技術的分析。

Github:https://github.com/MoonshotAI/Kimi-K2?tab=readme-ov-file#4-deployment

技術報告：https://moonshotai.github.io/Kimi-K2/

使用方式（免費）：https://www.kimi.com/

全世界最大的開源模型，總參數量高達1T（Trillion，萬億），以前一般都用B（10億），比如DeepSeek的671B，Qwen系列的從0.5B到300多B，主流模型都在幾百億-幾千億的區間，以前有萬億模型，但是訓練容易爆炸且推理速度極慢，Kimi搞出來一套招法搞定了超大稀疏MoE，它標志著「開源規模」進入了萬億參數時代。
Foundation model，也就是它本身是不帶有thinking/reasoning能力的，用DeepSeek來比如，V3模型就是foundation model，R1就是推理模型，R1是在V3的基礎上后訓練出來的。這樣做很吃虧，因為Foundation model加點RL post-training就有非常明顯的提升，但Kimi沒這么做。
Agent時代的含金量又一次提升，Agent非?；?，大家用的模型都非常的統一，不管事OpenAI的o系列，Google的Gemini系列，DeepSeek的R系列，Claude的4-sonnet或者opus，全都是整齊劃一的推理/思考模型，不為別的，本身的foundation model腦子不夠聰明，其次腦容量?。╟ontext length），做不了動不動運行幾十分鐘需要吃掉幾萬十幾萬token的agent任務。Kimi K2反其道而行，foundation model，直接支持Agent，tool calling。這一點兒非常狠，意味著Kimi給所有人留下了懸念，我Foundation model的agentic能力就這么好，你等我post- training弄好，還不得起飛？
引領新范式，原來的大模型由ChatGPT起了個頭，雖然做的是AI，但實際上大家都叫ChatBot，也就是聊天機器人，聊天其實就圈定了一個大概范圍，即Conversation，聊天嘛，你撐死了就是你一嘴我一嘴。Kimi K2把foundation model叫做：Open Agentic Intelligence。

翻譯過來，就是開放代理型智能，無疑想要引領一把AI大模型的流行趨勢，把本身設計為聊天機器人的foundation model，徹底轉換成更加適配Agent時代的AI，說實話，我覺得非常的有野心。

這次的kimi技術報告里面有以下的重要細節。

PART 0PART 01

1 模型架構與創新設計

一共發了倆模型：

Kimi-K2-Base，這是為需要“完全控制微調”的研究人員準備的基礎模型
Kimi-K2-Instruct，這是為“即插即用的通用聊天和智能體體驗”而優化的訓練后模型

兩個都是萬億的超大規模MoE（混合專家結構），激活參數只有32B；同樣的DeepSeek等一眾大模型都用的MoE結構，這不稀奇，但DeepSeek V3/R1的總參數都是671B，而激活參數量比k2還多，37B。

另外，據說GPT-4有約1.8萬億總參數，分布在16個專家中，每次推理激活約2800億參數（即激活2個專家）。

K2的激活參數量（320億）遠低于此，這表明其設計選擇優先考慮了更低的推理計算成本和更快的響應速度，這意味著Kimi依舊覺得今后的幾年內算力成本依舊是瓶頸（部分的符合token經濟學原理），所以得出來結論，那就是越稀疏越省錢。

值得注意的是，K2的專家數量夠多的，一共有384個專家，這種設計可以被理解為構建了一個龐大的“知識庫”，而非一個由少數通才組成的委員會。擁有384個專家的模型，其特化潛力遠比擁有16個專家（如GPT-4）的模型更為精細。

每次激活8個專家意味著，對于任何給定的任務，模型都會組建一個“專家委員會”來處理信息。龐大的專家數量暗示了一種旨在捕獲極其廣泛和多樣化的知識領域與技能的設計哲學。這些海量的“非激活”參數構成了一個巨大的知識儲備庫。

這對于模型的下游應用具有重要意義。例如，針對特定任務（如法律分析或醫學研究）對Kimi-K2-Base進行微調可能會非常高效。

另外K2支持128K的上下文（Context）長度，在foundation model里面算是非常大的長度來，這得益于MLA的attention機制，再加上本身Kimi起家就是靠的1百萬超長上下文，所以這一點兒能實現也不奇怪。

PART 02

2 訓練穩定性的主要基石：MuonClip優化器

這部分的寫作非常的蘇神。

原理比較復雜，簡單來講大模型在訓練的時候想要的錯誤率是這樣的，平緩下降，直到降到不能降。

但很不好意思，這種動不動就是幾周甚至幾個月的訓練，非常有可能是你訓練到一定程度，模型直接炸了。

這個現象就叫“注意力邏輯值爆炸”（exploding attention logits）。在該現象中，注意力機制中的數值（主要是attention公式里面的q和k值）會失控式增長，最終導致訓練過程崩潰。

Kimi發明了MuonClip，這項技術的核心是一種名為qk-clip的創新方法。它在每次優化器更新后，直接對查詢（query, q）和鍵（key, k）投影的權重矩陣進行重新縮放。通過這種方式，qk-clip從源頭上控制了注意力邏輯值的尺度，有效防止了其爆炸性增長。

這項創新的效果非常顯著，使得月之暗面能夠在高達15.5萬億個tokens的數據集上預訓練Kimi-K2-Base，并實現了“零訓練尖峰”（zero training spikes）的記錄。

效果非常好，非常平緩的下降。

這一成就揭示了大型語言模型開發中一個更深層次的現實：訓練穩定性是真正的技術前沿。大家對大型語言模型的討論往往集中在參數數量、數據規模和基準測試分數上。

然而，一個隱藏的、但可以說更為關鍵的前沿是訓練的穩定性。像Kimi-K2這樣的萬億參數模型，一次完整的訓練運行可能需要耗費價值數千萬甚至上億美元的計算資源。一次“訓練spike”就可能使數周的進展和巨大的財務投資付之一炬。

Kimi現在開源了，給友商省錢了，仗義。

PART 03

3 原生工具調用與Agent架構

K2最大的特色亮點之一，是將工具使用能力和Agent能力深度融入模型訓練與推理接口中，它的定位為“為智能體能力精心優化”并為“工具使用、推理和自主解決問題”而設計的模型，這是一個概念上的轉變。

這個能力是通過這個大規模的智能體數據模擬出來的，說白了，沒有數據就沒有智能，Kimi構建了這么一套流程來不斷的產生數據并反哺自身。

這個過程涉及構建數百個模擬智能體，讓它們嘗試使用工具完成任務，并使用一個AI裁判來篩選和學習這些交互過程。此外，還輔以一個“通用強化學習”（General Reinforcement Learning）系統，在該系統中，模型充當自己的評審員，以在沒有唯一正確答案的任務上進行自我提升。

簡單來說，K2當裁判、生成器、環境三合一，看似是 self-play，其實是把人類數據蒸餾成“高維規則”，你看rubric提到了很多次。

說白了，雖然rubric足夠的多和詳細，但還會有問題：

裁判模型本身如果帶有偏見，整個數據飛輪會把偏差指數級放大。更深層的問題是，當 rubric 足夠細，模型其實不再是“自主學習”，而是“規則過擬合”。

不過暫時看來，K2還是挺強的，不過未來如何，得看post-training的到的推理模型。

PART 04

4 性能

這一個放最后的原因是刷榜性能評分并不能代表實際表現，只能作為參考。

K2和非推理模型相比，絕大多數在top2，少數top1，top2的也僅比Claude4差點。

在使用工具這個維度上大多數排在top1。

編程部分弱于Claude。

主要的特色在于對于K2工具使用和自主編程的測試，其實就是agent能力。在 TauCoT 工具使用基準（Tau2系列）中，Kimi-K2 在零樣本情況下可以理解用戶意圖并正確選擇工具，取得如零售場景70.6、航空56.5的高平均得分，接近甚至超過Claude等模型。

在AceBench（開放代理任務評測）中，Kimi-K2 也達到 76.5% 的準確率，與GPT-4/Claude處于同一量級。從結果看，Kimi-K2 確立了自身作為當今最強開源通用大模型之一的地位，其在知識、推理、編碼各方面的表現都逼近甚至部分超越了GPT-4、Claude等業界頂尖水平。

Kimi K2 的發布標志著 2025 年大模型競賽的賽道還有很多，比如超大規模的開源模型，擯棄chatbot而是直接原生agent能力，還有就是要想實現效率高和性能好，超級稀疏MoE或許是個解法。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.