![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
“這是又一次DeepSeek式的輝煌時刻嗎?開源軟件再次超越閉源軟件。”
2025年11月6日,Hugging Face 聯合創始人 Thomas Wolf 在 X 上的感慨,精準概括了Kimi K2 Thinking模型發布后所引發的討論。
![]()
Kimi K2 Thinking在多個基準測試中取得了亮眼的成績,追平、乃至超過了SOTA的閉源模型。例如,在HLE(Humanity's Last Exam)text-only子集的基準上,其工具增強版得分達到44.9%,超過了GPT-5的41.7% 。
Kimi K2 Thinking是基于 Kimi K2 模型訓練而來的,專注于提升Agentic能力和推理能力。這是一個擁有1萬億總參數的混合專家模型(Mixture-of-Experts, MoE),每次推理激活約320億參數,支持256k的上下文窗口,并采用了原生INT4量化技術。設計思路是在保持巨大模型規模的同時,想辦法控制計算成本和訓練成本。據CNBC援引知情人士的報道,該模型的訓練成本僅為460萬美元。作為對比,DeepSeek披露的 V3訓練成本(租賃價,正式訓練階段)是560 萬美元,R1為29.4萬美元。這里主要考慮的是GPU預訓練費用,不包括研發、基礎設施等投資。
Kimi K2 Thinking的一個核心特性是Agent能力,官方宣稱它能夠連續執行200-300次工具調用來解決復雜問題。Grok-4等閉源陣營廣泛采用RL提升工具使用與長程規劃,但在開源模型中看到如此的實現還是第一次。它表明開源社區正在快速跟上智能體技術的前沿,同時也對模型托管服務提出了更高的要求。
Kimi K2 Thinking目前還沒有發布技術報告,僅有技術博客、使用文檔,未披露它的訓練數據、RL細節或配方。模型發布后不久,技術社區的關于模型架構本身的討論也開始出現。在X和Reddit上,一張將其與DeepSeek模型并排比較的架構圖又開始流傳,引發了關于其技術淵源的討論。
在DeepSeek的R2“難產”已久、社區翹首以盼的背景下,Kimi帶著一個架構存在繼承關系且同樣是開源SOTA推理模型的模型出現,讓人恍惚以為Kimi是替DeepSeek把R2發了。
1
架構的“繼承”與工程的“魔法”
![]()
LLM研究工程師Sebastian Raschka對此進行了詳細的分析,他在threads指出了兩者間的具體異同:
?每個MoE層的專家數量增加約1.5倍(384 vs 256)
?更大的詞匯表(160k vs 129k)
?K2每個token激活約320億參數(DeepSeek R1為370億)
?MoE之前的密集FFN塊更少
![]()
“簡而言之,Kimi K2本質上就是一個規模上略作調整的 DeepSeek V3/R1。它的改進主要體現在數據和訓練配方上。”
Raschka的分析指出了一個關鍵事實,Kimi K2 Thinking對DeepSeek核心架構的“繼承”是顯而易見的,包括MoE機制、MLA(多頭潛在注意力)等設計。這是在一個已被驗證的基座上,根據自身的目標進行了針對性的調整和優化。例如,減少注意力頭和激活參數量,旨在降低推理成本;而增加專家數量和詞匯表,則是為了增強模型的知識容量和表達能力。這種“站在巨人肩膀上”的做法,是開源精神最直接的體現。
除了對DeepSeek架構的繼承,Kimi K2 Thinking的成果也離不開對整個開源生態成果的廣泛“化用”。從底層用于加速注意力計算的FlashAttention,到K2技術報告中提到的、為解決訓練不穩定性而改進的MuonClip優化器,再到各種數據處理和后訓練方法論,都整合了開源社區的集體智慧。
如果說架構和開源技術決定了模型的骨架,那么讓其血肉豐滿的,則是月之暗面自身的工程實現能力。這主要體現在三個方面:
1、訓練穩定性:在長達15.5萬億tokens的預訓練過程中,Kimi K2 Thinking實現了“零loss spike(損失尖峰)”。這意味著訓練過程極其穩定,無需因模型崩潰而進行成本高昂的回滾。這對于萬億參數規模的模型來說,是一項重要的工程成就。
2、原生量化推理:Kimi K2 Thinking支持原生INT4量化推理,據稱能在極小的性能損失下,將推理速度提升約2倍,并顯著降低部署所需的GPU顯存。這是將大參數模型從實驗室推向廣泛應用的關鍵。
3、長程任務執行:模型能夠穩定執行200-300輪工具調用,這不僅考驗了模型的推理能力,也檢驗了其系統魯棒性。在長達數百步的交互中,模型必須能處理各種異常,背后需要一套復雜的工程機制。
Kimi團隊在選擇和整合這些開源技術時的具體決策,及其工程團隊最終的執行能力,共同構成了Kimi K2 Thinking取得當前成果的基礎。這種技術路線和成功范式,讓許多人聯想到了當初R1發布時的情景。它承接DeepSeek 的 MLA+MoE高效架構與“可驗證任務優先”的數據/獎勵取向,用工程手段(如 MuonClip、長上下文、工具鏈)把能力做穩。不同點在于K2 Thinking的開放形態與目標更偏應用交付。
1
SOTA之外的取舍
對Kimi K2 Thinking的全面審視,不能只停留在Benchmark的分數上。一個繞不開點是其Benchmark成績的來源。Kimi K2 Thinking在技術博客中展示的許多SOTA分數,是基于一個特殊的“Heavy”模式獲得的。根據官方在Hugging Face上的說明,這個模式通過并行運行多達8個推理然后通過反思性地聚合所有輸出來生成最終結果。這種做法在學術界和模型競賽中很常見。在今年7月9日的Grok 4的發布會上,xAI公布Grok 4 Heavy的HLE得分為44.4 %,text-only 子集得分50.7%。
這種heavy模式也帶來一些問題,一是資源消耗巨大,普通用戶通過API或本地部署幾乎不可能復現這種性能,二是它造成了Benchmark分數與模型單實例真實能力之間的差距。用戶實際能體驗到的標準模式,與榜單上的“野獸模式”不是一回事。
對效率的追求,也體現在模型底層的工程決策中,而這些決策往往遵循著性能與成本的交換原則。例如,模型采用的原生INT4量化,雖然官方宣稱性能損失極小,但從FP16到INT4的精度壓縮是巨大的。這種量化在標準評測集上可能表現良好,但在更長、更復雜的推理鏈條中,精度損失的累積效應是否會影響任務的最終成功率,仍有待更廣泛的實際應用檢驗。
同樣,將注意力頭從128個減少到64個,也是Kimi團隊為降低內存帶寬和計算開銷做出的主動選擇。但K2技術報告也承認,更多的注意力頭通常能帶來更好的模型質量。這意味著,Kimi K2為了更高的推理效率,在模型能力上做出了一定的妥協。
Kimi K2 Thinking對Agent能力的押注,也帶來了其他維度的局限性。官方公布的基準測試顯示,K2 Thinking 在"智能體推理"和"智能體搜索"兩項指標上超越了 OpenAI 與 Anthropic 的頂級模型(GPT-5 和 Sonnet 4.5 Thinking),但在“編程能力”方面尚未登頂。
在前沿模型紛紛將多模態作為標配的今天,Kimi K2 Thinking仍然是一個純文本模型。這種差異在處理涉及視覺或空間推理的任務時尤為明顯。例如,在生成一個“鵜鶘騎自行車”的SVG圖像這類任務上,純文本模型可能會因為缺乏對物理世界的基本視覺理解而存在一些問題:
![]()
Kimi K2 Thinking生成的SVG
Kimi K2 Thinking的發布,給人的感覺就像是開源AI社區又一次集體狂歡。它站在DeepSeek這樣所有優秀開源成果之上,想明白了自己此階段最重要的性能目標,對細節進行改進,對訓練效率進行提高,得到一個可以在今天最關鍵方向上超過閉源最強模型的新開源模型。然后這個模型也給開源社區帶來反饋和啟發,同時它也是Kimi下一代更大更完整模型的一塊拼圖——也許下一次DeepSeek時刻不遠了,而且它可能真的不需要由DeepSeek自己帶來。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.