網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

ZPedia｜Kimi K2 Thinking開源反超頂尖閉源模型，訓練成本僅460萬美元

2025-11-07 15:22:51　來源: ZFinance

北京舉報

分享至

如果有關注近期資本市場的新聞，「月之暗面」的名字又開始刷屏了。

多家媒體報道，這家公司正在敲定一筆數(shù)億美元的新一輪融資。

而就在最新一輪融資傳聞四起的時間點上，月之暗面把自己的新故事端了上來：一款號稱是「迄今為止能力最強的開源思考模型」——Kimi K2 Thinking。

這次他們沒有只做一個「更聰明一點」的聊天機器人，而是把 K2 Thinking 定位成一個原生的 Thinking Agent：可以一邊思考一邊調(diào)度搜索、瀏覽、寫代碼等工具，在復雜任務上，自己拆解步驟、自己查資料、自己寫腳本。

官方和第三方評測顯示，它在 Humanity’s Last Exam、BrowseComp、SEAL-0 等一批高難度基準上，直接把不少閉源旗艦模型按在了身后。

在資金重新押注、估值重新抬升的當口，月之暗面試圖用一個真正能「打贏閉源」的開源模型，去換回技術敘事里的主動權(quán)。

從「國產(chǎn) SOTA」到開源正面超車閉源

把官方文案和外部評測拆開看，會發(fā)現(xiàn) Kimi K2 Thinking 有一個非常鮮明的設計前提：它不是先做一個語言模型，再往外「外掛」Agent 能力，而是從第一天就被當成一個「模型即 Agent」的內(nèi)核來訓練。

K2 Thinking 基于此前的Kimi K2 架構(gòu)：總參數(shù)量約 1 萬億，是一個稀疏 MoE模型，但每次推理只激活約 320 億參數(shù)，這一設計在GitHub 與 Hugging Face 的模型卡中都有披露。

預訓練規(guī)模則來自月之暗面的技術報告：K2 在 15.5 萬億 Token 上完成訓練，采用 Muon 優(yōu)化器、QK-Clip 等一整套「為超大規(guī)模準備的」訓練技巧，解決了大 Token 量、長時間訓練下的穩(wěn)定性問題。

在此基礎上，K2 Thinking 做了兩層關鍵強化。

第一層是推理深度。Kimi 自己在技術頁面上給出的數(shù)據(jù)是：K2 Thinking 能穩(wěn)定完成 200 到 300 輪工具調(diào)用，在整個過程中保持邏輯一致，不會因為「思考太久」而崩潰。這其實就是Test-Time Scaling 的一個極端版本：不再只強調(diào)「模型大不大、訓練多不多」，而是強調(diào)在測試時能否持續(xù)延長思考鏈條，把工具調(diào)度也算進「推理的一部分」。

第二層是工具使用的原生化。在 K2 Thinking 的設定里，搜索網(wǎng)頁、打開 SEC 公告、寫 Python、小步調(diào)試腳本，都不是外掛能力，而是真正融入到策略里的一部分。在官方展示的示例中，K2 Thinking 會自動先判斷問題適不適合查資料，再決定是先搜一輪新聞，還是直接打開官方文檔，然后根據(jù)每一步新獲得的信息，重寫自己的假設與下一步計劃。

正是這種「思考+工具」的打包設計，讓它在一組專門為 Agent 設計的基準上打出了極高的分數(shù)。

在 Humanity’s Last Exam 上，K2 Thinking 在允許使用工具的條件下拿到了 44.9% 的成績，官方和 VentureBeat 都把它標成了新的 SOTA。這套題跨越一百多個專業(yè)領域，本意是測「如果你把 AI 當成一個可以上場考試的研究員，它能考到幾分」。早前在同一任務上，領先的閉源模型大多集中在 40% 左右，這一次 K2 Thinking 不只把國產(chǎn)模型甩在身后，也把不少閉源旗艦平推了一截。

在 BrowseComp 這項網(wǎng)絡瀏覽基準上，這種優(yōu)勢更加明顯。BrowseComp 原本是 OpenAI 為了考察 Agent「像研究員一樣刨根問底」的能力設計的，題目要求模型在信息噪音極多的網(wǎng)頁環(huán)境中，自己規(guī)劃搜索路徑、篩選證據(jù)，給出可驗證的結(jié)論。這套任務上，人類研究員的平均分也只有二十多分，而 K2 Thinking 在最新公開數(shù)據(jù)里交出的是 60.2% 的成績，超過了最強的閉源模型GPT-5和Claude Sonnet 4.5。

對一個開源模型而言，這里有一個非常微妙的「視角切換」。過去提到「國產(chǎn) SOTA」，大家默認的補全句是：在 ChatGPT、Claude 這些閉源前沿模型之下，國產(chǎn)追到了它們身后、或者在部分維度趕上。而在 K2 Thinking 的多項評測中，敘事第一次變成了：在最考驗 Agentic 推理能力的幾項任務上，開源模型開始壓過閉源旗艦。

這不是媒體一家之言。

Hugging Face 有一篇博客在7 月專門寫過一篇《5 Things You Need to Know About Moonshot AI and Kimi K2》，點名 Kimi K2 在開源社區(qū)上線24 小時內(nèi)，沖到了平臺 Trending 榜單第一，靠的是在編碼任務上的表現(xiàn)直接超過了 GPT-4，并且開源了完整權(quán)重。

到了 K2 Thinking 發(fā)布這一次，HuggingFace CEO Clément Delangue 在 LinkedIn上的評論更直接，他說，看著 Moonshot/Kimi 團隊「幾乎出現(xiàn)在每一次社區(qū)討論、每一個 Pull Request 里」，是一件很美好的事。這句話的潛臺詞是，在開源基礎設施的建設上，月之暗面不再只是一個偶爾貢獻模型的「外來者」，而是一個真正深度參與、被全球工程社區(qū)認可的一方。

HuggingFace 聯(lián)合創(chuàng)始人Thomas Wolf 甚至表示，我們正在見證又一次 DeepSeek 時刻：

有趣的是，個人開發(fā)者手里的體驗也在印證這些數(shù)字。LocalLLaMA 社區(qū)里有工程師復現(xiàn)了一部分評測，發(fā)現(xiàn) K2 Thinking 在 Humanity’s Last Exam、BrowseComp 上確實跑出了類似成績，甚至在 GPQA-Diamond 這類高難問答上略微超過 GPT-5。當然，GPT-5 和Claude 在其他很多綜合測試、尤其是長上下文穩(wěn)定性上依然有優(yōu)勢，但至少在「讓一個模型像研究員和工程師一樣干活」這件事上，開源陣營終于不再只是追隨者。

綜合下來，這更像是中國開源陣營端出的一塊「前沿 Agent 中樞」：在核心能力上不再刻意回避閉源，而是主動站到最硬的那幾項任務之上。

在黃仁勛的「主權(quán) AI」敘事里，中國走出了另一條路

如果只看能力，很容易把 K2 Thinking 當成「中國版的 GPT-5 開源平替」：參數(shù)級別、推理水平、編碼能力都在快速接近。但真正意義上的差異，在于它背后的成本結(jié)構(gòu)與算力路徑。

南華早報等媒體曾經(jīng)援引 Moonshot 內(nèi)部人士說，K2 的整體研發(fā)成本「只花了西方巨頭一小部分的錢」，用的是 MoE+優(yōu)化器+工程打磨的組合拳，而不是把錢直接堆在 GPU 數(shù)量上。

在 K2 Thinking 這一代，月之暗面在推理效率上又做了一件挺有象征意義的事：把原生 INT4 量化做到大規(guī)模思考模型上。官方技術說明寫得很直白，普通的低比特量化在「思考模型」上往往會造成性能雪崩，因為這類模型的輸出序列極長、對數(shù)值精度極其敏感。月之暗面為此在后訓練階段引入了量化感知訓練（QAT），并對 MoE 模塊做了專門的INT4 純權(quán)重量化，使得 K2 Thinking 能在保留復雜推理和 Agent 能力的前提下，把推理速度提升至原來的兩倍左右。官方還特別加了一句：這種INT4 方案對國產(chǎn)加速芯片會更加友好。

據(jù) CNBC 的報道，K2 Thinking 的整體訓練成本大約為 460 萬美元——只有 OpenAI 或 xAI 訓練GPT-5、Grok 等模型成本的 1% 左右。換句話說，這家被美國多方打壓、芯片采購受限的中國公司，用幾百分之一的預算，做出了在多項關鍵基準測試中擊敗 Sam Altman 和 Elon Musk 團隊的模型。

如果把這條技術路線放在更大的「中美 AI 競賽」背景下，意味就完全不同了。

一邊是以 OpenAI 為代表的美國陣營，公開承諾在未來幾年投入高達 1.4 萬億美元建設 AI 基礎設施，配合微軟、亞馬遜、谷歌的巨量數(shù)據(jù)中心建設，把賭注壓在「超大規(guī)模閉源系統(tǒng)」上。另一邊，則是像 Kimi 這樣的一批中國創(chuàng)業(yè)公司，用 MoE、量化、數(shù)據(jù)重寫等手段把成本擰到極致，在有限的算力預算下榨出更高的性價比，然后再把模型權(quán)重開源出去，讓更多人站在這條「成本曲線」上往前走。

這個對照，和黃仁勛近期的發(fā)言，形成了某種呼應。他在倫敦的一場峰會上把話說得透徹：如果美國繼續(xù)用出口管制、芯片封鎖等方式來處理中國，「中國很可能會贏下這場 AI 競賽」。隨后英偉達公關部門出了澄清，強調(diào)他的本意是美國應該加速創(chuàng)新、贏得全球開發(fā)者，但「中國只落后幾納秒」和「如果政策不改，中國會贏」這兩層意思，并沒有被否認。

結(jié)合這一點再看 K2 Thinking，就會發(fā)現(xiàn)，它實際上代表的是中國在這場競賽里走出的一條「非對稱路線」。

一方面，在核心能力上，K2 Thinking 用開源的方式，在 Humanity’s Last Exam、BrowseComp等多項高難 Agent 評測中壓過了不少閉源旗艦，證明中國團隊完全有能力在最硬的技術戰(zhàn)場上正面碰撞。

另一方面，在成本和生態(tài)上，它又刻意拉開了和閉源巨頭的距離：訓練階段用 MoE 和優(yōu)化器控制投入規(guī)模；推理階段用 INT4 和工程優(yōu)化做好國產(chǎn)算力兼容；分發(fā)階段用開放權(quán)重的方式，把模型放上 Hugging Face 與國內(nèi)開源平臺，讓更多團隊可以直接拿來做 Agent、做應用。

如果說黃仁勛口中的「主權(quán) AI」，是鼓勵各國砸錢建自己的數(shù)據(jù)中心、堆自己的 GPU 集群，那么 K2 Thinking 代表的，則是一種「輕一點但更聰明」的方案：在不擁有最多 GPU 的前提下，用更聰明的架構(gòu)和更開放的生態(tài)，讓自己的模型足夠強、足夠便宜、足夠容易被全球開發(fā)者采用。

這也是為什么，最近幾年你會看到越來越多西方分析文章談「來自中國的開源威脅」：從DeepSeek到通義，再到Kimi，很多模型的共同點是——性能逼近甚至超越閉源旗艦，但 API 價格只有后者的幾分之一，還附帶開放權(quán)重。

對月之暗面自己而言，K2 Thinking 給它帶來的直接收益當然是更高的商業(yè)想象力和融資空間：在投融資降溫的一年里，一家公司能在估值 30 多億美元的基礎上，緊接著拿到新一輪數(shù)億美元、本身就是一種投票。

參考文獻：

[1] https://moonshotai.github.io/

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層，

致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。

稿件經(jīng)采用可獲邀進入Z Finance內(nèi)部社群，優(yōu)秀者將成為簽約作者，00后更有機會成為Z Finance的早期共創(chuàng)成員。

我們正在招募新一期的實習生

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.