![]()
如果有關注近期資本市場的新聞,「月之暗面」的名字又開始刷屏了。
多家媒體報道,這家公司正在敲定一筆數(shù)億美元的新一輪融資。
而就在最新一輪融資傳聞四起的時間點上,月之暗面把自己的新故事端了上來:一款號稱是「迄今為止能力最強的開源思考模型」——Kimi K2 Thinking。
這次他們沒有只做一個「更聰明一點」的聊天機器人,而是把 K2 Thinking 定位成一個原生的 Thinking Agent:可以一邊思考一邊調(diào)度搜索、瀏覽、寫代碼等工具,在復雜任務上,自己拆解步驟、自己查資料、自己寫腳本。
官方和第三方評測顯示,它在 Humanity’s Last Exam、BrowseComp、SEAL-0 等一批高難度基準上,直接把不少閉源旗艦模型按在了身后。
![]()
在資金重新押注、估值重新抬升的當口,月之暗面試圖用一個真正能「打贏閉源」的開源模型,去換回技術敘事里的主動權(quán)。
從「國產(chǎn) SOTA」到開源正面超車閉源
把官方文案和外部評測拆開看,會發(fā)現(xiàn) Kimi K2 Thinking 有一個非常鮮明的設計前提:它不是先做一個語言模型,再往外「外掛」Agent 能力,而是從第一天就被當成一個「模型即 Agent」的內(nèi)核來訓練。
K2 Thinking 基于此前的Kimi K2 架構(gòu):總參數(shù)量約 1 萬億,是一個稀疏 MoE模型,但每次推理只激活約 320 億參數(shù),這一設計在GitHub 與 Hugging Face 的模型卡中都有披露。
預訓練規(guī)模則來自月之暗面的技術報告:K2 在 15.5 萬億 Token 上完成訓練,采用 Muon 優(yōu)化器、QK-Clip 等一整套「為超大規(guī)模準備的」訓練技巧,解決了大 Token 量、長時間訓練下的穩(wěn)定性問題。
在此基礎上,K2 Thinking 做了兩層關鍵強化。
第一層是推理深度。Kimi 自己在技術頁面上給出的數(shù)據(jù)是:K2 Thinking 能穩(wěn)定完成 200 到 300 輪工具調(diào)用,在整個過程中保持邏輯一致,不會因為「思考太久」而崩潰。這其實就是Test-Time Scaling 的一個極端版本:不再只強調(diào)「模型大不大、訓練多不多」,而是強調(diào)在測試時能否持續(xù)延長思考鏈條,把工具調(diào)度也算進「推理的一部分」。
第二層是工具使用的原生化。 在 K2 Thinking 的設定里,搜索網(wǎng)頁、打開 SEC 公告、寫 Python、小步調(diào)試腳本,都不是外掛能力,而是真正融入到策略里的一部分。在官方展示的示例中,K2 Thinking 會自動先判斷問題適不適合查資料,再決定是先搜一輪新聞,還是直接打開官方文檔,然后根據(jù)每一步新獲得的信息,重寫自己的假設與下一步計劃。
正是這種「思考+工具」的打包設計,讓它在一組專門為 Agent 設計的基準上打出了極高的分數(shù)。
在 Humanity’s Last Exam 上,K2 Thinking 在允許使用工具的條件下拿到了 44.9% 的成績,官方和 VentureBeat 都把它標成了新的 SOTA。這套題跨越一百多個專業(yè)領域,本意是測「如果你把 AI 當成一個可以上場考試的研究員,它能考到幾分」。早前在同一任務上,領先的閉源模型大多集中在 40% 左右,這一次 K2 Thinking 不只把國產(chǎn)模型甩在身后,也把不少閉源旗艦平推了一截。
![]()
在 BrowseComp 這項網(wǎng)絡瀏覽基準上,這種優(yōu)勢更加明顯。BrowseComp 原本是 OpenAI 為了考察 Agent「像研究員一樣刨根問底」的能力設計的,題目要求模型在信息噪音極多的網(wǎng)頁環(huán)境中,自己規(guī)劃搜索路徑、篩選證據(jù),給出可驗證的結(jié)論。這套任務上,人類研究員的平均分也只有二十多分,而 K2 Thinking 在最新公開數(shù)據(jù)里交出的是 60.2% 的成績,超過了最強的閉源模型GPT-5和Claude Sonnet 4.5。
![]()
對一個開源模型而言,這里有一個非常微妙的「視角切換」。過去提到「國產(chǎn) SOTA」,大家默認的補全句是:在 ChatGPT、Claude 這些閉源前沿模型之下,國產(chǎn)追到了它們身后、或者在部分維度趕上。而在 K2 Thinking 的多項評測中,敘事第一次變成了:在最考驗 Agentic 推理能力的幾項任務上,開源模型開始壓過閉源旗艦。
這不是媒體一家之言。
Hugging Face 有一篇博客在7 月專門寫過一篇《5 Things You Need to Know About Moonshot AI and Kimi K2》,點名 Kimi K2 在開源社區(qū)上線24 小時內(nèi),沖到了平臺 Trending 榜單第一,靠的是在編碼任務上的表現(xiàn)直接超過了 GPT-4,并且開源了完整權(quán)重。
![]()
到了 K2 Thinking 發(fā)布這一次,HuggingFace CEO Clément Delangue 在 LinkedIn上的評論更直接,他說,看著 Moonshot/Kimi 團隊「幾乎出現(xiàn)在每一次社區(qū)討論、每一個 Pull Request 里」,是一件很美好的事。 這句話的潛臺詞是,在開源基礎設施的建設上,月之暗面不再只是一個偶爾貢獻模型的「外來者」,而是一個真正深度參與、被全球工程社區(qū)認可的一方。
![]()
HuggingFace 聯(lián)合創(chuàng)始人Thomas Wolf 甚至表示,我們正在見證又一次 DeepSeek 時刻:
![]()
有趣的是,個人開發(fā)者手里的體驗也在印證這些數(shù)字。LocalLLaMA 社區(qū)里有工程師復現(xiàn)了一部分評測,發(fā)現(xiàn) K2 Thinking 在 Humanity’s Last Exam、BrowseComp 上確實跑出了類似成績,甚至在 GPQA-Diamond 這類高難問答上略微超過 GPT-5。當然,GPT-5 和Claude 在其他很多綜合測試、尤其是長上下文穩(wěn)定性上依然有優(yōu)勢,但至少在「讓一個模型像研究員和工程師一樣干活」這件事上,開源陣營終于不再只是追隨者。
綜合下來,這更像是中國開源陣營端出的一塊「前沿 Agent 中樞」:在核心能力上不再刻意回避閉源,而是主動站到最硬的那幾項任務之上。
在黃仁勛的「主權(quán) AI」敘事里,中國走出了另一條路
如果只看能力,很容易把 K2 Thinking 當成「中國版的 GPT-5 開源平替」:參數(shù)級別、推理水平、編碼能力都在快速接近。但真正意義上的差異,在于它背后的成本結(jié)構(gòu)與算力路徑。
南華早報等媒體曾經(jīng)援引 Moonshot 內(nèi)部人士說,K2 的整體研發(fā)成本「只花了西方巨頭一小部分的錢」,用的是 MoE+優(yōu)化器+工程打磨的組合拳,而不是把錢直接堆在 GPU 數(shù)量上。
在 K2 Thinking 這一代,月之暗面在推理效率上又做了一件挺有象征意義的事:把原生 INT4 量化做到大規(guī)模思考模型上。官方技術說明寫得很直白,普通的低比特量化在「思考模型」上往往會造成性能雪崩,因為這類模型的輸出序列極長、對數(shù)值精度極其敏感。月之暗面為此在后訓練階段引入了量化感知訓練(QAT),并對 MoE 模塊做了專門的INT4 純權(quán)重量化,使得 K2 Thinking 能在保留復雜推理和 Agent 能力的前提下,把推理速度提升至原來的兩倍左右。 官方還特別加了一句:這種INT4 方案對國產(chǎn)加速芯片會更加友好。
據(jù) CNBC 的報道,K2 Thinking 的整體訓練成本大約為 460 萬美元——只有 OpenAI 或 xAI 訓練GPT-5、Grok 等模型成本的 1% 左右。換句話說,這家被美國多方打壓、芯片采購受限的中國公司,用幾百分之一的預算,做出了在多項關鍵基準測試中擊敗 Sam Altman 和 Elon Musk 團隊的模型。
![]()
如果把這條技術路線放在更大的「中美 AI 競賽」背景下,意味就完全不同了。
一邊是以 OpenAI 為代表的美國陣營,公開承諾在未來幾年投入高達 1.4 萬億美元建設 AI 基礎設施,配合微軟、亞馬遜、谷歌的巨量數(shù)據(jù)中心建設,把賭注壓在「超大規(guī)模閉源系統(tǒng)」上。另一邊,則是像 Kimi 這樣的一批中國創(chuàng)業(yè)公司,用 MoE、量化、數(shù)據(jù)重寫等手段把成本擰到極致,在有限的算力預算下榨出更高的性價比,然后再把模型權(quán)重開源出去,讓更多人站在這條「成本曲線」上往前走。
這個對照,和黃仁勛近期的發(fā)言,形成了某種呼應。他在倫敦的一場峰會上把話說得透徹:如果美國繼續(xù)用出口管制、芯片封鎖等方式來處理中國,「中國很可能會贏下這場 AI 競賽」。隨后英偉達公關部門出了澄清,強調(diào)他的本意是美國應該加速創(chuàng)新、贏得全球開發(fā)者,但「中國只落后幾納秒」和「如果政策不改,中國會贏」這兩層意思,并沒有被否認。
結(jié)合這一點再看 K2 Thinking,就會發(fā)現(xiàn),它實際上代表的是中國在這場競賽里走出的一條「非對稱路線」。
一方面,在核心能力上,K2 Thinking 用開源的方式,在 Humanity’s Last Exam、BrowseComp等多項高難 Agent 評測中壓過了不少閉源旗艦,證明中國團隊完全有能力在最硬的技術戰(zhàn)場上正面碰撞。
另一方面,在成本和生態(tài)上,它又刻意拉開了和閉源巨頭的距離: 訓練階段用 MoE 和優(yōu)化器控制投入規(guī)模; 推理階段用 INT4 和工程優(yōu)化做好國產(chǎn)算力兼容; 分發(fā)階段用開放權(quán)重的方式,把模型放上 Hugging Face 與國內(nèi)開源平臺,讓更多團隊可以直接拿來做 Agent、做應用。
如果說黃仁勛口中的「主權(quán) AI」,是鼓勵各國砸錢建自己的數(shù)據(jù)中心、堆自己的 GPU 集群,那么 K2 Thinking 代表的,則是一種「輕一點但更聰明」的方案:在不擁有最多 GPU 的前提下,用更聰明的架構(gòu)和更開放的生態(tài),讓自己的模型足夠強、足夠便宜、足夠容易被全球開發(fā)者采用。
這也是為什么,最近幾年你會看到越來越多西方分析文章談「來自中國的開源威脅」:從DeepSeek到通義,再到Kimi,很多模型的共同點是——性能逼近甚至超越閉源旗艦,但 API 價格只有后者的幾分之一,還附帶開放權(quán)重。
對月之暗面自己而言,K2 Thinking 給它帶來的直接收益當然是更高的商業(yè)想象力和融資空間:在投融資降溫的一年里,一家公司能在估值 30 多億美元的基礎上,緊接著拿到新一輪數(shù)億美元、本身就是一種投票。
參考文獻:
[1] https://moonshotai.github.io/
歡迎掃碼加群參與討論
我們相信認知能夠跨越階層,
致力于為年輕人提供高質(zhì)量的科技和財經(jīng)內(nèi)容。
稿件經(jīng)采用可獲邀進入Z Finance內(nèi)部社群,優(yōu)秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創(chuàng)成員。
我們正在招募新一期的實習生
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.