網易首頁 > 網易號 > 正文申請入駐

月之暗面Kimi，最有活人感的AI公司

2025-07-22 20:15:54　來源: 白鯨實驗室one

北京舉報

分享至

當DeepSeek-R2持續跳票，GPT-5仍在難產，Grok-4不及預期，最近Kimi-K2的發布一時間風光無兩。

K2從DeepSeek手中，奪過了全球開源第一的寶座，硅谷的開源社區的AI開發者都在熱議Kimi-K2。英國《自然》雜志網站也發表文章稱，中國大模型Kimi-K2發布后引發轟動，世界迎來又一個“DeepSeek時刻”。

今天凌晨，Kimi發布了K2的技術報告，有趣的是，K2也在這87個署名作者名單里。意思很明顯，K2也參與創造了自己。Kimi算是第一家把AI寫進作者名單里的大模型公司。

這種把AI當成協作伙伴，且署名的操作方式，體現出Kimi內部很強的“活人感”。

并非唯一例證。Kimi-K2發布前夜，工程師把它接入公司門口的電鋼琴上，演奏了一首卡農。雖然有些磕磕絆絆，C大調和弦彈的也不完整，Kimi工程師chrysvlk在視頻號上寫道：“這算不算它的第一聲‘hello world’呢？”

工程師們浪漫起來，文科生都要自愧不如。對于Kimi這家極具搖滾性的大模型公司來說，做出這種事情并不讓人感到意外。

Kimi創始人楊植麟是個典型的文藝青年，以至于這家公司也透露著相同的文藝氣質。月之暗面這個名字，就來自平克弗洛伊德最著名的專輯《The Dark Side of The Moon》，團隊工程師們同樣是一群熱愛電臺司令、平克·弗洛伊德、昆汀和庫布里克的人。

如果讓這個團隊去玩音樂、拍電影，似乎也毫不違和，“我加入的一個重要原因，就是覺得味道很對味。”月之暗面的團隊成員Crystal說。

Kimi的活人感，正體現在工程師們敢于公開說話。K2在鋼琴營造的浪漫主義氛圍中發布后，Kimi的工程師們還在知乎玩起了接龍，他們發表感想，甚至自爆公司內部決策，解答網友對于技術方面的疑惑。

比如，年初DeepSeek-R1爆火后，曾經作為明星大模型公司的Kimi，完全被DeepSeek搶占風頭，外界對Kimi有很多不好的言論，認為Kimi團隊一定恨死DeepSeek。

Kimi成員Justin Wong卻坦率地說：“恰恰相反，不少Kimi的成員認為這是好事，DeepSeek證明硬實力是最好的推廣，只要模型做的好，就能獲得市場認可。”

相比其他六小龍以及AI大廠閉起門來搞技術，Kimi讓工程師出來發言的操作很新鮮，能感受到他們是一群有激情、有溫度的人。

Justin Wong還說，在DeepSeek的沖擊下，Kimi團隊的反思很激進，最激進的是楊植麟，他直接決定不再更新K1系列模型，而是集中資源搞基礎算法和K2。

意圖很明顯，Kimi放棄短期產品迭代，轉向底層技術突破和下一代模型能力的躍進上。

這種激進，正符合一群搖滾愛好者的作風。不過以追求AGI為目標的Kimi，激進中又帶著務實，他們沒有因為DeepSeek火出圈而陷入內耗，反而借助DeepSeek的開源，Kimi-K2的模型結構完全繼承了DeepSeek-V3。

Kimi的工程師劉少偉說，在啟動K2訓練之前，他們進行了大量模型結構相關的scaling實驗，結果是，所有當時與DeepSeek-V3不同的結構，沒有一個能真正打敗它的。

“在已經有muon優化器和更大參數量兩個巨大變量的前提下，我們并不想引入沒有明確收益的額外變量來標新立異。”意思是，若強行為了與DeepSeek不同，幾乎沒有一點優勢。

經過綜合考慮，Kimi最終選擇完全繼承DeepSeek-V3的結構，并調整適合他們的模型結構參數。

這是一種妥協后的務實，工程師們對此也很坦誠。Kimi另一位成員蘇劍林說，我們最終決定，K2還是先狠狠地致敬DeepSeek了，而不是刻意地標新立異，更多的想法和創意，我們把它們做得更扎實后，在K3、K4再見了。

K2被討論最多的是其總參數和價格。K2采用稀疏激活的混合專家（MoE）架構，總參數量達1萬億，每次推理激活320億參數（約3.2%），在保持高性能的同時大幅降低算力成本。

但K2的核心亮點不是參數，而是首次讓萬億模型在MuonClip優化器下實現零訓練崩潰。萬億參數在模型訓練中存在穩定性不足問題，K2采用QK-Clip與Muon優化器（這兩項是大模型高參數訓練中，提升效率和解決穩定性的先進技術）結合的方法，幫助神經網絡在訓練過程中更好地收斂，提升了模型的準確性。

借助這種方法，K2解決了超大規模訓練中的梯度爆炸問題，實現15.5萬億token的穩定訓練。在蘇劍林看來，QK-Clip給了他們很大啟發，在面對一個類似的難題時，應該至少要問自己三個問題：

1.這個方法能保證解決這個問題嗎?(我們此前的一系列無效嘗試)

2.如果不能，有什么方法能保證解決這個問題嗎?(QK-Clip)

3.這是解決這個問題的最小改動的方法嗎?(Per-Head的QK-Clip)

蘇劍林認為QK-Clip的思路，實際上是解決很多訓練不穩定問題的“抗生素”，它可以推廣成“哪里不穩Clip哪里”，只要監控指標出現了異常，那么就可以考慮構建類似的Clip。

Kimi成員Flood Sung，對K2的Agent能力更為興奮，他用“一生二，二生三，三生萬物”形容K2的Agent能力。

“我們先讓模型生成幾百個場景，比如外賣、微博、微信...然后基于場景生成幾千個tools，比如點個外賣，發送微博，查找聯系人，然后基于不同的tool組合生成幾百上千個不同的Agent(不同的sytem prompt+不同的tool set)，接下來我們針對每一個不同的agent生成從簡單到復雜的具有得分點的任務……”

幾千個agent在虛擬世界里瘋狂交互，Flood Sung覺得這有點科幻，讓他聯想到《黑鏡》的劇情。

這次Kimi還給Scaling Law 正了身。劉少偉稱，他們還驗證了在固定activate params（激活參數）不變的前提下，單純增長 MOE總參數量，Scaling Law依然成立，且不論訓練loss還是驗證loss，結論始終保持，無需擔心增大總參數量會過擬合。

Scaling Law（規模定律）此前一直受到爭議，OpenAI前首席科學家 Ilya提出“預訓練終結”論點，認為互聯網可用數據已接近枯竭，需轉向私域高精度數據或強化學習范式。

包括楊植麟此前也曾被認為，在模型訓練中過度相信Scaling Law。這次Kimi驗證，借助Scaling Law依然能夠大力出奇跡。

K2在各項測試中成績都比較拔尖。在SWE Bench Verified（編程）、LiveCodeBench 等測試中，Kimi K2 以65.8% 和53.7% 的準確率超越DeepSeek V3（46.9%）和GPT-4.1（44.7%），編程能力全球僅次于Claude 4 Sonnet。實際測試中，它能生成包含晝夜光影變化的3D HTML場景，并支持復雜代碼調試。

MATH-500、AIME 等數學競賽級測試，Kimi K2分別以97.4% 和69.6% 的成績領先GPT-4.1（92.4%），成為當前數學推理能力最強的開源模型。

這些成績自然沒能讓Kimi像年初DeepSeek那般轟動，但在一定范圍內確實產生較大影響。K2發布6天里，已在開源平臺HuggingFace上收獲10萬+下載，1400+點贊。

全球最大開源AI平臺Hugging Face聯合創始人托馬斯評價稱：“來自中國的Kimi團隊在過去幾個月推出的系列模型令人印象深刻，K2更是挑戰了閉源模型的極限。”

Kimi近大半年像是坐上了過山車，地位起起伏伏。目前Kimi 正被市場追捧，但也不值得懈怠，畢竟大模型競逐賽依然很激烈。

一個很現實情況是，在當前各家大模型你追我趕的情況下，基本上誰更新版本誰排名就能上升。可以說是，遍地SOTA王，短暫又輝煌。

這邊K2全球開源模型第一的位置還沒坐穩，昨夜阿里Qwen3又迎來升級。升級后的Qwen3在GQPA（知識）、AIME25（數學）、LiveCodeBench（編程）、Arena-Hard（人類偏好對齊）、BFCL（Agent能力）等眾多測評中表現出色，超過Kimi-K2和DeepSeek-V3。

要知道，今年DeepSeek R2和GPT 5都還沒發布，下半年的大模型競賽將更加白熱化。

實際上Kimi K2的性能并沒有到達炸裂程度。一些網友反映，評測得分只是一方面，真實體驗才是王道。

包括Kimi的工程師們也不是十分滿意，這一點從他們文章里能看出來。如劉少偉所說，K2發布前面臨的問題是，他們的“新結構”還沒有經歷過足夠大規模的驗證。K2更像是他們下一代模型的一個過渡產品。

前文蘇劍林也說，K2先狠狠地致敬DeepSeek，更多的想法和創意，等做得更扎實后，會在K3、K4面世。言辭中多少透露著不甘和遺憾。

Justin Wong知道Kimi K2還有數不清的缺點，所以和蘇劍林一樣，他說自己比任何時候都更想要K3。

Kimi團隊的技術理想主義一直是追求AGI。Justin Wong認為，2025 年智能的上限仍然完全由模型決定，“作為一家以AGI為目標的公司，如果不去追求智能的上限，那我一天也不會多呆下去。”

他把AGI形容為極其險峻的獨木橋，容不得一絲分心和猶豫，追求也許不會成功，但猶豫一定會失敗。他還提到2024年6月智源大會上，聽到李開復脫口而出地說：“我作為一個投資人，會關注AI應用的RO!”當時他就判斷，李開復的零一萬物活不長。

無論如何，Kimi團隊搖滾式的反叛精神，以及認真做模型的態度，都融入到了他們在個人社交賬號文章里。讓大家對Kimi團隊多了一些具象的認知。

從長期主義的角度來看，在這場大模型競賽中，公司文化氛圍更好的Kimi或許能走得更遠。楊植麟曾說：“AI不是我在接下來一兩年找到什么PMF（產品市場匹配），而是接下來十到二十年如何改變世界。”

這位想要改變的世界的90后，眼下一切才剛剛開始。

作者｜孫方

編輯｜八尺

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.