![]()
01
當DeepSeek-R2持續跳票,GPT-5仍在難產,Grok-4不及預期,最近Kimi-K2的發布一時間風光無兩。
K2從DeepSeek手中,奪過了全球開源第一的寶座,硅谷的開源社區的AI開發者都在熱議Kimi-K2。英國《自然》雜志網站也發表文章稱,中國大模型Kimi-K2發布后引發轟動,世界迎來又一個“DeepSeek時刻”。
今天凌晨,Kimi發布了K2的技術報告,有趣的是,K2也在這87個署名作者名單里。意思很明顯,K2也參與創造了自己。Kimi算是第一家把AI寫進作者名單里的大模型公司。
![]()
這種把AI當成協作伙伴,且署名的操作方式,體現出Kimi內部很強的“活人感”。
并非唯一例證。Kimi-K2發布前夜,工程師把它接入公司門口的電鋼琴上,演奏了一首卡農。雖然有些磕磕絆絆,C大調和弦彈的也不完整,Kimi工程師chrysvlk在視頻號上寫道:“這算不算它的第一聲‘hello world’呢?”
工程師們浪漫起來,文科生都要自愧不如。對于Kimi這家極具搖滾性的大模型公司來說,做出這種事情并不讓人感到意外。
Kimi創始人楊植麟是個典型的文藝青年,以至于這家公司也透露著相同的文藝氣質。月之暗面這個名字,就來自平克弗洛伊德最著名的專輯《The Dark Side of The Moon》,團隊工程師們同樣是一群熱愛電臺司令、平克·弗洛伊德、昆汀和庫布里克的人。
如果讓這個團隊去玩音樂、拍電影,似乎也毫不違和,“我加入的一個重要原因,就是覺得味道很對味。”月之暗面的團隊成員Crystal說。
Kimi的活人感,正體現在工程師們敢于公開說話。K2在鋼琴營造的浪漫主義氛圍中發布后,Kimi的工程師們還在知乎玩起了接龍,他們發表感想,甚至自爆公司內部決策,解答網友對于技術方面的疑惑。
比如,年初DeepSeek-R1爆火后,曾經作為明星大模型公司的Kimi,完全被DeepSeek搶占風頭,外界對Kimi有很多不好的言論,認為Kimi團隊一定恨死DeepSeek。
Kimi成員Justin Wong卻坦率地說:“恰恰相反,不少Kimi的成員認為這是好事,DeepSeek證明硬實力是最好的推廣,只要模型做的好,就能獲得市場認可。”
相比其他六小龍以及AI大廠閉起門來搞技術,Kimi讓工程師出來發言的操作很新鮮,能感受到他們是一群有激情、有溫度的人。
Justin Wong還說,在DeepSeek的沖擊下,Kimi團隊的反思很激進,最激進的是楊植麟,他直接決定不再更新K1系列模型,而是集中資源搞基礎算法和K2。
意圖很明顯,Kimi放棄短期產品迭代,轉向底層技術突破和下一代模型能力的躍進上。
這種激進,正符合一群搖滾愛好者的作風。不過以追求AGI為目標的Kimi,激進中又帶著務實,他們沒有因為DeepSeek火出圈而陷入內耗,反而借助DeepSeek的開源,Kimi-K2的模型結構完全繼承了DeepSeek-V3。
Kimi的工程師劉少偉說,在啟動K2訓練之前,他們進行了大量模型結構相關的scaling實驗,結果是,所有當時與DeepSeek-V3不同的結構,沒有一個能真正打敗它的。
“在已經有muon優化器和更大參數量兩個巨大變量的前提下,我們并不想引入沒有明確收益的額外變量來標新立異。”意思是,若強行為了與DeepSeek不同,幾乎沒有一點優勢。
經過綜合考慮,Kimi最終選擇完全繼承DeepSeek-V3的結構,并調整適合他們的模型結構參數。
![]()
這是一種妥協后的務實,工程師們對此也很坦誠。Kimi另一位成員蘇劍林說,我們最終決定,K2還是先狠狠地致敬DeepSeek了,而不是刻意地標新立異,更多的想法和創意,我們把它們做得更扎實后,在K3、K4再見了。
02
K2被討論最多的是其總參數和價格。K2采用稀疏激活的混合專家(MoE)架構,總參數量達1萬億,每次推理激活320億參數(約3.2%),在保持高性能的同時大幅降低算力成本。
但K2的核心亮點不是參數,而是首次讓萬億模型在MuonClip優化器下實現零訓練崩潰。萬億參數在模型訓練中存在穩定性不足問題,K2采用QK-Clip與Muon優化器(這兩項是大模型高參數訓練中,提升效率和解決穩定性的先進技術)結合的方法,幫助神經網絡在訓練過程中更好地收斂,提升了模型的準確性。
借助這種方法,K2解決了超大規模訓練中的梯度爆炸問題,實現15.5萬億token的穩定訓練。在蘇劍林看來,QK-Clip給了他們很大啟發,在面對一個類似的難題時,應該至少要問自己三個問題:
1.這個方法能保證解決這個問題嗎?(我們此前的一系列無效嘗試)
2.如果不能,有什么方法能保證解決這個問題嗎?(QK-Clip)
3.這是解決這個問題的最小改動的方法嗎?(Per-Head的QK-Clip)
蘇劍林認為QK-Clip的思路,實際上是解決很多訓練不穩定問題的“抗生素”,它可以推廣成“哪里不穩Clip哪里”,只要監控指標出現了異常,那么就可以考慮構建類似的Clip。
Kimi成員Flood Sung,對K2的Agent能力更為興奮,他用“一生二,二生三,三生萬物”形容K2的Agent能力。
“我們先讓模型生成幾百個場景,比如外賣、微博、微信...然后基于場景生成幾千個tools,比如點個外賣,發送微博,查找聯系人,然后基于不同的tool組合生成幾百上千個不同的Agent(不同的sytem prompt+不同的tool set),接下來我們針對每一個不同的agent生成從簡單到復雜的具有得分點的任務……”
幾千個agent在虛擬世界里瘋狂交互,Flood Sung覺得這有點科幻,讓他聯想到《黑鏡》的劇情。
這次Kimi還給Scaling Law 正了身。劉少偉稱,他們還驗證了在固定activate params(激活參數)不變的前提下,單純增長 MOE總參數量,Scaling Law依然成立,且不論訓練loss還是驗證loss,結論始終保持,無需擔心增大總參數量會過擬合。
Scaling Law(規模定律)此前一直受到爭議,OpenAI前首席科學家 Ilya提出“預訓練終結”論點,認為互聯網可用數據已接近枯竭,需轉向私域高精度數據或強化學習范式。
包括楊植麟此前也曾被認為,在模型訓練中過度相信Scaling Law。這次Kimi驗證,借助Scaling Law依然能夠大力出奇跡。
K2在各項測試中成績都比較拔尖。在SWE Bench Verified(編程)、LiveCodeBench 等測試中,Kimi K2 以65.8% 和53.7% 的準確率超越DeepSeek V3(46.9%)和GPT-4.1(44.7%),編程能力全球僅次于Claude 4 Sonnet。實際測試中,它能生成包含晝夜光影變化的3D HTML場景,并支持復雜代碼調試。
![]()
MATH-500、AIME 等數學競賽級測試,Kimi K2分別以97.4% 和69.6% 的成績領先GPT-4.1(92.4%),成為當前數學推理能力最強的開源模型。
這些成績自然沒能讓Kimi像年初DeepSeek那般轟動,但在一定范圍內確實產生較大影響。K2發布6天里,已在開源平臺HuggingFace上收獲10萬+下載,1400+點贊。
全球最大開源AI平臺Hugging Face聯合創始人托馬斯評價稱:“來自中國的Kimi團隊在過去幾個月推出的系列模型令人印象深刻,K2更是挑戰了閉源模型的極限。”
03
Kimi近大半年像是坐上了過山車,地位起起伏伏。目前Kimi 正被市場追捧,但也不值得懈怠,畢竟大模型競逐賽依然很激烈。
一個很現實情況是,在當前各家大模型你追我趕的情況下,基本上誰更新版本誰排名就能上升。可以說是,遍地SOTA王,短暫又輝煌。
這邊K2全球開源模型第一的位置還沒坐穩,昨夜阿里Qwen3又迎來升級。升級后的Qwen3在GQPA(知識)、AIME25(數學)、LiveCodeBench(編程)、Arena-Hard(人類偏好對齊)、BFCL(Agent能力)等眾多測評中表現出色,超過Kimi-K2和DeepSeek-V3。
要知道,今年DeepSeek R2和GPT 5都還沒發布,下半年的大模型競賽將更加白熱化。
實際上Kimi K2的性能并沒有到達炸裂程度。一些網友反映,評測得分只是一方面,真實體驗才是王道。
包括Kimi的工程師們也不是十分滿意,這一點從他們文章里能看出來。如劉少偉所說,K2發布前面臨的問題是,他們的“新結構”還沒有經歷過足夠大規模的驗證。K2更像是他們下一代模型的一個過渡產品。
前文蘇劍林也說,K2先狠狠地致敬DeepSeek,更多的想法和創意,等做得更扎實后,會在K3、K4面世。言辭中多少透露著不甘和遺憾。
Justin Wong知道Kimi K2還有數不清的缺點,所以和蘇劍林一樣,他說自己比任何時候都更想要K3。
Kimi團隊的技術理想主義一直是追求AGI。Justin Wong認為,2025 年智能的上限仍然完全由模型決定,“作為一家以AGI為目標的公司,如果不去追求智能的上限,那我一天也不會多呆下去。”
他把AGI形容為極其險峻的獨木橋,容不得一絲分心和猶豫,追求也許不會成功,但猶豫一定會失敗。他還提到2024年6月智源大會上,聽到李開復脫口而出地說:“我作為一個投資人,會關注AI應用的RO!”當時他就判斷,李開復的零一萬物活不長。
無論如何,Kimi團隊搖滾式的反叛精神,以及認真做模型的態度,都融入到了他們在個人社交賬號文章里。讓大家對Kimi團隊多了一些具象的認知。
從長期主義的角度來看,在這場大模型競賽中,公司文化氛圍更好的Kimi或許能走得更遠。楊植麟曾說:“AI不是我在接下來一兩年找到什么PMF(產品市場匹配),而是接下來十到二十年如何改變世界。”
這位想要改變的世界的90后,眼下一切才剛剛開始。
作者 | 孫方
編輯 | 八尺
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.