4月24日,沉寂15個月的DeepSeek發布并開源了全新一代模型DeepSeek-V4。這款搭載百萬詞元超長上下文,在Agent 能力、世界知識、推理性能方面大幅提升,被海外開發者直呼 “鯨魚回歸”。
在剛剛更新的全球權威Artificial Analysis智能指數開源模型榜單上,DeepSeek V4 Pro(Max)相比上一代模型V3.2提升了10分,以52分的成績進入全球開源模型的前兩位。
![]()
來源:Artificial Analysis智能指數官網
拿到54分成績的是在本周一發布的中國萬億參數開源模型Kimi K2.6,也是全球排名前五的開源模型中,同時支持圖片和視頻理解的多模態模型,其他四個是純文本模型。
前后相差不到四天,兩個萬億參數級開源模型先后落地。
巧合的是,這并非中國AI開源雙雄的首次 “不謀而合”。從2025年1月至今,DeepSeek與Kimi已發生多次技術發布“撞車”,從推理模型、注意力架構到數學推理,再到此次萬億參數大模型迭代,兩家AI創業公司始終踩著同一條技術節拍前行。
DeepSeek與Kimi的技術“撞車”并非偶然,而是對AGI技術頂峰的同向追逐,更是中國開源AI陣營抱團突圍、直面美國閉源巨頭的戰略默契。當全球AI競爭從單一技術比拼升級為生態對抗,這對由兩位廣東籍創始人帶領的創業雙子星,正以 “技術共生、互利互惠” 的中國模式,嘗試改寫全球AI格局。
連續四次技術“撞車”
2025年1月20日,DeepSeek-R1與Kimi K1.5之間的“撞車”是最戲劇性的一次。
當晚,DeepSeek發布R1推理模型并以MIT協議完全開源。不到兩小時后,Kimi K1.5多模態思考模型亮相。兩個模型的目標高度一致:讓大模型從“張嘴就來”進化為“先想后說”——即通過強化學習跑通Long-CoT(長思維鏈)推理,復現OpenAI-o1的核心能力。
隨后,OpenAI在一篇官方論文中點名指出,DeepSeek和Kimi是“最早復現OpenAI-o1 Long-CoT”的兩家公司。 當全世界都在迷茫OpenAI的o1思路時,中國這兩家公司幾乎同步給出了獨立的復現方案。
![]()
來源:OpenAI《Competitive Programming with Large Reasoning Models》論文
2025年2月,雙方不約而同地改造Transformer注意力機制。DeepSeek發布NSA(Native Sparse Attention,原生稀疏注意力),Kimi發布MoBA(混合塊注意力)。稀疏注意力是解決Transformer長上下文成本爆炸問題的關鍵方向,能夠大幅降低KV緩存占用和注意力計算量。兩家在幾乎同一個時間窗口給出了各自的創新解法。
2025年4月,Kimi推出Kimina-Prover Preview數學推理專項模型,專注數學定理證明與復雜推理。不久后,DeepSeek-Prover-V2發布。兩者都走了“自驗證”路線——通過自我驗證機制提升數學推理的準確性和可靠性。
2026年初,DeepSeek發布mHC(流形約束超鏈接),系統性地改造深度神經網絡中沿用了近十年的傳統殘差連接結構,增強深層網絡信號傳播的穩定性。兩個月后,Kimi放出新成果“注意力殘差”,將Transformer的核心原理“注意力”重新應用到殘差連接上,引發AI大神Andrej Karpathy和埃隆·馬斯克等人點贊,兩人都對該技術表現出濃厚興趣。
另外值得關注的一個細節是,DeepSeek V4的訓練方案中的關鍵變化之一是引入Muon優化器。Muon由Keller Jordan等人提出,但最初僅在小模型上驗證其效果。而Kimi在2025年2月發布的論文《Muon is Scalable for LLM Training》驗證了Muon在480億參數模型的效果。在2025年7月發布的萬億參數模型K2上繼續使用Muon優化器,并且做了改進解決訓練不穩定的難題,最終在在相同訓練量下實現了2倍的token效率提升。
楊植麟在今年3月英偉達GTC 2026演講中,專門用最長篇幅講解Muon。如今,這項技術成為DeepSeek V4在架構層的三項關鍵升級之一,提升了訓練穩定性。
![]()
來源:Deepseek V4的Hugging Face主頁
開源陣營向閉源巨頭發起總攻
OpenAI在DeepSeek V4發布前一天上線了GPT-5.5,每百萬輸出token定價30美元。而DeepSeek V4 Pro的輸出定價僅為每百萬token 24元人民幣(約3.4美元),約為GPT-5.5的十分之一。
DeepSeek V4-Pro在發布的公眾號中稱,其在數學、STEM和競賽型代碼的評測中超越所有已公開開源模型。
而Kimi K2.6則在公眾號中稱,新模型在Humanity’s Last Exam全工具測試中以54.0%的得分登頂;在DeepSearchQA深度檢索中以92.5%的得分領先于GPT-5.4、Gemini 3.1 Pro和Claude Opus 4.6。
OpenRouter數據顯示,K2.6在發布后迅速躍居每日榜單的榜首,跟DeepSeek一起位居全球前五。
![]()
來源:OpenRouter官網(2026年04月25日)
Meta新模型Muse Spark發布時,官方博客對比的兩個基準模型正是DeepSeek和Kimi。
中美科技競爭的一個核心戰場是算力供應鏈。此次,DeepSeek V4明確支持華為昇騰950芯片。DeepSeek在官方定價說明的小字腳注中注明:“受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,Pro的價格會大幅下調”。華為方面同步宣布,昇騰超節點全系產品已完成對V4的適配與支持,通過芯模技術緊密協同,實現了高吞吐、低時延的推理部署。
Kimi在國產芯片領域同樣走在前列。Kimi K2.6支持國產芯片混合推理,其技術路線強調在端側和云端協同運行,降低對英偉達CUDA生態的依賴。Kimi從K2 Thinking就加入了INT4量化技術——通過模型量化推理,顯著提升了對國產加速芯片的兼容性。華為昇騰官方平臺也披露,已完成Kimi K2.5在昇騰AI上的部署,實現多模態推理性能的全面躍升。
兩家同時推國產芯片適配:DeepSeek助力昇騰,Kimi開源異構推理路線。
黃仁勛在英偉達2026年度GPU技術大會的主題演講中,用來展示下一代Blackwell Ultra芯片性能的大模型,就是Kimi K2.5,將中國開源模型作為衡量下一代GPU的標桿。
![]()
來源:黃仁勛在英偉達GTC2026大會的主題演講
梁文鋒與楊植麟,兩個廣東人,相差八歲,一位從量化跨界,一位深耕學術。如今,他們各自帶領的團隊分別成長為中國的“萬億開源頭部”,推動行業協同互補的“團戰”。梁文鋒和楊植麟都相信,開源讓每個企業、每個研究者非常低門檻地獲取智能,是推動AI發展的最重要基石。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.