網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4登榜，全球開源前5都是中國模型了

2026-04-25 15:46:49　來源: 第一財經資訊

上海舉報

分享至

4月24日，沉寂15個月的DeepSeek發布并開源了全新一代模型DeepSeek-V4。這款搭載百萬詞元超長上下文，在Agent 能力、世界知識、推理性能方面大幅提升，被海外開發者直呼 “鯨魚回歸”。

在剛剛更新的全球權威Artificial Analysis智能指數開源模型榜單上，DeepSeek V4 Pro（Max）相比上一代模型V3.2提升了10分，以52分的成績進入全球開源模型的前兩位。

來源：Artificial Analysis智能指數官網

拿到54分成績的是在本周一發布的中國萬億參數開源模型Kimi K2.6，也是全球排名前五的開源模型中，同時支持圖片和視頻理解的多模態模型，其他四個是純文本模型。

前后相差不到四天，兩個萬億參數級開源模型先后落地。

巧合的是，這并非中國AI開源雙雄的首次 “不謀而合”。從2025年1月至今，DeepSeek與Kimi已發生多次技術發布“撞車”，從推理模型、注意力架構到數學推理，再到此次萬億參數大模型迭代，兩家AI創業公司始終踩著同一條技術節拍前行。

DeepSeek與Kimi的技術“撞車”并非偶然，而是對AGI技術頂峰的同向追逐，更是中國開源AI陣營抱團突圍、直面美國閉源巨頭的戰略默契。當全球AI競爭從單一技術比拼升級為生態對抗，這對由兩位廣東籍創始人帶領的創業雙子星，正以 “技術共生、互利互惠” 的中國模式，嘗試改寫全球AI格局。

連續四次技術“撞車”

2025年1月20日，DeepSeek-R1與Kimi K1.5之間的“撞車”是最戲劇性的一次。

當晚，DeepSeek發布R1推理模型并以MIT協議完全開源。不到兩小時后，Kimi K1.5多模態思考模型亮相。兩個模型的目標高度一致：讓大模型從“張嘴就來”進化為“先想后說”——即通過強化學習跑通Long-CoT（長思維鏈）推理，復現OpenAI-o1的核心能力。

隨后，OpenAI在一篇官方論文中點名指出，DeepSeek和Kimi是“最早復現OpenAI-o1 Long-CoT”的兩家公司。當全世界都在迷茫OpenAI的o1思路時，中國這兩家公司幾乎同步給出了獨立的復現方案。

來源：OpenAI《Competitive Programming with Large Reasoning Models》論文

2025年2月，雙方不約而同地改造Transformer注意力機制。DeepSeek發布NSA（Native Sparse Attention，原生稀疏注意力），Kimi發布MoBA（混合塊注意力）。稀疏注意力是解決Transformer長上下文成本爆炸問題的關鍵方向，能夠大幅降低KV緩存占用和注意力計算量。兩家在幾乎同一個時間窗口給出了各自的創新解法。

2025年4月，Kimi推出Kimina-Prover Preview數學推理專項模型，專注數學定理證明與復雜推理。不久后，DeepSeek-Prover-V2發布。兩者都走了“自驗證”路線——通過自我驗證機制提升數學推理的準確性和可靠性。

2026年初，DeepSeek發布mHC（流形約束超鏈接），系統性地改造深度神經網絡中沿用了近十年的傳統殘差連接結構，增強深層網絡信號傳播的穩定性。兩個月后，Kimi放出新成果“注意力殘差”，將Transformer的核心原理“注意力”重新應用到殘差連接上，引發AI大神Andrej Karpathy和埃隆·馬斯克等人點贊，兩人都對該技術表現出濃厚興趣。

另外值得關注的一個細節是，DeepSeek V4的訓練方案中的關鍵變化之一是引入Muon優化器。Muon由Keller Jordan等人提出，但最初僅在小模型上驗證其效果。而Kimi在2025年2月發布的論文《Muon is Scalable for LLM Training》驗證了Muon在480億參數模型的效果。在2025年7月發布的萬億參數模型K2上繼續使用Muon優化器，并且做了改進解決訓練不穩定的難題，最終在在相同訓練量下實現了2倍的token效率提升。

楊植麟在今年3月英偉達GTC 2026演講中，專門用最長篇幅講解Muon。如今，這項技術成為DeepSeek V4在架構層的三項關鍵升級之一，提升了訓練穩定性。

來源：Deepseek V4的Hugging Face主頁

開源陣營向閉源巨頭發起總攻

OpenAI在DeepSeek V4發布前一天上線了GPT-5.5，每百萬輸出token定價30美元。而DeepSeek V4 Pro的輸出定價僅為每百萬token 24元人民幣（約3.4美元），約為GPT-5.5的十分之一。

DeepSeek V4-Pro在發布的公眾號中稱，其在數學、STEM和競賽型代碼的評測中超越所有已公開開源模型。

而Kimi K2.6則在公眾號中稱，新模型在Humanity’s Last Exam全工具測試中以54.0%的得分登頂；在DeepSearchQA深度檢索中以92.5%的得分領先于GPT-5.4、Gemini 3.1 Pro和Claude Opus 4.6。

OpenRouter數據顯示，K2.6在發布后迅速躍居每日榜單的榜首，跟DeepSeek一起位居全球前五。

來源：OpenRouter官網（2026年04月25日）

Meta新模型Muse Spark發布時，官方博客對比的兩個基準模型正是DeepSeek和Kimi。

中美科技競爭的一個核心戰場是算力供應鏈。此次，DeepSeek V4明確支持華為昇騰950芯片。DeepSeek在官方定價說明的小字腳注中注明：“受限于高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調”。華為方面同步宣布，昇騰超節點全系產品已完成對V4的適配與支持，通過芯模技術緊密協同，實現了高吞吐、低時延的推理部署。

Kimi在國產芯片領域同樣走在前列。Kimi K2.6支持國產芯片混合推理，其技術路線強調在端側和云端協同運行，降低對英偉達CUDA生態的依賴。Kimi從K2 Thinking就加入了INT4量化技術——通過模型量化推理，顯著提升了對國產加速芯片的兼容性。華為昇騰官方平臺也披露，已完成Kimi K2.5在昇騰AI上的部署，實現多模態推理性能的全面躍升。

兩家同時推國產芯片適配：DeepSeek助力昇騰，Kimi開源異構推理路線。

黃仁勛在英偉達2026年度GPU技術大會的主題演講中，用來展示下一代Blackwell Ultra芯片性能的大模型，就是Kimi K2.5，將中國開源模型作為衡量下一代GPU的標桿。

來源：黃仁勛在英偉達GTC2026大會的主題演講

梁文鋒與楊植麟，兩個廣東人，相差八歲，一位從量化跨界，一位深耕學術。如今，他們各自帶領的團隊分別成長為中國的“萬億開源頭部”，推動行業協同互補的“團戰”。梁文鋒和楊植麟都相信，開源讓每個企業、每個研究者非常低門檻地獲取智能，是推動AI發展的最重要基石。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.