![]()
新智元報道
編輯:好困
【新智元導讀】DeepSeek V4,1.6萬億參數,Codeforces人類第23,KV緩存砍到1/10。同一周Kimi K2.6萬億MoE開源,也在推國產芯片混合推理。中國AI的底座和芯片,同時動了。
DeepSeek V4,炸了!
1.6萬億參數,百萬token上下文KV緩存砍到前代的十分之一,Codeforces評分3206直接超過GPT-5.4,在人類選手中排第23。
開源權重、API、近60頁技術報告一起扔出來,社區已經開始拆了。
![]()
![]()
但我們翻完技術報告準備收工的時候,突然反應過來一件事。
這周一,Kimi K2.6剛剛開源。萬億參數MoE模型,支持300個子Agent協同,OpenRouter調用量直接沖到全球第一。
![]()
等等。
同一周,兩個萬億參數中國開源模型先后落地?真的不是約好的嗎?
頂尖玩家總在同一個山口相遇
回看過去15個月,DeepSeek和Kimi的瞄準的技術方向和發布時機,對齊到讓人懷疑是約好的。
2025年1月,DeepSeek-R1推理模型和Kimi K1.5多模態思考模型同日上線,相隔僅兩小時。OpenAI 的Paper 也指出他們兩家是最早復現o1思維鏈的團隊。
2025年2月,兩家前后腳發論文,都在改造Transformer注意力機制。DeepSeek的NSA做原生稀疏注意力,Kimi的MoBA做混合塊注意力,
2025年4月,Kimi推出 Kimina-Prover Preview數學推理專項模型沒多久,DeepSeek-Prover-V2 也發布,都走了「自驗證」路線來證明數學定理。
2026年初,DeepSeek用mHC流形約束超連接來改造深度學習網絡中的「殘差連接」。到了3月,Kimi放出新技術「注意力殘差」,直接將Transformer的核心原理「注意力」應用到「殘差連接」上,引發Karpathy、馬斯克等大神稱贊。
2026年4月,萬億開源模型 Kimi K2.6和DeepSeek V4同周上線。
你用我驗過的注意力機制
我用你驗過的優化器
多次「相遇」的表面之下,是一個更微妙的現象,兩家公司的技術在互相加持。
Kimi K2的注意力機制采用了DeepSeek首創的MLA(Multi-head Latent Attention)。
傳統多頭注意力需要為每個注意力頭單獨存儲Key和Value,上下文越長KV緩存越大。
MLA的做法是把Q/K/V壓縮到一個低秩的latent向量中,推理時只需緩存這個壓縮向量再解壓,KV緩存量大幅縮減。
在這套注意力機制上,K2擴展到了萬億參數的MoE模型。
![]()
反過來,DeepSeek V4采用了Muon優化器。
主流的AdamW對每個參數獨立做自適應縮放,Muon則對整個梯度矩陣做Newton-Schulz正交化,讓更新方向在矩陣空間中更均勻。
Muon最初由Keller Jordan等人提出,但只在小模型上驗證過。
2025年初,Kimi團隊的Moonlight論文中首次把Muon擴展到大規模訓練,實驗顯示相同算力下Muon的計算效率約為AdamW的兩倍。
2025年中,在萬一參數的K2模型上,進一步開發出MuonClip,加入QK-clip來控制注意力logits的數值范圍,實現了15.5萬億token預訓練全程零loss spike。
![]()
V4技術報告里引用 Kimi 的Muon優化器論文,寫得很明確,對大部分參數使用Muon優化器,帶來更快的收斂和更好的訓練穩定性。
![]()
底層技術上的同頻還不止于此,至少還有三條線在平行推進。
KV緩存。
Kimi的Mooncake把KV緩存做了分離式存儲和調度,DeepSeek V4設計了異構KV緩存結構,把壓縮KV和滑動窗口KV分開管理并支持磁盤級存儲。都在解決同一個工程瓶頸。
長上下文。
Kimi 2024年做了百萬上下文的模型實驗,是國內最早把「長文本」從技術概念變成用戶記憶點的公司,但當時成本還沒降下來。
長上下文真正的難點從來都在成本端,讀得越長,賬單越難看,延遲越難控,KV緩存越堆越高。讀得起、讀得穩、讀完還能干活,才是產品化門檻。
DeepSeek V4這次接過了這根棒,設計了CSA(壓縮稀疏注意力,每4個token的KV合并后再做top-k選擇)和HCA(重壓縮注意力,壓縮率128倍但保持全局稠密計算)交替堆疊,推理算力降到V3.2的27%,KV緩存只剩十分之一。
![]()
![]()
注意力架構的下一步。
DeepSeek押稀疏注意力,核心假設是長序列中大部分KV條目對當前query貢獻極小,可以安全跳過。
Kimi下一代模型探索線性注意力,核心假設是注意力計算本身可以被重新表述為線性形式,把復雜度從序列長度的平方降到線性。
一個在篩選哪些token值得看,一個在改寫「看」這個動作本身的計算規則。
殊途同歸,都在往Transformer最要命的成本結構里動刀。
老黃的PPT里,兩個都是中國的
2026年初的CES大會上,黃仁勛展示Rubin NVL72性能的slide里,訓練基準用的是DeepSeek,推理吞吐和token成本基準用的是Kimi K2-Thinking。
同一張PPT,兩個中國開源模型。
![]()
Meta的Muse Spark官方Blog里也出現了類似的畫面。
在代碼困惑度對比圖中,用來對標的外部模型,就是Llama 4 Maverick、DeepSeek-V3.1 Base和Kimi-K2 Base。
![]()
衡量模型在未見過的代碼庫上的理解能力,越低越好
老外「套殼」的首選模型
2026年3月19日,估值500億美元的AI編程工具Cursor發布「自研」模型Composer 2。
結果還不到一天,就被開發者在API日志中扒出了模型ID「kimi-k2p5-rl-0317-s515-fast」。
也就是說,Composer 2的底座就是Kimi K2.5。
Cursor創始人承認「沒在博客里提到Kimi基座是我們的疏忽」,并表示「基于困惑度評估,Kimi K2.5是我們測試過的最強基座模型」。
![]()
![]()
無獨有偶,日本樂天同月發布的Rakuten AI 3.0,底座也被社區發現是DeepSeek V3。
![]()
開發者端的數據也印證了這個趨勢。
今天的OpenRouter調用量排行榜上,Kimi K2.6以297B tokens排名第一,DeepSeek V3.2以204B tokens排名第四。
前五名里兩個中國模型,中間夾著Claude。
![]()
同一個方向,同一張桌子
而在芯片這條暗線上,兩家也在同一個方向推進。
V4技術報告明確寫到,細粒度專家并行方案同時在NVIDIA GPU和華為Ascend NPU上完成了驗證。Kimi新論文《Prefill-as-a-Service》則引入分離式架構,推進國產芯片的混合推理方案。
![]()
![]()
值得一提的是,梁文鋒和楊植麟都先后參加了總理座談會,都是中國AI領域被點名的代表。
兩家公司都在2023年起步,兩年多時間成長為中國AI創業公司中最受關注的兩家,也是業內公認人才密度最高的團隊。
![]()
![]()
競爭是表面,加速是結果
如果只有一家,可以說是個例。
但同一周兩個萬億參數開源模型同時落地,背后的技術還在互相滲透,被GTC和Meta選為性能基準,被Cursor和Rakuten拿去當底座。
![]()
當某些閉源模型之間還在互相猜忌的時候,這兩家已經在論文里互相引用、在代碼里互相復用了。
這大概就是開源最硬的復利。
參考資料:
https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
https://openrouter.ai/rankings?view=day
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.