<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      沒想到!DeepSeek V4里,竟還藏著一個中國萬億開源模型

      0
      分享至


      新智元報道

      編輯:好困

      【新智元導讀】DeepSeek V4,1.6萬億參數,Codeforces人類第23,KV緩存砍到1/10。同一周Kimi K2.6萬億MoE開源,也在推國產芯片混合推理。中國AI的底座和芯片,同時動了。

      DeepSeek V4,炸了!

      1.6萬億參數,百萬token上下文KV緩存砍到前代的十分之一,Codeforces評分3206直接超過GPT-5.4,在人類選手中排第23。

      開源權重、API、近60頁技術報告一起扔出來,社區已經開始拆了。



      但我們翻完技術報告準備收工的時候,突然反應過來一件事。

      這周一,Kimi K2.6剛剛開源。萬億參數MoE模型,支持300個子Agent協同,OpenRouter調用量直接沖到全球第一。


      等等。

      同一周,兩個萬億參數中國開源模型先后落地?真的不是約好的嗎?

      頂尖玩家總在同一個山口相遇

      回看過去15個月,DeepSeek和Kimi的瞄準的技術方向和發布時機,對齊到讓人懷疑是約好的。

      2025年1月,DeepSeek-R1推理模型和Kimi K1.5多模態思考模型同日上線,相隔僅兩小時。OpenAI 的Paper 也指出他們兩家是最早復現o1思維鏈的團隊。

      2025年2月,兩家前后腳發論文,都在改造Transformer注意力機制。DeepSeek的NSA做原生稀疏注意力,Kimi的MoBA做混合塊注意力,

      2025年4月,Kimi推出 Kimina-Prover Preview數學推理專項模型沒多久,DeepSeek-Prover-V2 也發布,都走了「自驗證」路線來證明數學定理。

      2026年初,DeepSeek用mHC流形約束超連接來改造深度學習網絡中的「殘差連接」。到了3月,Kimi放出新技術「注意力殘差」,直接將Transformer的核心原理「注意力」應用到「殘差連接」上,引發Karpathy、馬斯克等大神稱贊。

      2026年4月,萬億開源模型 Kimi K2.6和DeepSeek V4同周上線。

      你用我驗過的注意力機制

      我用你驗過的優化器

      多次「相遇」的表面之下,是一個更微妙的現象,兩家公司的技術在互相加持。

      Kimi K2的注意力機制采用了DeepSeek首創的MLA(Multi-head Latent Attention)。

      傳統多頭注意力需要為每個注意力頭單獨存儲Key和Value,上下文越長KV緩存越大。

      MLA的做法是把Q/K/V壓縮到一個低秩的latent向量中,推理時只需緩存這個壓縮向量再解壓,KV緩存量大幅縮減。

      在這套注意力機制上,K2擴展到了萬億參數的MoE模型。


      反過來,DeepSeek V4采用了Muon優化器。

      主流的AdamW對每個參數獨立做自適應縮放,Muon則對整個梯度矩陣做Newton-Schulz正交化,讓更新方向在矩陣空間中更均勻。

      Muon最初由Keller Jordan等人提出,但只在小模型上驗證過。

      2025年初,Kimi團隊的Moonlight論文中首次把Muon擴展到大規模訓練,實驗顯示相同算力下Muon的計算效率約為AdamW的兩倍。

      2025年中,在萬一參數的K2模型上,進一步開發出MuonClip,加入QK-clip來控制注意力logits的數值范圍,實現了15.5萬億token預訓練全程零loss spike。


      V4技術報告里引用 Kimi 的Muon優化器論文,寫得很明確,對大部分參數使用Muon優化器,帶來更快的收斂和更好的訓練穩定性。


      底層技術上的同頻還不止于此,至少還有三條線在平行推進。

      KV緩存

      Kimi的Mooncake把KV緩存做了分離式存儲和調度,DeepSeek V4設計了異構KV緩存結構,把壓縮KV和滑動窗口KV分開管理并支持磁盤級存儲。都在解決同一個工程瓶頸。

      長上下文

      Kimi 2024年做了百萬上下文的模型實驗,是國內最早把「長文本」從技術概念變成用戶記憶點的公司,但當時成本還沒降下來。

      長上下文真正的難點從來都在成本端,讀得越長,賬單越難看,延遲越難控,KV緩存越堆越高。讀得起、讀得穩、讀完還能干活,才是產品化門檻。

      DeepSeek V4這次接過了這根棒,設計了CSA(壓縮稀疏注意力,每4個token的KV合并后再做top-k選擇)和HCA(重壓縮注意力,壓縮率128倍但保持全局稠密計算)交替堆疊,推理算力降到V3.2的27%,KV緩存只剩十分之一。



      注意力架構的下一步

      DeepSeek押稀疏注意力,核心假設是長序列中大部分KV條目對當前query貢獻極小,可以安全跳過。

      Kimi下一代模型探索線性注意力,核心假設是注意力計算本身可以被重新表述為線性形式,把復雜度從序列長度的平方降到線性。

      一個在篩選哪些token值得看,一個在改寫「看」這個動作本身的計算規則。

      殊途同歸,都在往Transformer最要命的成本結構里動刀。

      老黃的PPT里,兩個都是中國的

      2026年初的CES大會上,黃仁勛展示Rubin NVL72性能的slide里,訓練基準用的是DeepSeek,推理吞吐和token成本基準用的是Kimi K2-Thinking。

      同一張PPT,兩個中國開源模型。


      Meta的Muse Spark官方Blog里也出現了類似的畫面。

      在代碼困惑度對比圖中,用來對標的外部模型,就是Llama 4 Maverick、DeepSeek-V3.1 Base和Kimi-K2 Base。


      衡量模型在未見過的代碼庫上的理解能力,越低越好

      老外「套殼」的首選模型

      2026年3月19日,估值500億美元的AI編程工具Cursor發布「自研」模型Composer 2。

      結果還不到一天,就被開發者在API日志中扒出了模型ID「kimi-k2p5-rl-0317-s515-fast」。

      也就是說,Composer 2的底座就是Kimi K2.5。

      Cursor創始人承認「沒在博客里提到Kimi基座是我們的疏忽」,并表示「基于困惑度評估,Kimi K2.5是我們測試過的最強基座模型」。



      無獨有偶,日本樂天同月發布的Rakuten AI 3.0,底座也被社區發現是DeepSeek V3。


      開發者端的數據也印證了這個趨勢。

      今天的OpenRouter調用量排行榜上,Kimi K2.6以297B tokens排名第一,DeepSeek V3.2以204B tokens排名第四。

      前五名里兩個中國模型,中間夾著Claude。


      同一個方向,同一張桌子

      而在芯片這條暗線上,兩家也在同一個方向推進。

      V4技術報告明確寫到,細粒度專家并行方案同時在NVIDIA GPU和華為Ascend NPU上完成了驗證。Kimi新論文《Prefill-as-a-Service》則引入分離式架構,推進國產芯片的混合推理方案。



      值得一提的是,梁文鋒和楊植麟都先后參加了總理座談會,都是中國AI領域被點名的代表。

      兩家公司都在2023年起步,兩年多時間成長為中國AI創業公司中最受關注的兩家,也是業內公認人才密度最高的團隊。



      競爭是表面,加速是結果

      如果只有一家,可以說是個例。

      但同一周兩個萬億參數開源模型同時落地,背后的技術還在互相滲透,被GTC和Meta選為性能基準,被Cursor和Rakuten拿去當底座。


      當某些閉源模型之間還在互相猜忌的時候,這兩家已經在論文里互相引用、在代碼里互相復用了。

      這大概就是開源最硬的復利。

      參考資料:

      https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

      https://openrouter.ai/rankings?view=day

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普:30分鐘后將召開記者會

      特朗普:30分鐘后將召開記者會

      財聯社
      2026-04-26 09:44:16
      生理旺盛的女性,大多有這3個特征,超準!

      生理旺盛的女性,大多有這3個特征,超準!

      皓皓情感說
      2026-04-25 19:09:10
      暴跌11℃!即將大反轉,南京人注意了,這波很猛!

      暴跌11℃!即將大反轉,南京人注意了,這波很猛!

      魯中晨報
      2026-04-26 11:56:06
      寶馬X5也不再堅挺,3.0T版最高降13萬,豪車也開始香了

      寶馬X5也不再堅挺,3.0T版最高降13萬,豪車也開始香了

      西莫的藝術宮殿
      2026-04-26 18:17:33
      千島湖又面臨兩大困難:鰱鳙放養60多年,“保水魚”保住了什么?

      千島湖又面臨兩大困難:鰱鳙放養60多年,“保水魚”保住了什么?

      花小貓的美食日常
      2026-04-25 00:18:49
      蘇翊鳴朱易4年戀情結束!雙方互相取關,女方曬眼淚照喊話向前走

      蘇翊鳴朱易4年戀情結束!雙方互相取關,女方曬眼淚照喊話向前走

      萌神木木
      2026-04-24 11:41:28
      北京車展冒出一堆路虎風味國產電車

      北京車展冒出一堆路虎風味國產電車

      源Auto
      2026-04-24 20:19:02
      開場45秒閃擊,鄧涵文為云南玉昆打入隊史最快進球

      開場45秒閃擊,鄧涵文為云南玉昆打入隊史最快進球

      懂球帝
      2026-04-26 20:01:10
      日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

      行者聊官
      2026-04-24 20:48:30
      長這么好看,她是真不怕被罵啊!

      長這么好看,她是真不怕被罵啊!

      娛人細品
      2026-04-25 21:25:48
      北京緊急通報!柬埔寨國王在華手術,全程不回本國,原因不簡單

      北京緊急通報!柬埔寨國王在華手術,全程不回本國,原因不簡單

      悄悄史話
      2026-04-26 17:44:07
      趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

      趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

      一盅情懷
      2026-04-25 19:36:00
      顏寧微博發文:我本人曾經至少兩篇CNS論文被審稿人偷信息搶發

      顏寧微博發文:我本人曾經至少兩篇CNS論文被審稿人偷信息搶發

      澎湃新聞
      2026-04-26 11:18:27
      血管堵沒堵,頭部不會“說謊”,出現這4個癥狀,要盡早檢查

      血管堵沒堵,頭部不會“說謊”,出現這4個癥狀,要盡早檢查

      芹姐說生活
      2026-04-25 12:41:11
      爭議?19歲王鈺棟提前結束謝場+怒摔水瓶!5場0球后他5次情緒失控

      爭議?19歲王鈺棟提前結束謝場+怒摔水瓶!5場0球后他5次情緒失控

      我愛英超
      2026-04-26 14:15:58
      視頻曝光!北京街頭,一騎行人被撞身亡!警惕這個致命細節↗

      視頻曝光!北京街頭,一騎行人被撞身亡!警惕這個致命細節↗

      BRTV新聞
      2026-04-25 15:19:06
      1-3,0-3,季后賽最大輸家和最差球隊出爐,湖人:不關我的事

      1-3,0-3,季后賽最大輸家和最差球隊出爐,湖人:不關我的事

      鐵甲西奇
      2026-04-26 20:51:14
      一56歲男子腦梗去世,很少吃油炸零食,醫者嘆氣:無知毀了他

      一56歲男子腦梗去世,很少吃油炸零食,醫者嘆氣:無知毀了他

      芹姐說生活
      2026-04-26 16:07:29
      戈貝爾:這是季后賽而且時間還沒走完,約基奇沒必要這么生氣

      戈貝爾:這是季后賽而且時間還沒走完,約基奇沒必要這么生氣

      懂球帝
      2026-04-26 13:27:10
      這部講“無能”的劇,究竟是怎么過會的啊

      這部講“無能”的劇,究竟是怎么過會的啊

      老吳教育課堂
      2026-04-26 15:59:01
      2026-04-26 22:03:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15071文章數 66807關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      藝術
      房產
      本地
      時尚
      公開課

      藝術要聞

      18幅 列賓美院教師Artem Tikhonov風景寫生

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 又长又大又黑又粗欧美| 加勒比东京热综合久久| 男女激情一区二区三区| 亚洲欧美电影在线一区二区| 日本一区二区三区内射| 天天成人综合网| 日韩免费无码人妻波多野| 深夜福利在线观看视频| 亚洲国产成人av在线观看| 精品国产一区二区三区四区| 亚州成人AV| 欧美丰满熟妇乱XXXXX网站 | 湾仔区| 国产乱xxⅹxx国语对白| 年轻漂亮的护士2| 中文字幕乱码在线人视频| 黑人巨大无码中文字幕无码| 欧美日韩视频综合一区无弹窗| 精品少妇后入一区二区三区| 婷婷成人文学| 国产在线不卡精品网站| 亚洲精品国产美女久久久99| 欧美freesex黑人又粗又大| 最近2019中文字幕大全第二页| 成人午夜福利| 亚洲午夜福利网在线观看| 69精品视频| 老妇free性videosxx| 亚洲无码| 日本丰满的人妻hd高清在线 | 人妻另类 专区 欧美 制服| 国产做受???高潮素材喷水合集| 国产最新网址| 热思思久久免费视频| 精品日韩人妻| 国产精品任我爽爆在线播放| 高中女无套中出17p| 久久第九九| 一区二区三区免费福利| 一区二区在线欧美日韩中文| 亚洲日韩国产成网在线观看|