<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      扒完 DeepSeek V4 報告,我翻出了這個隱藏彩蛋

      0
      分享至

      今天上午,,直接把這個大模型瘋狂更新月推向了最高潮。

      百萬上下文標配,性能比肩頂級閉源模型,首發適配華為昇騰芯片,隨便一個點單拎出來能寫一篇爆款頭條。

      不過在我翻看 V4 的技術報告的時候,在訓練層面看到了一個被大部分人滑過去的名詞:Muon 優化器


      這個技術名詞,怎么看著這么眼熟呢?

      原來是前兩天發布的 Kimi 2.6 里,就是通過 Muon優化器,在相同的訓練量下實現了2倍的效率提升,并在 1 萬億參數規模上解決了訓練不穩定的難題。


      早在上個月楊植麟站在英偉達 GTC 2026 的舞臺上,花了演講中最長的一個板塊講它。

      Kimi 是全世界第一個發論文證明 Muon 可以用在萬億參數大模型訓練上的團隊。(更多解讀可參考)

      楊植麟是這樣說的:「用 MuonClip 而非 Adam 訓練 Transformer 大模型,效果會好得多。」正確實現后,token 效率提升 2 倍。在數據墻面前,這相當于把 50 萬億 token 用出了 100 萬億的效果。

      現在,這項技術出現在了 DeepSeek V4 的訓練方案里。

      我又回來翻了一下 Kimi K2 的架構底層,又發現了一個更有意思的細節:它用的是 DeepSeek-V3 提出的 MLA(Multi-head Latent Attention)。

      DeepSeek 的技術報告寫著 Kimi 的名字,Kimi 的架構底座寫著 DeepSeek 的名字。 你中有我,我中有你。

      這大概是中國 AI 圈最魔幻的一幕:兩家被外界反復對比的開源雙子星,技術底層早就長到了一起。

      而且,Kimi 類似這樣的巧合,已經不是第一次了。

      五次「撞車」,五個拐點

      算上 V4 和 K2.6 前后腳上線,這已經是 Kimi 和 DeepSeek 過去一年里的第五次「撞車」了。


      圖片由 image-2 制作.

      五次「撞車」,如果只是時間重合,那叫巧合。但把每次發布的內容拉出來看,你會發現一條清晰的暗線:每次撞車恰好對應一個 AI 行業拐點的到來

      第一次是最戲劇性的。2025 年 1 月 20 日晚 8 點 10 分,DeepSeek R1 發布并以 MIT 協議完全開源。不到兩小時后,Kimi k1.5 亮相。

      兩者都瞄準同一件事:讓模型從「張嘴就來」變成「先想后說」,用強化學習跑通 Long-CoT 長思維鏈推理。

      在這之后,中國的開源力量就徹底改變了整個全球 AI 的格局。

      后來 OpenAI 在一篇論文中點名指出:Kimi 和 DeepSeek 是「最早復現 OpenAI-o1 Long-CoT」的兩家公司。全世界只有這兩家中國公司看懂了 OpenAI 在做什么,并且用自己的方式做了出來


      那是中國 AI 從「追隨者」開始變成「引領者」的分水嶺。

      最近這次就是今天。四天之內,K2.6 帶來了 SWE-Bench Pro 58.6% 的 Agent 集群并行編程能力,V4 把百萬上下文做成了所有服務的標配,輸出長度拉到 384K tokens。

      兩家同時推進國產芯片適配:V4 下半年支持華為昇騰 950,寒武紀已完成 Day 0 適配;K2.6 支持國產芯片混合推理。

      Agent 能力、編程天花板、百萬上下文、國產芯片適配、開源生態,全齊了。

      從「學會思考」到「學會干活」,從「改 Transformer」到「改算力底座」,五次撞車其實展現出來的,是中國 AI 不再一味對標 OpenAI ,逐漸不再依賴英偉達,在開源上走出屬于自己的路。

      撞車背后的必然

      發布撞車的巧合固然有意思,但更值得關注的,其實是巧合背后的一些必然。

      讓我們先回到 DeepSeek 架構里的 Muon 。

      楊植麟在 GTC 演講中講了一個技術困難:當 Kimi 把 Muon 擴展到 1 萬億參數時,訓練不穩定性成了攔路虎。最大 logits 爆炸超過 1000,正常值只有 50 到 100。


      損失先降后炸,根本無法收斂。他們的解法是 QK-Clip,對每個注意力頭計算最大 logit 的裁剪值,把查詢和鍵限制在合理范圍內。訓練損失不受影響,但穩定性問題消失了。

      K2 模型用這套技術完成了訓練,創下機器學習史上最大規模 Muon 訓練的紀錄。

      而 DeepSeek V4 的技術報告里,Muon 被直接寫進了訓練方案。大多數模塊用 Muon 加速收斂,嵌入層和預測頭仍用 AdamW,混合使用。這是對 Kimi 底層創新的一次直接引用。


      反過來,Kimi K2 的底層架構采用了 DeepSeek-V3 提出的 MLA。Multi-head Latent Attention,通過壓縮 KV 緩存大幅降低推理成本,是 V3 最核心的架構創新之一。

      你的論文成了我的基礎設施,我的創新成了你的底座。 寫在引用列表里的互相成就。

      在硅谷,你很難看到這種事。OpenAI 和 Anthropic 之間的技術是「護城河」,能藏則藏。但 Kimi 和 DeepSeek 之間長出了一種更原始也更健康的關系:開源社區里的正向循環

      Kimi 和 DeepSeek 是中國首批開源萬億參數模型的玩家,都相信 Scaling Law。技術路線上,DeepSeek 以推理模型見長,Kimi 以 Agent 能力著稱。

      底層架構上,兩家都在挑戰同一批「古老」的基礎設施。Kimi 發了「注意力殘差」論文,DeepSeek 做了 mHC 殘差連接,都在改 ResNet 時代留下來的殘差連接方式。

      在長文本這條線,Kimi 探索線性注意力(Kimi Linear),DeepSeek 探索稀疏注意力(DSA),殊途同歸。

      所以當它們撞車時,與其說是巧合,不如說是對同一個方向的必然趨同。

      用中國的芯片,跑中國的模型,對全世界開源

      在 OpenRouter 上,Kimi 和 DeepSeek 穩居中國模型調用量前兩名。

      Cursor 接入了 Kimi,日本樂天 Rakuten AI 3.0 基于 DeepSeek 開發。被海外產品「套殼」這件事,放在兩年前是恥辱,現在是勛章。

      Meta 新模型 Muse Spark 發布時,官方 Blog 做的對比基準線里,Kimi 和 DeepSeek 跟 GPT-4、Claude 并排站著。英偉達 GTC 上,黃仁勛用來展示芯片性能的中國模型就是這兩家。

      海外認可之外,更值得注意的是國產芯片這條線。H20 芯片已斷供一年,高端推理芯片短期內只有國產一個選項。兩家公司同時在做同一件事:讓中國模型跑在中國芯片上。


      上周黃仁勛在播客訪談里說了一句話:「如果當初 DeepSeek 先在華為平臺上發布,那對我們來說非常可怕。

      今天,V4真的首發適配華為昇騰,工程團隊把整個技術棧從 CUDA 遷移到了華為 CANN 框架,從算子庫到通信原語到內存管理,V4 的混合注意力、MoE 專家并行、FP4 量化訓練,幾乎每層從頭實現。寒武紀也在 Day 0 完成了 V4 全系列的 vLLM 推理適配,代碼已開源。


      黃仁勛一語成讖。

      而 Kimi 在國產芯片上走的路更早,也更深。為了給國產芯片「鋪路」,Kimi 在架構創新上掏出了兩個殺手锏。

      Kimi Linear 混合注意力架構把線性注意力層與全注意力層以 7:1 配比混合,將 KV 緩存體積壓縮到極低水平。實測數據很直觀:32K 上下文下,混合架構模型 KV 吞吐量僅 4.66 Gbps,同規模稠密模型高達 59.93 Gbps。


      KV 緩存傳輸需求被壓到了普通以太網可承載的范圍,RDMA 高速網絡從「必選項」變成了「可選項」。

      在此基礎上,Kimi 聯合清華大學發布了 PrFaaS(預填充即服務)論文,把推理的 Prefill 階段和 Decode 階段徹底解耦,調度到不同異構硬件集群上。實測吞吐量提升 54%,首詞延遲降低 64%。

      這套方案打破了「大模型推理必須綁定同一種高端 GPU」的前提:算力強的國產卡做 Prefill,帶寬強的國產卡做 Decode,各司其職。


      DeepSeek 用 V4 證明了國產芯片能跑萬億參數的旗艦模型,Kimi 用架構創新證明了國產芯片可以跑得好、跑得省。

      一個從工程適配切入,一個從架構設計切入,終點都是同一個:讓英偉達不再是唯一選項

      以前的國產 AI 敘事是「用英偉達的卡,追 OpenAI 的模型」。現在這對雙子星同時在寫另一個劇本:用中國的芯片,跑中國的模型,服務全世界的開發者

      你的 MLA 是我的基礎,我的 Muon 是你的加速器

      回看這一周AI 行業的瘋狂更新,我們已經處在了一個新的轉折點。

      同一周內,兩個中國團隊各自發布了萬億參數級開源模型,性能逼近甚至持平美國頂級閉源模型。這在一年前是不可想象的。

      當閉源模型的價格是開源模型的 50 倍,開源陣營每隔幾個月就推出一個新的萬億參數選手,競爭天平正在發生微妙的傾斜。

      這不是「贏了」或「超越」這么簡單的勝負之分。閉源模型在復雜推理和系統可靠性上仍然有明顯優勢,Opus 4.6 的思考模式依然是 V4-Pro 追趕的目標。但開源陣營的速度、成本優勢和生態覆蓋面,正在改變這場競賽的規則本身。

      除了這五次撞車發布,這兩家公司還有一個巧合。梁文鋒來自廣東湛江,楊植麟來自廣東汕頭。兩個廣東人,撐起全球開源 AI 半邊天


      梁文鋒像工程師哲學家,相信開源和底層創新,V4 發布公告結尾引的是荀子,「不誘于譽,不恐于誹,率道而行,端然正己。」


      至于楊植麟在我看來像產品科學家,他認為用戶體驗和技術突破可以兼得,在 K2.6 發布時他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

      一個古典,一個極客。就是這兩個風格迥異的創始人,一起定位了中國開源模型在世界坐標系的位置。

      你的 MLA 是我的基礎,我的 Muon 是你的加速器。這大概也是中國在能在短時間內引領全球開源 AI 的重要原因之一

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我贍養姑媽10年,她把8套房全給了4個子女,第二天我把她送回老家

      我贍養姑媽10年,她把8套房全給了4個子女,第二天我把她送回老家

      游戲收藏指南
      2026-04-24 07:49:11
      御姐穿搭:氣場不是天生的,是穿出來的

      御姐穿搭:氣場不是天生的,是穿出來的

      疾跑的小蝸牛
      2026-04-25 23:00:21
      教師大勢已定:如無意外的話,2026年中國教師隊伍將會有3大變化

      教師大勢已定:如無意外的話,2026年中國教師隊伍將會有3大變化

      解說阿洎
      2026-04-26 07:34:54
      遭袁立指控風波后,人民日報揭張國立真實現狀,有一點他一直沒變

      遭袁立指控風波后,人民日報揭張國立真實現狀,有一點他一直沒變

      橙星文娛
      2026-04-26 09:27:53
      炸鍋了!俄戰地大佬公開認慫:2026必輸,趕緊轉防御保命

      炸鍋了!俄戰地大佬公開認慫:2026必輸,趕緊轉防御保命

      老馬拉車莫少裝
      2026-04-23 21:32:27
      現場視頻丨突發安全事件 特朗普緊急撤離白宮記者晚宴

      現場視頻丨突發安全事件 特朗普緊急撤離白宮記者晚宴

      新京報
      2026-04-26 09:45:51
      貴陽花果園:共有311棟高層,房價從3000漲到14000,如今價格分化

      貴陽花果園:共有311棟高層,房價從3000漲到14000,如今價格分化

      專業聊房君
      2026-04-24 19:28:34
      烏度卡談最后崩盤:我不知道他們是太年輕,還是懼怕關鍵時刻

      烏度卡談最后崩盤:我不知道他們是太年輕,還是懼怕關鍵時刻

      懂球帝
      2026-04-25 12:18:07
      內塔被上百國通緝,中方打破沉默,在安理會出手,明牌清算以色列

      內塔被上百國通緝,中方打破沉默,在安理會出手,明牌清算以色列

      軒逸阿II
      2026-04-26 08:44:53
      尼日爾撕毀4億美元合同,驅逐中國高管,我方暗藏后手,給它狠狠教訓

      尼日爾撕毀4億美元合同,驅逐中國高管,我方暗藏后手,給它狠狠教訓

      詭譎怪談
      2025-04-30 23:32:55
      太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

      太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

      火山詩話
      2026-04-25 16:38:17
      A股:無需等待周一開盤了,市場已清晰,明天行情已可預見!

      A股:無需等待周一開盤了,市場已清晰,明天行情已可預見!

      財經大拿
      2026-04-26 09:22:44
      世界冠軍1球不進!80后名將12-9奪賽點,羅伯遜3-1逆轉韋克林!

      世界冠軍1球不進!80后名將12-9奪賽點,羅伯遜3-1逆轉韋克林!

      劉姚堯的文字城堡
      2026-04-25 19:23:27
      爆料!全紅嬋網暴案,犯案的真正目的

      爆料!全紅嬋網暴案,犯案的真正目的

      藝利森
      2026-04-23 22:29:28
      特斯拉為什么不參加北京車展?

      特斯拉為什么不參加北京車展?

      華庭講美食
      2026-04-25 20:47:07
      臺高層已抵達非洲,大陸徹底看清:特朗普的最壞打算是什么

      臺高層已抵達非洲,大陸徹底看清:特朗普的最壞打算是什么

      不甜的李子
      2026-04-26 08:23:54
      74年,毛主席牽頭為賀龍恢復名譽,葉帥:我和他私下關系不是很好

      74年,毛主席牽頭為賀龍恢復名譽,葉帥:我和他私下關系不是很好

      我不是沃神
      2026-04-26 06:00:03
      泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

      泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

      揚子晚報
      2026-04-21 22:25:47
      莫雷諾剛重返上海就進球!同時做出重要決定,直言申花就是他的家

      莫雷諾剛重返上海就進球!同時做出重要決定,直言申花就是他的家

      張麗說足球
      2026-04-25 12:51:47
      又一外貿大廠倒閉,巔峰期曾有1000多名員工

      又一外貿大廠倒閉,巔峰期曾有1000多名員工

      派代
      2026-04-25 16:05:20
      2026-04-26 10:20:49
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6311文章數 26830關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

      頭條要聞

      牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《我們的爸爸2》第一季完美爸爸翻車了

      財經要聞

      90%訂單消失,中東旺季沒了

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      親子
      藝術
      房產
      教育
      軍事航空

      親子要聞

      喂得她自己都咽口水了!

      藝術要聞

      鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      教育要聞

      學校管理:“管”出規范,“理”出活力

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久久影视青草| 狠狠色丁香久久综合婷婷| 无码视频一区二区三区| 颍上县| 经典国产乱子伦精品视频| 国产超碰在线| 847www色视频日本| 成人午夜在线播放| 浪漫樱花免费播放高清版在线观看| 内谢少妇xxxxx8老少交| 永胜县| 午夜亚洲www湿好爽| 蜜桃视频在线观看18| 欧美怡红院视频一区二区三区| 国产成人无码A区在线观| 极品诱惑一区二区三区| 色噜噜av亚洲色一区二区| 阳谷县| 波多野结衣在线播放| 国产精品96久久久久久| 最新av播放| 在线天堂中文字幕| 国产亚欧女人天堂AV在线| 99久久国产综合精品成人影院| 亚洲五月婷婷久久综合| 欧美性xxxx狂欢老少配| 91国产超碰在线观看| 国产人成视频在线观看| 隆昌县| 久久久久久久无码高潮| 久久免费在线视频| 无码人妻丰满熟妇奶水区码| 亚洲不卡| 一本久道久久综合无码中文| 色婷婷基地| 国产天美传媒性色av高清| 精品无码国产一区二区三区AV| 亚洲の无码国产の无码步美| 久久久久人妻精品区一| 亚洲精品久久久久avwww潮水| 国内精品久久久久影院一蜜桃|