<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不加算力,只改一個算法:Muon在萬億MoE模型中最高2倍加速

      0
      分享至



      機器之心編輯部

      在數值分析領域,Newton-Schulz 及其相關方法已被研究多年,但大多數工作關注的是高精度計算、CPU 優化或方陣輸入。

      就在昨天,普林斯頓大學、紐約大學的四位研究者提出 Gram Newton-Schulz,通過重構 Newton-Schulz,使其更適配 GPU 和大模型訓練場景,在萬億參數 MoE 模型中可將優化器時間降低 40–50%



      我們用一句話來總結 Gram Newton-Schulz 的核心思想:

      不再直接在矩陣 X∈R^n×m 上迭代,而是在更小的 Gram 矩陣 X X^?∈R^n×n 上迭代,從而降低計算量并利用對稱矩陣計算優化。

      核心貢獻包括如下:

      • 將標準 Newton-Schulz 重寫為數學等價形式,主要作用在 n×n 空間;
      • 提出 Naive Gram Newton-Schulz(基礎版本);
      • 分析半精度下的不穩定性,并提出重啟策略(Stabilized 版本);
      • 實現對稱矩陣乘法 GPU kernel;
      • 構建 GramMuon,在實際訓練中實現 40–50% 加速且精度無損。

      下圖 1 為基于 NVIDIA B300 平臺,AdamW 與 Muon 在 LLaMA 不同模型規模下的優化器步驟耗時(實際墻鐘時間)對比。



      作者之一、普林斯頓大學本科生 Jack Zhang 表示,「我們讓 Muon 在幾乎不增加額外成本的情況下,運行速度最高提升 2 倍!Gram Newton-Schulz 可以作為 Muon 中 Newton-Schulz 的即插即用替代方案:我們觀察到驗證集困惑度幾乎沒有變化,誤差在 0.01 以內。同時,我們也分享了在這一算法穩定化過程中的大量探索,確保在任何情況下都不犧牲訓練質量。」



      作者之一、普林斯頓大學助理教授、Together AI 聯合創始人兼首席科學家 Tri Dao 表示,「這是我最喜歡的一類工作 —— 線性代數洞察 + 高性能算子。我們花了幾個月時間,深入研究 Muon 中間過程里這些矩陣的特征值和特征向量,最終提出了一種簡單而優雅的算法,讓這一思路真正落地。」



      接下來我們來看 Gram Newton-Schulz 相較于標準 Newton-Schulz 方法的優勢。在此之前,有必要先回顧一下 Muon 優化器。

      Muon 可以理解為在譜范數下的最速下降法:



      其中:μ 表示動量系數,η 表示學習率,polar 表示極分解。

      極分解定義:若 X=UΣV^?,則:



      由于精確計算昂貴,Muon 使用 Newton-Schulz 進行近似。

      標準 Newton-Schulz 的迭代形式如下:



      本質上是對奇異值進行逐步歸一化,使其趨向 1。不過,標準 Newton-Schulz 存在計算瓶頸。每輪迭代包含三次矩陣乘法:

      • XX^?:2mn^2
      • A^2:2n^3
      • BX:2mn^2

      總 FLOPs 如下:



      這就導致了一些問題,包括大量矩形矩陣乘法(GPU 效率低) 、未利用對稱性,并成為優化器瓶頸。

      因此,本文 Gram Newton-Schulz 核心思想是:將迭代從 X 轉移到 Gram 矩陣



      關鍵變換:任何奇數多項式



      可寫為



      這樣一來,就將問題轉為了 1)對 R 進行矩陣多項式迭代、 本質是近似 Y^-1/2。優勢在于:維度從 n × m → n × n、可用對稱矩陣乘法 kernel 以及 減少矩形 GEMM 次數。

      不過,Naive Gram Newton-Schulz在 float16 下不穩定,Gram 矩陣可能產生負特征值,也會出現 loss spike 和 Inf。



      下圖為 Llama-430M 上的 Naive Gram Newton-Schulz:



      因此有了穩定版的 Stabilized Gram Newton-Schulz



      核心改進在于使用float16 加速



      并在第 2 步后重啟:



      以及重新初始化 Gram。

      結果顯示,在保持穩定性的同時,仍然比原算法更快。

      標準 Newton-Schulz、Naive Gram 與 Stabilized Gram 的復雜度對比如下:



      結果表明,當 α>1(常見情況),Gram 方法明顯更便宜,FLOPs 降低最高約 42%–58%。

      最后來看下 Gram Newton-Schulz 在 Kimi K2 中的耗時:

      Kimi K2 是一個萬億參數級的稀疏、細粒度 MoE 模型,每一層包含 384 個專家,隱藏層維度為 7168,專家的中間層維度為 2048。由于模型正朝著更細粒度的 MoE 架構發展,且 Kimi K2 使用 Muon 進行訓練,因此這是一個評測 Gram Newton-Schulz 的理想場景。

      團隊將 Kimi K2 一次全局訓練步驟中暴露出來的 Newton-Schulz 的墻鐘時間,近似為以下部分的總和:

      • 216 個專家的 up/gate/down 權重,形狀為 2048 × 7168;
      • 1 個 dense 的 up/gate/down 權重,形狀為 7168 × 18432。

      下圖為 NVIDIA H100 Hopper 硬件上,在 Kimi K2 的流水線并行配置中,Gram Newton-Schulz 的速度是標準 Newton-Schulz 的 2 倍



      下圖為 NVIDIA B300 Blackwell 硬件上,在 Kimi K2 的流水線并行配置中,Gram Newton-Schulz 的速度同樣是標準 Newton-Schulz 的 2 倍。



      更多細節內容請參閱原博客。

      博客地址:https://dao-lab.ai/blog/2026/gram-newton-schulz/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      忍無可忍!隊友都開始煩字母哥了!

      忍無可忍!隊友都開始煩字母哥了!

      柚子說球
      2026-03-31 18:28:14
      東莞人注意!今晚下班早點回家!

      東莞人注意!今晚下班早點回家!

      東莞好生活
      2026-03-31 17:12:32
      “給你女兒買件好內衣吧!”中學女孩鍛煉視頻,網友都看不下去了

      “給你女兒買件好內衣吧!”中學女孩鍛煉視頻,網友都看不下去了

      妍妍教育日記
      2026-03-30 18:38:24
      單依純自封“創作者”?實則演唱會大把翻唱歌曲,在音著協的登記作品數量為0

      單依純自封“創作者”?實則演唱會大把翻唱歌曲,在音著協的登記作品數量為0

      可達鴨面面觀
      2026-03-30 15:48:36
      全紅嬋不再隱瞞!坦言身材發胖原因,原來高敏4年內提醒過2次

      全紅嬋不再隱瞞!坦言身材發胖原因,原來高敏4年內提醒過2次

      八斗小先生
      2026-03-31 14:44:12
      瞠目結舌!張雪社交媒體親述:放水太明顯了!

      瞠目結舌!張雪社交媒體親述:放水太明顯了!

      真理是我親戚
      2026-03-30 15:33:49
      收退賽大禮!中國女乒19歲新星死磕早田希娜:死亡之組大逃殺?

      收退賽大禮!中國女乒19歲新星死磕早田希娜:死亡之組大逃殺?

      李喜林籃球絕殺
      2026-03-31 13:05:53
      為啥不為了老人和孩子活下去?網友:有些農村確實超級恐怖

      為啥不為了老人和孩子活下去?網友:有些農村確實超級恐怖

      解讀熱點事件
      2026-03-30 00:44:26
      馬航370并非意外失聯,前美中情局特工說出真相后,車禍身亡

      馬航370并非意外失聯,前美中情局特工說出真相后,車禍身亡

      南冥那只貓
      2025-03-05 21:11:34
      空缺八個月后,山東省教育廳廳長到任!

      空缺八個月后,山東省教育廳廳長到任!

      山東教育
      2026-03-31 13:56:54
      和丈夫吵架后,我賭氣10年沒回家,58歲打工沒人要,回家后我愣了

      和丈夫吵架后,我賭氣10年沒回家,58歲打工沒人要,回家后我愣了

      奶茶麥子
      2026-03-31 15:30:14
      被導彈打怕了?以色列向聯合國抗議,稱伊朗用集束炸彈違反國際法

      被導彈打怕了?以色列向聯合國抗議,稱伊朗用集束炸彈違反國際法

      混沌錄
      2026-03-28 19:43:17
      中國銀行副行長劉承鋼:把握大量定期存款到期有利時機,有效對沖資產收益下行壓力

      中國銀行副行長劉承鋼:把握大量定期存款到期有利時機,有效對沖資產收益下行壓力

      北京商報
      2026-03-30 18:07:56
      2099元!蘋果剛發布的新品,售罄了

      2099元!蘋果剛發布的新品,售罄了

      全是技能
      2026-03-31 14:55:08
      主力暗中吸籌!個個都是“曾經的大牛”,現在跌回地板價!

      主力暗中吸籌!個個都是“曾經的大牛”,現在跌回地板價!

      風風順
      2026-03-31 07:05:16
      創歷史!雷霆首次連兩季60勝 亞歷山大47分連136場20+歷史第一

      創歷史!雷霆首次連兩季60勝 亞歷山大47分連136場20+歷史第一

      醉臥浮生
      2026-03-31 12:36:31
      俄羅斯官媒警告:將用一切可能手段摧毀英國軍艦,包括導彈打擊

      俄羅斯官媒警告:將用一切可能手段摧毀英國軍艦,包括導彈打擊

      諦聽骨語本尊
      2026-03-31 15:10:09
      震驚!浙大博士孟偉自曝時日無多,直播猛灌酒呲牙,狀態嚇壞網友

      震驚!浙大博士孟偉自曝時日無多,直播猛灌酒呲牙,狀態嚇壞網友

      川渝視覺
      2026-03-29 21:27:07
      被非洲強隊震撼?U23國足隊長:他們補時還能跑!每分鐘都是收獲

      被非洲強隊震撼?U23國足隊長:他們補時還能跑!每分鐘都是收獲

      我愛英超
      2026-03-31 17:44:00
      葉酸是蘋果的20倍,春天使勁吃,一排毒、二祛濕、三強免疫,好吃

      葉酸是蘋果的20倍,春天使勁吃,一排毒、二祛濕、三強免疫,好吃

      阿龍美食記
      2026-03-30 15:29:15
      2026-03-31 18:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12647文章數 142600關注度
      往期回顧 全部

      科技要聞

      尚未正式宣發,國行蘋果AI半夜"意外閃現"

      頭條要聞

      時隔7年美國重開駐委內瑞拉大使館:辦公樓霉菌滋生

      頭條要聞

      時隔7年美國重開駐委內瑞拉大使館:辦公樓霉菌滋生

      體育要聞

      縣城修車工,用20年成為世界冠軍

      娛樂要聞

      絲芭傳媒舉報鞠婧祎:瞞報收入竟達85%

      財經要聞

      油價暴漲 我們的生活成本會飆升多少?

      汽車要聞

      騰勢Z9GT到底GT在哪?

      態度原創

      家居
      教育
      旅游
      公開課
      軍事航空

      家居要聞

      新婚愛巢 甜蜜情趣拉滿

      教育要聞

      帶過13屆畢業班,我發現高考超常發揮的學生,平時都有這3個特點。#新學期超給力##教育##高三##高...

      旅游要聞

      請把手機橫過來看這條微信,令人驚訝!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:即使霍爾木茲海峽仍關閉 也愿意結束戰爭

      無障礙瀏覽 進入關懷版