<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Muon作者僅用一篇博客,就被OpenAI看中了

      0
      分享至



      機器之心報道

      機器之心編輯部

      「許多博士(包括過去的我)都陷入了這樣一個誤區:認為只有在頂級會議上發表論文才是終極目標?!笰I 云服務商 Hyperbolic CEO Yuchen Jin 如是說。

      但現在,發表論文并不與學術影響力直接畫等號了。



      Keller Jordan,OpenAI 深度學習團隊主要成員之一,用一篇博客就撬開了 OpenAI 的大門。

      這篇名為《Muon: An optimizer for hidden layers in neural networks》的博客發布于 2024 年 12 月,而 Keller Jordan 入職 OpenAI 的時間恰好也在此時。



      在這篇博客中,Keller Jordan 提出并構建了一種用于神經網絡隱藏層的優化器 Muon,其能夠在保證神經網絡(包括 Transformer 和 CNN)的準確度的前提上大幅提升其訓練速度。

      為何只發了博客,而不是發表一篇正式的 arXiv 論文,Keller Jordan 這樣解釋:能否發表一篇關于新優化器的論文,且包含大量看起來不錯的結果,和這個優化器是否真的有效之間沒有任何聯系?!肝抑幌嘈潘偻?。」



      一直以來,研究界的衡量標準過度局限于論文發表,而 Keller Jordan 的案例告訴我們,如果你足夠優秀,一篇博客也能打開頂級 AI 科研機構的大門,甚至是 OpenAI。從中,我們也可以看出,OpenAI 在人才招攬方面更注重能力而非其他外在條件。

      接下來,我們看看這篇博客內容。

      注意,這篇博客發表于 2024 年 12 月 8 日,因此其中對前沿指標的描述可能會略有過時,比如 NanoGPT 速通結果就已經被多次刷新了,下面展示了 Keller Jordan 托管的 NanoGPT 速通的最新八條世界記錄,其中最新記錄是今年 5 月 25 日創造的,已達到驚人的 2.979 分鐘!當然,如此成績不只靠 Muon,還有 FlexAttention、嵌入優化、架構優化等諸多改進。



      https://github.com/KellerJordan/modded-nanogpt



      • 原文地址:https://kellerjordan.github.io/posts/muon/
      • Muon 的 PyTorch 實現:https://github.com/KellerJordan/Muon

      Muon:一種用于神經網絡隱藏層的優化器

      Muon 是一種用于神經網絡隱藏層的優化器,可用于快速運行 NanoGPT 和 CIFAR-10,并創造了當前最快的訓練速度紀錄。

      目前,人們已經發布了很多使用 Muon 的實證研究結果,所以本文將主要關注 Muon 的設計。

      首先,本文將定義 Muon,并概述其迄今為止取得的實證結果;然后將詳細討論其設計,包括與先前研究的聯系以及我們對其工作原理的最佳理解;最后將討論優化研究中的證據標準。

      定義

      Muon 是一款用戶神經網絡隱藏層的 2D 參數的優化器。其定義如下:



      其中,NewtonSchulz5 定義為以下牛頓 - 舒爾茨矩陣迭代:



      使用 Muon 訓練神經網絡時,應使用 AdamW 等標準方法優化網絡的標量和向量參數以及輸入層和輸出層。Muon 可用于處理 4D 卷積參數,方法是將其最后三個維度展平(如下所示)。

      結果

      Muon 已取得以下實證結果:

      • 在 CIFAR-10 數據集上,在保證 94% 準確度的前提下,基于 A100 GPU,將訓練速度記錄從 3.3 秒提升至 2.6 秒。
      • 在 FineWeb(一項被稱為 NanoGPT 競速的競賽任務)上的訓練速度記錄提升至 3.28 驗證損失,提升了 1.35 倍。
      • 在擴展到 774M 個參數和 1.5B 億個參數時,繼續表現出了訓練速度的提升。
      • 在 HellaSwag 上用 10 個 8xH100 小時將一個 1.5B 參數的 Transformer 訓練到 GPT-2 XL 級別性能。而使用 AdamW 達到相同結果需要 13.3 小時。



      圖 1. 按樣本效率比較優化器。



      圖 2. 按時間比較優化器。

      此外,以下是 Muon 和 AdamW 在訓練 1.5B 參數語言模型時的比較。兩個優化器均已經過微調。



      圖 3. Muon 與 AdamW 在 1.5B 短訓練上的比較。

      Muon 的設計

      Muon,全稱 MomentUm Orthogonalized by Newton-Schulz,其優化 2D 神經網絡參數的方式是:獲取 SGD - 動量生成的更新,對每個更新應用 Newton-Schulz (NS) 迭代作為后處理步驟,然后在將更新應用于參數。

      NS 迭代的作用是近似正交化更新矩陣,即應用以下運算:



      也就是說,NS 迭代實際上會將 SGD - 動量的更新矩陣替換為與其最接近的半正交矩陣。這相當于用 UV? 替換更新,其中 USV? 是其奇異值分解 (SVD)。

      為什么正交化更新是有益的?

      我們首先想指出一個有效的答案是:這樣就沒問題了嗎?



      但是,對于源自 Bernstein & Newhouse (2024) 對 Shampoo (Gupta et al. 2018) 分析的理論動機,請參閱后文。

      而在實驗驗證中,我們基于人工檢查觀察到,SGD - 動量和 Adam 對基于 Transformer 的神經網絡中的 2D 參數產生的更新通常具有非常高的條件數。也就是說,它們幾乎都是低秩矩陣,所有神經元的更新僅由少數幾個方向主導。我們推測,正交化會有效地增加了其他「稀有方向」的規模,這些方向在更新中幅度很小,但對學習仍然很重要。

      消除 NS 迭代的替代方案

      除了 NS 迭代之外,還有其他幾種矩陣正交化的選項。本小節將解釋為什么沒有使用其中兩種方法。請參閱 Bernstein & Newhouse (2024) 的附錄 A,獲取更完整的可用方法列表。

      SVD(即計算更新的 USV? 分解,然后用 UV? 替換更新)易于理解,但我們不使用它,因為它太慢了。

      耦合牛頓迭代法 (Coupled Newton iteration) 曾在 Shampoo 的實現中被用于執行逆四次方根,并且可以被輕松地調整用于執行正交化。但我們沒有使用它,因為我們發現它必須至少以 float32 精度運行才能避免數值不穩定,而這會導致它在現代 GPU 上運行緩慢。

      相比之下,我們發現牛頓 - 舒爾茨迭代可以在 bfloat16 精度下穩定運行。因此,我們選擇它們作為正交化更新的首選方法。

      證明 NS 迭代能夠讓更新正交化

      為了理解 NS 迭代使更新正交化的原因,令 G=USV? 為 SGD - 動量生成的更新矩陣的 SVD。然后,對系數 (a,b,c) 運行一步 NS 迭代,輸出結果如下:



      一般來說,如果定義五次多項式 φ(x)=ax+bx3+cx?,那么對系數 (a,b,c) 進行 N 步 NS 迭代會輸出結果 Uφ?(S) V?,其中 φ?(S) 表示對構成 S 對角線的奇異值 N 次逐元素應用 φ。

      因此,為了保證 NS 迭代收斂于 Ortho (G)=UV?,需要做的就是 (1) 確保 S 的初始元素在 [0,1] 范圍內;(2) 選擇系數,使得當 N→∞ 時,φ?(x)→1。

      為了滿足第一個條件,只需在開始 NS 迭代之前將 G 替換為 G/‖G‖F。這種重新縮放是有益的,因為 Ortho (cG)=Ortho (G)。

      為了滿足當 N→∞ 時 φ?(x)→1,會有一定的自由度,因為 (a,b,c) 有很多符合此性質的可能選擇。稍后我們將優化這個選擇,但現在可在下圖中看到,簡單的基線 (a,b,c)=(2,?1.5,0.5) 已經有效。



      圖 4. 牛頓 - 舒爾茨迭代的基線系數。

      調整系數

      雖然 NS 系數 (a,b,c)=(2,?1.5,0.5) 已經能夠完美地實現更新的正交化,但我們可以進一步調整它們,以減少需要運行的 NS 迭代步數。

      1. 我們希望 a 盡可能大,因為 φ′(0)=a 意味著該系數控制著初始奇異值較小時的收斂速度。
      2. 對于每個 x∈[0,1],我們希望 φ?(x) 在 N→∞ 時收斂到 [1?ε,1+ε] 范圍內的一個值,使得 NS 迭代的結果與 Ortho (G) 相差不大。

      這里有一個令人驚訝的觀察結果:根據實際經驗,ε 可以高達 0.3 左右,而不會損害基于 Muon 的訓練的損失曲線。因此,我們的目標是最大化 a,使



      有很多方法可以解決這個約束優化問題。而這里使用一種基于梯度的臨時方法,最終得到系數 (3.4445,4.7750,2.0315),這也是最終設計 Muon 時所使用的稀疏。這些系數的變化如下圖所示。請注意 x=0 附近的陡然增長。



      圖 5. 調整后的牛頓 - 舒爾茨迭代系數。

      在我們的實驗中,當使用這些系數的 Muon 來訓練 Transformer 語言模型和小型卷積網絡時,只需運行 5 步 NS 迭代即可。

      我們也考慮過使用三階和七階多項式來進行 NS 迭代,但發現這些方法無法進一步改善時間開銷。

      運行時分析

      本節將分析 Muon 的運行時和內存需求。

      在應用 NS 迭代之前,Muon 只是標準的 SGD 動量,因此其內存需求相同。

      對于網絡中的每個 n×m 矩陣參數(例如,設 m≤n),NS 迭代的每一步都需要 2 (2nm2+m3) 個矩陣乘法 FLOP,對于平方參數,最多為 6nm2。因此,與 SGD 相比,Muon 所需的額外 FLOP 最多為 6Tnm2,其中 T 是 NS 迭代次數(通常我們取 T=5)。

      如果該參數參數化了一個線性層,那么執行一個訓練步驟(即前向和后向傳遞)所需的 FLOP 基準量為 6nm2,其中 B 是該步驟中通過該層的輸入數量。

      因此,Muon 的 FLOP 開銷最多為 Tm/B,其中 m 為模型維度,B 為以 token 為單位的批量大小,T 為 NS 迭代步數(通常 T=5)

      下面針對兩個具體的訓練場景計算了此開銷:NanoGPT 速通和 Llama 405B 訓練。

      1. 對于當前的 NanoGPT 速通記錄,模型維度為 m=768,每批次的 token 數量為 B=524288。因此,開銷為 5?768/524288=0.7%。
      2. 對于 Llama 405B 訓練,模型維度為 m=16384,每批次的 token 數量為 B=16000000(Dubey et al. 2024)。因此,使用 Muon 進行此訓練的開銷為 5?16384/16000000=0.5%。

      由此可以得出結論,對于典型的語言模型訓練場景,無論規模大小,Muon 的 FLOP 開銷均低于 1%

      與先前優化器的關系

      Shampoo 優化器定義如下:



      如果去除預調節器累積,則公式變為以下形式:



      這就是正交化梯度。如果我們在正交化之前添加動量,就能恢復 Muon 更新,但由于使用了四次方根求逆而不是牛頓 - 舒爾茨迭代,因此時間和 FLOP 開銷會更高。

      因此,可以將關閉動量的 Muon 解讀為一種瞬時或無累積的 Shampoo 優化器。

      正交 - SGDM

      Tuddenham 等人(2022)提出了一種優化神經網絡的方法:通過奇異值分解(SVD)對梯度進行正交化,對其結果應用動量,再將動量項作為更新。他們將該優化器命名為正交 - SGDM(Orthogonal-SGDM)。這與 Muon 類似,但區別在于:

      • Muon 將動量計算置于正交化之前(實驗表明該設計表現更優);
      • Muon 采用牛頓 - 舒爾茨迭代代替 SVD,以實現更高效的正交化。

      遺憾的是,Tuddenham 等人(2022)在其最佳實驗配置(表 3)中報告,他們的方法表現不及精心調參的標準 SGD-Momentum。



      圖源:https://arxiv.org/pdf/2202.07052

      實驗考量

      根據設計,Muon 僅適用于 2D 參數(對于卷積濾波器則需展平處理),因此網絡中的其余標量和向量參數仍需使用標準優化方法(如 AdamW)。實驗發現,輸入層和輸出層參數即使屬于 2D 結構,也需使用 AdamW 優化,這對性能至關重要。具體而言,在訓練 Transformer 模型時,詞嵌入層(embedding)和最終的分類器頭(classifier head)應使用 AdamW 才能達到最佳效果。

      嵌入層的優化動態應與其他層不同,這一結論符合模范數理論(modular norm theory)的預測;但輸出層的優化動態差異并未被該理論涵蓋,而是由實驗觀測結果驅動。

      另一個純粹的經驗結果是,在本文測試的所有案例中,使用 Nesterov 式動量對 Muon 的效果都比普通的 SGD 動量略好。因此,本文在公開的 Muon 實現中將其設為默認設置。

      第三個結果是,如果將 Muon 分別應用于 Transformer 的 Q、K、V 參數,而不是同時應用于 Q、K、V 參數,則 Muon 在優化 Transformer 方面效果更佳,因為 Transformer 實現會將 Q、K、V 參數設置為單個線性層,并將輸出拆分。

      當前的神經網絡優化研究文獻中,充斥著大量宣稱「大幅超越 AdamW」卻最終被社區棄用的優化器。坦白說,這種現象并不令人意外??紤]到行業每年投入數十億美元用于神經網絡訓練(且迫切希望降低成本),如果這些優化器真的有效,理應被廣泛采用。因此,問題顯然出在研究層面而非應用層面 —— 即現有研究存在系統性缺陷。

      通過仔細分析相關論文可以發現,最常見的癥結在于基線模型(baseline)調優不足:許多研究在將新提出的優化器與 AdamW 對比時,未能對 AdamW 基線進行充分調參。

      發表聲稱有巨大改進但無法復制 / 達到宣傳效果的新方法并非無害犯罪,因為它浪費了大量個體研究人員和小型實驗室的時間、金錢和士氣,他們每天都在為復制和改進這些方法的失敗而感到失望。

      為了糾正這種情況,我們應該采用以下標準:研究社區應該要求,新的神經網絡訓練方法應該在競爭性訓練任務中表現出色。

      競爭性任務通過兩種方式解決基線調優不足的問題。

      首先,競爭性任務中的基線是先前的最佳記錄,如果該任務很熱門,這個基線很可能已經被充分調優。

      其次,即使在不太可能的情況下先前記錄未被充分調優,系統也可以通過恢復到標準訓練方法的新記錄實現自我修正。這種自我修正之所以可行,是因為標準方法通常具有經過硬件優化的高效實現,而新方法通常會引入額外的計算時間開銷。這樣一來,在熱門的競爭性任務中,標準方法出現重大但虛假的改進并長期保持在記錄歷史中的可能性就很小了。

      這篇博客還列舉了一些待解決問題:

      • Muon 能否擴展到更大規模的訓練?
      • Muon 使用的 Newton-Schulz 迭代能否在大規模 GPU 集群中合理分布?
      • Muon 是否可能僅適用于預訓練,而無法用于微調或強化學習工作負載?

      在撰寫本文時,Keller Jordan 還不知道這些問題的答案。

      不過,已經有研究基于 Muon 優化器進行了改進,比如月之暗面在 Muon 中引入了標準的 AdamW(Loshchilov 等人,2019)權重衰減機制。結果表明,帶權重衰減的 Muon 優于原始 Muon 和 AdamW,獲得了更低的驗證損失。

      另外,雖然 Muon 誕生于一篇博客,但也已經有研究團隊 Essential AI 發布了對該優化器的系統性研究論文。感興趣的讀者可擴展閱讀:



      • 論文標題:Practical Efficiency of Muon for Pretraining
      • 論文地址:https://arxiv.org/pdf/2505.02222

      該論文表明,在計算 - 時間權衡方面,Muon 比 AdamW 更能顯著擴展帕累托邊界。他們發現,Muon 在保持大批量(遠超所謂的臨界批量)數據效率的同時,計算效率也更高,從而能夠實現更經濟的訓練。



      你嘗試過 Muon 嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      評論炸了,網友卻不敢看她坐下來

      評論炸了,網友卻不敢看她坐下來

      章眽八卦
      2025-12-07 11:32:57
      恭喜勇士,簽到巨頭了,波杰被交易,后庫里時代組建宣告失敗

      恭喜勇士,簽到巨頭了,波杰被交易,后庫里時代組建宣告失敗

      許釔很機智
      2025-12-07 17:28:17
      哈馬斯成驚弓之鳥——在真主黨高官塔巴塔拜被殺后遠離手機70米

      哈馬斯成驚弓之鳥——在真主黨高官塔巴塔拜被殺后遠離手機70米

      老王說正義
      2025-12-06 21:28:07
      中央開始嚴查!機關事業單位大整頓啟動,這幾類人群受影響最大

      中央開始嚴查!機關事業單位大整頓啟動,這幾類人群受影響最大

      社保小達人
      2025-12-07 10:55:13
      廣東小伙見義勇為救下落水小孩,接受了一條煙,家長:以為他不會要,那條煙很貴.....

      廣東小伙見義勇為救下落水小孩,接受了一條煙,家長:以為他不會要,那條煙很貴.....

      上海約飯局
      2025-12-07 15:17:31
      《大生意人》原來,慈禧賜古平原“天下第一茶”竟然有4個原因!

      《大生意人》原來,慈禧賜古平原“天下第一茶”竟然有4個原因!

      情感大頭說說
      2025-12-07 16:27:49
      每一口飲料都傷肝臟!哈佛大學最新:含糖、代糖都傷肝,每天多喝一罐,肝病死亡風險增加41%

      每一口飲料都傷肝臟!哈佛大學最新:含糖、代糖都傷肝,每天多喝一罐,肝病死亡風險增加41%

      醫諾維
      2025-12-06 14:56:07
      一場大洪水,他信家族起死回生了!

      一場大洪水,他信家族起死回生了!

      天真無牙
      2025-12-07 08:00:17
      真的沒想到,劉亦菲這一刀下去,給整個娛樂圈整不會了

      真的沒想到,劉亦菲這一刀下去,給整個娛樂圈整不會了

      小娛樂悠悠
      2025-12-06 11:33:37
      F4合體阿信促成,朱孝天被踢出局,老婆哭訴真相:他早就得罪光了

      F4合體阿信促成,朱孝天被踢出局,老婆哭訴真相:他早就得罪光了

      可樂談情感
      2025-12-07 16:54:37
      重磅利好!15家A股公司,集體公告!

      重磅利好!15家A股公司,集體公告!

      證券時報e公司
      2025-12-07 21:03:48
      中國央行放緩買金節奏,世界黃金協會:2026年黃金可能再出人意料

      中國央行放緩買金節奏,世界黃金協會:2026年黃金可能再出人意料

      21世紀經濟報道
      2025-12-07 17:45:43
      誰殺死了驢肉火燒?

      誰殺死了驢肉火燒?

      酒評網
      2025-12-06 08:05:03
      邯鄲一民辦學校辦學許可證將被注銷!

      邯鄲一民辦學校辦學許可證將被注銷!

      掌中邯鄲
      2025-12-07 11:40:28
      太熱鬧了!東莞車主把鴻蒙飯店當免費食堂啊,連叫號設備都用上了

      太熱鬧了!東莞車主把鴻蒙飯店當免費食堂啊,連叫號設備都用上了

      火山詩話
      2025-12-05 06:32:41
      綁架李嘉誠長子成功后他金盆洗手,買下深圳28套房,如今咋樣了

      綁架李嘉誠長子成功后他金盆洗手,買下深圳28套房,如今咋樣了

      顧史
      2025-11-19 13:55:25
      男子不會打字遭柬埔寨電詐園區轉賣,意外脫身后獲中國老板救助!老板:一年要救助上百名國人

      男子不會打字遭柬埔寨電詐園區轉賣,意外脫身后獲中國老板救助!老板:一年要救助上百名國人

      封面新聞
      2025-12-07 16:07:05
      男子海洋館內抽煙還不聽勸,白鯨直接噴水從背后把他澆了個透

      男子海洋館內抽煙還不聽勸,白鯨直接噴水從背后把他澆了個透

      極目新聞
      2025-12-07 20:02:42
      38歲梅西一夜創造歷史!貝克漢姆贏麻了:0元簽下球王,3年奪3冠

      38歲梅西一夜創造歷史!貝克漢姆贏麻了:0元簽下球王,3年奪3冠

      侃球熊弟
      2025-12-07 06:37:37
      41歲朱珠在家中開圣誕派對,女兒傲嬌靠著媽媽肩膀,朱珠氣質真美

      41歲朱珠在家中開圣誕派對,女兒傲嬌靠著媽媽肩膀,朱珠氣質真美

      東方不敗然多多
      2025-12-07 16:44:10
      2025-12-07 22:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142509關注度
      往期回顧 全部

      科技要聞

      漲幅最高20%!戴爾、聯想等PC廠計劃漲價

      頭條要聞

      人民日報、新華社追問"全網最忙五人組":需一查到底

      頭條要聞

      人民日報、新華社追問"全網最忙五人組":需一查到底

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      藝術
      本地
      數碼
      公開課
      軍事航空

      藝術要聞

      谷愛凌性感泳裝照來襲,你絕對想不到的驚艷瞬間!

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      數碼要聞

      大疆6款新品蓄勢待發,神秘Mic Mini 2麥克風亮點多

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟女精品视频一区二区三区| 精品人妻一区二区三区蜜臀| 狠狠爱网站| 超碰2025| 国产超碰人人爽人人做人人添| 免费无码又爽又刺激网站| 久久综合99re88久久爱| 西西444www高清大胆| 3p露脸在线播放| 色综合久久久久久中文网| 中文字幕亚洲综合久久综合| 精品一区二区三区无码免费直播| 午夜成人精品福利网站在线观看 | 99国产视频| 国产XXXX| 亚洲国产高清在线观看视频| 四虎影成人精品a片| 性欧美三级在线观看| 久久伊人五月天| 377人体粉嫩噜噜噜| 色狠狠色噜噜av天堂一区| 久久av一区二区三区| 宁都县| 亚洲色精品vr一区区三区| av一区二区三区| 久热天堂| 色吊丝永久访问A| 激情综合色五月六月婷婷| 婷婷在线视频| 无码人妻精品一区二区三区温州| 人妻精品久久久久中文字幕86| 久久夜色撩人精品国产小说| 越南毛茸茸的少妇| 色婷婷影院| 久操不卡| 免费国偷自产拍精品视频| 在线天堂最新版资源| 岛国精品在线播放| 樱花草在线社区www| 国产女人好紧好爽| 免费一区二区三区|