![]()
機器之心報道
編輯:冷貓、Panda
在 LLM 優化領域,有兩個響亮的名字:Adam(及其變體 AdamW)和 Muon。
它們一個是久經沙場的「守門員」,憑借動量和自適應學習率統治了深度學習的半壁江山,卻在面對十億級參數的混合精度訓練時,常常因數值不穩定性而顯得力不從心;一個是橫空出世的「破局者」,試圖通過將權重矩陣視為整體來重塑訓練幾何,卻因為一刀切(one-size-fits-all approach)的系數設計和對異常值噪聲的極度敏感,在魯棒性上留下了缺口。
當訓練規模不斷指數級膨脹,我們是否只能在 Adam 的「穩」與 Muon 的「快」之間做單選題?
華為諾亞方舟實驗室的最新力作ROOT (Robust Orthogonalized OpTimizer)給出了否定的答案。
作為一款直擊痛點的魯棒正交化優化器,ROOT 不僅精準修復了 Muon 在不同矩陣維度上的「精度近視」,更通過巧妙的軟閾值機制為梯度噪聲裝上了「減震器」。它正試圖用更快的收斂速度和更強的穩定性,為大模型訓練建立一套全新的、兼顧精確與穩健的優化范式。
![]()
- 論文標題:ROOT: Robust Orthogonalized Optimizer for Neural Network Training
- 論文地址:https://arxiv.org/abs/2511.20626
- 開源地址:https://github.com/huawei-noah/noah-research/tree/master/ROOT
- 作者:Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang
- 機構:華為諾亞方舟實驗室
LLM 優化史:從 SGD 到 ROOT
要理解這項工作的重要性,我們需要先了解優化器(Optimizer)在 LLM 訓練過程中至關重要的地位。
簡單打個比方:在深度學習的浩瀚宇宙中,優化器扮演著飛船「引擎」的角色。
其中,最早的優化器是 SGD(Stochastic Gradient Descent),即隨機梯度下降。作為深度學習的基石,它確立了神經網絡訓練的基本范式:通過計算小批量數據的梯度來迭代更新參數。
SGD 是最經典的一階優化方法。然而,在面對高維且復雜的損失函數曲面(Loss Landscapes)時,原始的 SGD 往往難以兼顧收斂速度與穩定性。為了幫助模型更高效地穿越復雜的「山谷」找到極小值,研究者們在 SGD 的基礎上引入了動量機制,這不僅成為了 SGD 的標準配置,也為后來更復雜的自適應方法奠定了基礎。
后來,以 Adam 和 AdamW 為代表的自適應方法崛起,成為訓練深度學習模型的「事實標準」。
它們通過引入動量和逐參數(Per-parameter)的自適應學習率,讓收斂效率大幅超越 SGD。然而,這類方法的底層邏輯是將模型參數視為獨立的「標量」或向量進行更新。當模型參數量突破十億大關,這種忽略參數矩陣內部結構相關性的處理方式,在混合精度訓練中逐漸暴露出了數值不穩定的缺點。
為了突破這一瓶頸,以 Muon 為代表的矩陣感知型優化器應運而生。
![]()
Muon 不再僅僅盯著單個參數,而是將權重矩陣視為一個整體。它利用 Newton-Schulz 迭代對動量矩陣進行正交化處理,從而在不增加額外計算復雜度(保持 O (N))的前提下,規范了更新的幾何結構。
這種方法在理論上等同于在譜范數下進行最速下降,顯著提升了訓練效率和顯存利用率。
盡管 Muon 開啟了新的一頁,但研究人員發現它并非完美無缺。
華為諾亞方舟實驗室的分析指出,現有的正交化優化器存在兩個核心局限:
- 算法魯棒性的缺失: 現有的 Newton-Schulz 迭代通常使用一組固定的系數。然而,神經網絡不同層的權重矩陣形狀各異(從正方形到極度扁平的矩形),固定系數在某些維度下會導致近似誤差激增,產生「維度脆弱性」。
- 對梯度噪聲的缺乏防御:在大規模訓練中,異常數據往往會產生極大幅度的梯度噪聲。現有的自適應優化器對這些噪聲異常敏感,不僅會破壞更新方向,還可能導致訓練徹底失穩。
![]()
隨機梯度中異常值噪聲的概念可視化。大多數梯度值集中在中心附近,存在一個高幅度異常值的尾部。這些異常值會不成比例地影響優化過程。
正是在這種既要「矩陣感知的快」又要「傳統方法的穩」的博弈中,ROOT 應運而生,試圖填補這一關鍵的拼圖空缺。
![]()
ROOT 優化器:雙管齊下
前文我們已經介紹過,現有的正交化優化器(尤其是 Muon)存在的核心缺陷。
ROOT(Robust Orthogonalized OpTimizer)的核心方法,是為正交化優化器做出了針對性的魯棒性增強,讓優化器在快速穩定「兩手抓」。
拒絕「一刀切」
正交化優化器的算法不穩定,核心問題源于正交化系數的「一刀切」。
具體來說,Muon 里 Newton-Schulz 迭代的系數 a、b、c 是固定常數。華為諾亞方舟的研究者們發現,這會引發不同維度矩陣的脆弱性。
![]()
正交化誤差揭示了固定系數 Newton-Schulz 迭代在維度上的脆弱性。
從上表中的數據能看出,矩陣形狀(維度或長寬比)一變,正交化誤差會大幅波動。尤其是方陣更吃虧,方陣始終產生最高的 MSE 值,比非方陣配置有顯著的差距。
這種維度敏感性在優化過程中造成了固有的脆弱性,因為不同維度的層獲得的正交化質量完全不同,損害了梯度更新的一致性和可靠性。
為了解決這種維度脆弱性并構建維度魯棒的正交化過程,研究者們提出了具有細粒度、特定維度系數的自適應 Newton-Schulz 迭代(AdaNewton)
![]()
然而,系數針對每個矩陣維度的特定奇異值分布進行了優化。這種方法為提高正交化精度提供了理論保證。
這些系數可以在訓練期間與模型參數聯合優化,允許正交化過程自動適應每種層類型的屬性。這種細粒度的適應代表了一種范式轉變:從脆弱的維度敏感正交化轉向魯棒的維度不變正交化,確保了整個網絡的更新質量一致。
過濾「異常值」
大模型訓練的梯度常出現「重尾現象」:小批量梯度經常被異常值噪聲污染,這些噪聲包含幅度異常大的梯度分量,這些異常值嚴重影響到了 Muon 中正交化過程的穩定性。
更糟的是,Newton-Schulz 迭代的多項式性質會放大離群噪聲,造成不穩定,甚至可能引發 Transformer 的 attention logits 爆炸的嚴重問題。
為了解決這一問題,華為諾亞方舟的研究者們的做法很直接干脆:把梯度 M? 分解為「正常部分」和「異常部分」兩個分量:
- 基礎分量B?:包含表現良好的梯度信息。
- 異常分量O?:代表異常的大幅度元素。
正交化僅應用于魯棒分量 B?,而丟棄異常值分量 O?
![]()
這個函數如果值的幅度高于閾值 ε,則提取超出范圍的異常值。
在數學上,軟閾值可以被解釋為硬裁剪(hard clipping)的一種連續、可微的替代方案。軟閾值應用了一種平滑的收縮操作,在抑制極端值的同時保留了梯度幅度的相對排序。
![]()
完整的 ROOT 優化器算法
ROOT 的實驗表現:真的又穩又快
為了驗證 ROOT 是不是真的快速又穩定,華為諾亞方舟實驗室訓練了一個 1B Transformer 模型。他們的測試非常嚴苛,涵蓋了從預訓練 Loss 到下游任務的多項基準,甚至跨越到了視覺任務領域。值得注意的是:「所有模型都是在昇騰 NPU 分布式集群上訓練的。」
而最終得到的結果也非常亮眼,證明了 ROOT 優化過程的表現極具競爭力。
首先,在預訓練效率上,ROOT 展現了卓越的收斂能力
![]()
使用 10B Token 的訓練損失對比
如上圖所示,在 10B token 的大規模預訓練實驗中,兩個 ROOT 變體(僅軟閾值版與完整版)的訓練損失均始終保持在 Muon 的 Loss 曲線下方。最終,ROOT 的訓練損失達到 2.5407,比 Muon 基線低 0.01。
而更深入分析顯示,Muon 由于采用固定系數,在訓練過程中存在較大的近似誤差;而 ROOT 憑借自適應系數,始終保持著更接近真實 SVD 的正交化精度 。
![]()
相對于真實 SVD 的正交化精度
在多項下游任務基準上,ROOT 也帶來了全面的提升:ROOT 取得了 60.12 的平均分,不僅擊敗了傳統霸主 AdamW(59.05),也超越了其直接競爭對手 Muon(59.59)。
![]()
在 9 個標準 LLM 基準上的零樣本性能,其中 ROOT 在 6 個基準上領先
同時也能看出 ROOT 具有廣泛適用性:無論是在考察常識推理的 PIQA,還是考察科學知識的 SciQ,ROOT 都展現出了極具競爭力的性能。
不僅如此,ROOT 還表現出了非常出色的跨模態泛化能力:在計算機視覺領域(訓練 ViT 模型識別 CIFAR-10 數據集)的測試中,ROOT 同樣證明了其強大的泛化能力
![]()
在 CIFAR-10 上的 Top-1 測試準確度
特別是在引入軟閾值機制后,ROOT 能夠有效抑制視覺數據中的梯度噪聲,取得了 88.44% 的 Top-1 準確率,顯著優于 Muon 的 84.67% 。這表明ROOT 的「去噪+正交化」范式具有極強的跨領域普適性
該團隊也進行了消融實驗,證明了 ROOT 各組件的有效性。
ROOT 或將開啟新的優化器時代
在 LLM 訓練日益昂貴且復雜的今天,華為諾亞方舟實驗室提出的 ROOT 優化器,通過AdaNewton軟閾值去噪兩大創新,成功在 Muon 的高效基礎上補齊了魯棒性這塊短板 。
ROOT 不僅在理論上保證了不同維度矩陣更新的一致性,更在實戰中證明了其在抗噪、收斂速度和最終性能上的全面優越性。
ROOT 的代碼將會開源,隨著更多研究者將其投入到更大規模的萬億級模型訓練中,我們有理由相信,它很有可能會開啟一個新的優化器時代。
正如這篇論文的結語所言:「這項工作為開發魯棒的優化框架開辟了有前景的方向,這些框架能夠處理未來語言模型日益增加的復雜性和規模,從而可能實現下一代 AI 系統更可靠、更高效的訓練。」
憑借此一貢獻,華為諾亞方舟實驗室展示了其「深潛」的創新特質,秉持理論研究與應用創新并重的理念,致力于推動人工智能領域的技術創新和發展:不隨波逐流于表層的應用創新,而是潛入深海,解決最基礎、最困難、但影響最深遠的優化理論問題。這不僅展示了其強大的科研硬實力,更體現了其作為行業領軍者,致力于構建更高效、更魯棒的下一代 AI 訓練范式的戰略遠見。
團隊簡介
本文有兩位共一作者,他們都是華為諾亞方舟實驗室研究員。據公開資料顯示,其中韓凱(Kai Han)現為華為諾亞方舟實驗室專家研究員,博士畢業于中國科學院軟件所,碩士和本科分別畢業于北京大學和浙江大學。其主要研究方向為高效深度學習和 AI 基礎模型,已在 AI 領域頂會頂刊發表論文 50 余篇,谷歌學術累計被引 2.1 萬余次,其中 GhostNet 和 TNT 入圍 PaperDigest 年度最具影響力論文榜單。他還擔任 NeurIPS、ICML、ICLR、CVPR、ICCV、AAAI 和 ACMMM 等頂會領域主席,入圍斯坦福全球 Top 2% 科學家和愛思唯爾中國高被引學者榜單。
![]()
另外,今年 3 月接任華為諾亞方舟實驗室主任的王云鶴也是本文的通訊作者。
關于該方法更多信息,請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.