<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境

      0
      分享至



      機器之心報道

      編輯:冷貓、Panda

      在 LLM 優化領域,有兩個響亮的名字:Adam(及其變體 AdamW)和 Muon。

      它們一個是久經沙場的「守門員」,憑借動量和自適應學習率統治了深度學習的半壁江山,卻在面對十億級參數的混合精度訓練時,常常因數值不穩定性而顯得力不從心;一個是橫空出世的「破局者」,試圖通過將權重矩陣視為整體來重塑訓練幾何,卻因為一刀切(one-size-fits-all approach)的系數設計和對異常值噪聲的極度敏感,在魯棒性上留下了缺口。

      當訓練規模不斷指數級膨脹,我們是否只能在 Adam 的「穩」與 Muon 的「快」之間做單選題?

      華為諾亞方舟實驗室的最新力作ROOT (Robust Orthogonalized OpTimizer)給出了否定的答案。

      作為一款直擊痛點的魯棒正交化優化器,ROOT 不僅精準修復了 Muon 在不同矩陣維度上的「精度近視」,更通過巧妙的軟閾值機制為梯度噪聲裝上了「減震器」。它正試圖用更快的收斂速度和更強的穩定性,為大模型訓練建立一套全新的、兼顧精確與穩健的優化范式。



      • 論文標題:ROOT: Robust Orthogonalized Optimizer for Neural Network Training
      • 論文地址:https://arxiv.org/abs/2511.20626
      • 開源地址:https://github.com/huawei-noah/noah-research/tree/master/ROOT
      • 作者:Wei He, Kai Han, Hang Zhou, Hanting Chen, Zhicheng Liu, Xinghao Chen, Yunhe Wang
      • 機構:華為諾亞方舟實驗室

      LLM 優化史:從 SGD 到 ROOT

      要理解這項工作的重要性,我們需要先了解優化器(Optimizer)在 LLM 訓練過程中至關重要的地位。

      簡單打個比方:在深度學習的浩瀚宇宙中,優化器扮演著飛船「引擎」的角色。

      其中,最早的優化器是 SGD(Stochastic Gradient Descent),即隨機梯度下降。作為深度學習的基石,它確立了神經網絡訓練的基本范式:通過計算小批量數據的梯度來迭代更新參數。

      SGD 是最經典的一階優化方法。然而,在面對高維且復雜的損失函數曲面(Loss Landscapes)時,原始的 SGD 往往難以兼顧收斂速度與穩定性。為了幫助模型更高效地穿越復雜的「山谷」找到極小值,研究者們在 SGD 的基礎上引入了動量機制,這不僅成為了 SGD 的標準配置,也為后來更復雜的自適應方法奠定了基礎。

      后來,以 Adam 和 AdamW 為代表的自適應方法崛起,成為訓練深度學習模型的「事實標準」。

      它們通過引入動量和逐參數(Per-parameter)的自適應學習率,讓收斂效率大幅超越 SGD。然而,這類方法的底層邏輯是將模型參數視為獨立的「標量」或向量進行更新。當模型參數量突破十億大關,這種忽略參數矩陣內部結構相關性的處理方式,在混合精度訓練中逐漸暴露出了數值不穩定的缺點。

      為了突破這一瓶頸,以 Muon 為代表的矩陣感知型優化器應運而生。



      Muon 不再僅僅盯著單個參數,而是將權重矩陣視為一個整體。它利用 Newton-Schulz 迭代對動量矩陣進行正交化處理,從而在不增加額外計算復雜度(保持 O (N))的前提下,規范了更新的幾何結構。

      這種方法在理論上等同于在譜范數下進行最速下降,顯著提升了訓練效率和顯存利用率。

      盡管 Muon 開啟了新的一頁,但研究人員發現它并非完美無缺。

      華為諾亞方舟實驗室的分析指出,現有的正交化優化器存在兩個核心局限:

      • 算法魯棒性的缺失: 現有的 Newton-Schulz 迭代通常使用一組固定的系數。然而,神經網絡不同層的權重矩陣形狀各異(從正方形到極度扁平的矩形),固定系數在某些維度下會導致近似誤差激增,產生「維度脆弱性」。
      • 對梯度噪聲的缺乏防御:在大規模訓練中,異常數據往往會產生極大幅度的梯度噪聲。現有的自適應優化器對這些噪聲異常敏感,不僅會破壞更新方向,還可能導致訓練徹底失穩。



      隨機梯度中異常值噪聲的概念可視化。大多數梯度值集中在中心附近,存在一個高幅度異常值的尾部。這些異常值會不成比例地影響優化過程。

      正是在這種既要「矩陣感知的快」又要「傳統方法的穩」的博弈中,ROOT 應運而生,試圖填補這一關鍵的拼圖空缺。



      ROOT 優化器:雙管齊下

      前文我們已經介紹過,現有的正交化優化器(尤其是 Muon)存在的核心缺陷。

      ROOT(Robust Orthogonalized OpTimizer)的核心方法,是為正交化優化器做出了針對性的魯棒性增強,讓優化器在快速穩定「兩手抓」。

      拒絕「一刀切」

      正交化優化器的算法不穩定,核心問題源于正交化系數的「一刀切」。

      具體來說,Muon 里 Newton-Schulz 迭代的系數 a、b、c 是固定常數。華為諾亞方舟的研究者們發現,這會引發不同維度矩陣的脆弱性。



      正交化誤差揭示了固定系數 Newton-Schulz 迭代在維度上的脆弱性。

      從上表中的數據能看出,矩陣形狀(維度或長寬比)一變,正交化誤差會大幅波動。尤其是方陣更吃虧,方陣始終產生最高的 MSE 值,比非方陣配置有顯著的差距。

      這種維度敏感性在優化過程中造成了固有的脆弱性,因為不同維度的層獲得的正交化質量完全不同,損害了梯度更新的一致性和可靠性。

      為了解決這種維度脆弱性并構建維度魯棒的正交化過程,研究者們提出了具有細粒度、特定維度系數的自適應 Newton-Schulz 迭代(AdaNewton)



      然而,系數針對每個矩陣維度的特定奇異值分布進行了優化。這種方法為提高正交化精度提供了理論保證。

      這些系數可以在訓練期間與模型參數聯合優化,允許正交化過程自動適應每種層類型的屬性。這種細粒度的適應代表了一種范式轉變:從脆弱的維度敏感正交化轉向魯棒的維度不變正交化,確保了整個網絡的更新質量一致。

      過濾「異常值」

      大模型訓練的梯度常出現「重尾現象」:小批量梯度經常被異常值噪聲污染,這些噪聲包含幅度異常大的梯度分量,這些異常值嚴重影響到了 Muon 中正交化過程的穩定性。

      更糟的是,Newton-Schulz 迭代的多項式性質會放大離群噪聲,造成不穩定,甚至可能引發 Transformer 的 attention logits 爆炸的嚴重問題。

      為了解決這一問題,華為諾亞方舟的研究者們的做法很直接干脆:把梯度 M? 分解為「正常部分」和「異常部分」兩個分量:

      • 基礎分量B?:包含表現良好的梯度信息。
      • 異常分量O?:代表異常的大幅度元素。

      正交化僅應用于魯棒分量 B?,而丟棄異常值分量 O?



      這個函數如果值的幅度高于閾值 ε,則提取超出范圍的異常值。

      在數學上,軟閾值可以被解釋為硬裁剪(hard clipping)的一種連續、可微的替代方案。軟閾值應用了一種平滑的收縮操作,在抑制極端值的同時保留了梯度幅度的相對排序。



      完整的 ROOT 優化器算法

      ROOT 的實驗表現:真的又穩又快

      為了驗證 ROOT 是不是真的快速又穩定,華為諾亞方舟實驗室訓練了一個 1B Transformer 模型。他們的測試非常嚴苛,涵蓋了從預訓練 Loss 到下游任務的多項基準,甚至跨越到了視覺任務領域。值得注意的是:「所有模型都是在昇騰 NPU 分布式集群上訓練的。」

      而最終得到的結果也非常亮眼,證明了 ROOT 優化過程的表現極具競爭力。

      首先,在預訓練效率上,ROOT 展現了卓越的收斂能力



      使用 10B Token 的訓練損失對比

      如上圖所示,在 10B token 的大規模預訓練實驗中,兩個 ROOT 變體(僅軟閾值版與完整版)的訓練損失均始終保持在 Muon 的 Loss 曲線下方。最終,ROOT 的訓練損失達到 2.5407,比 Muon 基線低 0.01。

      而更深入分析顯示,Muon 由于采用固定系數,在訓練過程中存在較大的近似誤差;而 ROOT 憑借自適應系數,始終保持著更接近真實 SVD 的正交化精度 。



      相對于真實 SVD 的正交化精度

      在多項下游任務基準上,ROOT 也帶來了全面的提升:ROOT 取得了 60.12 的平均分,不僅擊敗了傳統霸主 AdamW(59.05),也超越了其直接競爭對手 Muon(59.59)。



      在 9 個標準 LLM 基準上的零樣本性能,其中 ROOT 在 6 個基準上領先

      同時也能看出 ROOT 具有廣泛適用性:無論是在考察常識推理的 PIQA,還是考察科學知識的 SciQ,ROOT 都展現出了極具競爭力的性能。

      不僅如此,ROOT 還表現出了非常出色的跨模態泛化能力:在計算機視覺領域(訓練 ViT 模型識別 CIFAR-10 數據集)的測試中,ROOT 同樣證明了其強大的泛化能力



      在 CIFAR-10 上的 Top-1 測試準確度

      特別是在引入軟閾值機制后,ROOT 能夠有效抑制視覺數據中的梯度噪聲,取得了 88.44% 的 Top-1 準確率,顯著優于 Muon 的 84.67% 。這表明ROOT 的「去噪+正交化」范式具有極強的跨領域普適性

      該團隊也進行了消融實驗,證明了 ROOT 各組件的有效性。

      ROOT 或將開啟新的優化器時代

      在 LLM 訓練日益昂貴且復雜的今天,華為諾亞方舟實驗室提出的 ROOT 優化器,通過AdaNewton軟閾值去噪兩大創新,成功在 Muon 的高效基礎上補齊了魯棒性這塊短板 。

      ROOT 不僅在理論上保證了不同維度矩陣更新的一致性,更在實戰中證明了其在抗噪、收斂速度和最終性能上的全面優越性。

      ROOT 的代碼將會開源,隨著更多研究者將其投入到更大規模的萬億級模型訓練中,我們有理由相信,它很有可能會開啟一個新的優化器時代。

      正如這篇論文的結語所言:「這項工作為開發魯棒的優化框架開辟了有前景的方向,這些框架能夠處理未來語言模型日益增加的復雜性和規模,從而可能實現下一代 AI 系統更可靠、更高效的訓練。」

      憑借此一貢獻,華為諾亞方舟實驗室展示了其「深潛」的創新特質,秉持理論研究與應用創新并重的理念,致力于推動人工智能領域的技術創新和發展:不隨波逐流于表層的應用創新,而是潛入深海,解決最基礎、最困難、但影響最深遠的優化理論問題。這不僅展示了其強大的科研硬實力,更體現了其作為行業領軍者,致力于構建更高效、更魯棒的下一代 AI 訓練范式的戰略遠見。

      團隊簡介

      本文有兩位共一作者,他們都是華為諾亞方舟實驗室研究員。據公開資料顯示,其中韓凱(Kai Han)現為華為諾亞方舟實驗室專家研究員,博士畢業于中國科學院軟件所,碩士和本科分別畢業于北京大學和浙江大學。其主要研究方向為高效深度學習和 AI 基礎模型,已在 AI 領域頂會頂刊發表論文 50 余篇,谷歌學術累計被引 2.1 萬余次,其中 GhostNet 和 TNT 入圍 PaperDigest 年度最具影響力論文榜單。他還擔任 NeurIPS、ICML、ICLR、CVPR、ICCV、AAAI 和 ACMMM 等頂會領域主席,入圍斯坦福全球 Top 2% 科學家和愛思唯爾中國高被引學者榜單。



      另外,今年 3 月接任華為諾亞方舟實驗室主任的王云鶴也是本文的通訊作者。

      關于該方法更多信息,請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江蘇要下雪了!

      江蘇要下雪了!

      句容日報
      2025-12-08 09:07:31
      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      一片嘩然,馬克龍回國就變臉,竟然向中方發出威脅

      艾米手工作品
      2025-12-08 07:21:13
      孫穎莎幫助國乒拿下冠軍 沒想到日本媒體這樣評價她!真的太全面了

      孫穎莎幫助國乒拿下冠軍 沒想到日本媒體這樣評價她!真的太全面了

      林子說事
      2025-12-08 09:56:05
      72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

      72歲老戲骨濮存昕官宣外孫女出道,尖嘴猴腮,長相遭吐槽:太丑了

      深析古今
      2025-12-08 12:29:36
      廣西壯族自治區政協原副主席彭曉春嚴重違紀違法被開除黨籍

      廣西壯族自治區政協原副主席彭曉春嚴重違紀違法被開除黨籍

      界面新聞
      2025-12-08 16:03:08
      大降11℃,中雪、大雪,即將抵達湖北

      大降11℃,中雪、大雪,即將抵達湖北

      極目新聞
      2025-12-08 14:56:08
      楊瀚森首發4+5+2晃過伊迪扣籃,開拓者不敵灰熊格蘭特21+7

      楊瀚森首發4+5+2晃過伊迪扣籃,開拓者不敵灰熊格蘭特21+7

      湖人崛起
      2025-12-08 09:36:35
      太美了!為馬克龍獻花的川大女孩身份曝光!顏值極高,還是學霸!

      太美了!為馬克龍獻花的川大女孩身份曝光!顏值極高,還是學霸!

      鋭娛之樂
      2025-12-07 20:53:34
      辣眼睛!"搶鏡伴娘"刷爆網絡,深V禮服幾乎掉落,新郎眼神失控

      辣眼睛!"搶鏡伴娘"刷爆網絡,深V禮服幾乎掉落,新郎眼神失控

      派大星紀錄片
      2025-12-06 14:32:19
      存在不當影射行為,郭德綱被約談!

      存在不當影射行為,郭德綱被約談!

      微微熱評
      2025-12-08 00:51:45
      四百年后,再回頭看看多爾袞給華夏民眾帶來的四大苦難,唯有嘆息

      四百年后,再回頭看看多爾袞給華夏民眾帶來的四大苦難,唯有嘆息

      沈言論
      2025-12-07 16:10:03
      王迅老師不幸逝世,官網已變黑白

      王迅老師不幸逝世,官網已變黑白

      wuhu派
      2025-12-08 08:47:33
      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      互聯網.亂侃秀
      2025-12-07 11:37:05
      三國殺一將成名喵喵杯開啟,萌趣喵元素新武將威曹操邀你周年狂歡

      三國殺一將成名喵喵杯開啟,萌趣喵元素新武將威曹操邀你周年狂歡

      熱點游戲
      2025-12-08 11:01:02
      盧克文工作室被封:一個“地攤戰略家”的破產

      盧克文工作室被封:一個“地攤戰略家”的破產

      智識漂流
      2025-12-08 14:09:40
      原國務委員、第八屆全國人大常委會副委員長王丙乾同志逝世,享年100歲

      原國務委員、第八屆全國人大常委會副委員長王丙乾同志逝世,享年100歲

      新京報政事兒
      2025-12-08 15:40:30
      40歲,想結婚,被網暴

      40歲,想結婚,被網暴

      南風窗
      2025-12-08 14:56:09
      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      復轉這些年
      2025-12-07 18:02:55
      馬斯克發帖稱“歐盟應該被廢除”,波蘭外長怒懟:飛火星去吧!

      馬斯克發帖稱“歐盟應該被廢除”,波蘭外長怒懟:飛火星去吧!

      每日經濟新聞
      2025-12-07 23:36:03
      從MiniMax到DeepSeek:為何頭部大模型都在押注「交錯思維」?

      從MiniMax到DeepSeek:為何頭部大模型都在押注「交錯思維」?

      機器之心Pro
      2025-12-04 14:48:23
      2025-12-08 16:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11868文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      本地
      旅游
      時尚
      公開課
      軍事航空

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      旅游要聞

      解鎖“蜀山暖雪”新體驗 演員岳紅邀你感受安逸四川的冬季玩法

      除了大衣,今年最火的外套一定就是它了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 少妇性l交大片| 岛国无码精品| 国产亚洲精品久久久久久大师| 中文字幕av一区二区三区人妻少妇| 中文字幕亚洲在线| 一个人免费观看WWW在线视频| 最新精品国偷自产在线下载| 超碰8| 网红刘婷户外野战黑人在线免费观看| 97人伦色伦成人免费视频| 成人亚洲国产| 国产成人综合网亚洲第一| 九九综合色| 广东少妇大战黑人34厘米视频| 亚洲国产成人一区二区三区| 如皋市| 亚洲www| 欧美丰满熟妇乱XXXXX网站| 亚洲欧美日韩在线不卡| 国产精品成人国产乱| 临武县| 色偷偷综合网,欧美日韩| 熟女老骚91PORN九色| 亚洲欧美日韩久久精品| 中文字幕乱码在线播放| 2021精品亚洲中文字幕| 亚洲韩欧美第25集完整版| 日韩老无码| 亚洲6080yy久久无码产自国产| 国产美女被遭强高潮免费网站| 国产精品污www在线观看| 伊人久久久大香线蕉综合直播| 91高清在线观看| 福海县| 天堂在线V| www熟女com| 一区二区三区A片| 丰满妇女强制高潮18xxxx| 国产精品亚欧美一区二区三区| 亚洲国产成人久久精品软件| 亚洲国精产品一二二线|