<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      為什么BF16的FlashAttention會把訓練「炸掉」?清華給出機制解釋

      0
      分享至



      一句話總結:社區(qū)里困擾了多年的一個 “玄學” 現(xiàn)象終于被拆解清楚了:在 BF16 等低精度訓練里,F(xiàn)lashAttention 不是隨機出 bug,而是會在特定條件下觸發(fā)有方向的數值偏置,借助注意力中涌現(xiàn)的相似低秩更新方向被持續(xù)放大,最終把權重譜范數和激活推到失控,導致 loss 突然爆炸。論文還給出一個幾乎不改模型、只在 safe softmax 里做的極小修改,實測能顯著穩(wěn)定訓練。



      因果鏈總覽(論文 Figure 1)



      • 標題:Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
      • 作者:邱海權,姚權銘
      • 機構:清華大學 電子工程系
      • 投稿:ICLR 2026 Oral
      • 關鍵詞:低精度訓練,BF16,F(xiàn)lashAttention,數值穩(wěn)定性,舍入誤差(rounding error),低秩表示(low-rank)
      • 論文鏈接:https://arxiv.org/abs/2510.04212
      • 代碼鏈接:https://github.com/ucker/why-low-precision-training-fails

      背景:低精度訓練越來越 “剛需”,但注意力比你想的更敏感

      大模型訓練的現(xiàn)實是:顯存和吞吐決定一切。工業(yè)界普遍在混合精度里使用 BF16/FP16,甚至把 FFN 推到 FP8,以換取更高的訓練效率。但工程實踐同樣殘酷:越接近 “極限精度”,訓練越容易出現(xiàn)難以解釋的不穩(wěn)定。

      Flash Attention 是長上下文訓練的關鍵加速組件,幾乎成了標配。問題在于,社區(qū)長期存在一個可復現(xiàn)卻難以解釋的失敗案例:

      • 用 FlashAttention + BF16 訓練 GPT-2,一開始正常收斂,但在幾千 step 之后突然 loss 爆炸。
      • 你可以通過回退到標準注意力、或把關鍵計算提高到 FP32 來 “救火”,但代價是吞吐和顯存優(yōu)勢沒了。

      這類問題被報告了多年(相關 issue 在多個開源項目里反復出現(xiàn)),卻一直缺少一條能 “從數值誤差一路解釋到 loss 爆炸” 的機制鏈。



      作者的做法很工程,且足夠 “可復現(xiàn)”:





      機制解釋 1:相似低秩結構,讓誤差變成 “持續(xù)推力” 而不是噪聲







      結果就是:權重更新被 “帶偏”,譜范數和激活異常增長,最終把訓練推到 loss 爆炸。





      低秩結構相似性與偏置累積(論文 Figure 4/5)

      機制解釋 2:偏置從哪來?safe softmax + BF16 舍入誤差里藏著一個 “離散觸發(fā)器”



      作者把問題追到了 FlashAttention 前向里的未歸一化輸出:



















      • 檢測一行 S 中最大值是否出現(xiàn)多次
      • 一旦出現(xiàn) “重復最大值”,就動態(tài)調整safe softmax 的行移位常數 m,讓最大位置的指數也變成嚴格小于 1

      論文給出的實現(xiàn)(概念上)如下:





      實驗結果:穩(wěn)定訓練不再 “突然炸”

      論文在 BF16 設置下驗證了上述分析與修復:

      • GPT-2S:使用修改后的 FlashAttention,在 AdamW 與 Muon 兩種優(yōu)化器下,都能穩(wěn)定訓練到 600K steps
      • GPT-2M:同樣能在 AdamW 下穩(wěn)定訓練(論文展示到 100K steps)
      • 論文還提到該現(xiàn)象與結論在多種硬件上保持一致(包括 A100、RTX 4090、Ascend 910B)



      驗證集 loss 曲線對比(論文 Figure 7)

      更重要的啟示:別把低精度誤差當成 “零均值噪聲”

      這篇論文的價值不只在 “修了一個 bug”,更在于給出了一個可遷移的診斷范式:

      • 數值誤差未必是隨機噪聲。在特定分布與離散事件(如重復最大值、概率精確為 1)下,舍入誤差可能形成系統(tǒng)性偏置。
      • 模型結構會放大偏置。注意力里涌現(xiàn)的相似低秩更新方向,讓偏置誤差更容易 “同向疊加”。
      • 經驗修復為什么有效也能被解釋:論文討論了 attention sinks 與多最大值的關系,并給出了一個數值層面的連接;同時也指出一些穩(wěn)定化技巧(如 QK normalization、Gated Attention)可能通過 “打散結構相似性” 來阻止誤差同向累積。

      作者介紹

      邱海權是清華大學在讀博士研究生,研究方向涵蓋機器學習理論、表示學習與大模型機制分析。他的研究圍繞模型表達能力、結構歸納偏置以及參數空間幾何與優(yōu)化動力學之間的內在聯(lián)系展開,關注模型在不同結構約束與訓練條件下的泛化行為與可組合性問題。整體上,他強調以可分析的理論框架刻畫模型的能力邊界與機制來源,從結構與原理層面理解深度模型為何有效、何時失效。

      姚權銘,清華大學電子工程系副教授。長期致力于數據高效學習與智能體系統(tǒng)研究,在少樣本學習、圖學習、知識圖譜與生物醫(yī)藥智能等方向取得系統(tǒng)性成果。發(fā)表 Nature 子刊、TPAMI、JMLR、ICML、NeurIPS、ICLR 等論文 130 余篇,被引 1.4 萬余次。代表性工作包括抗噪學習算法 Co-teaching、小樣本學習綜述、自動化圖學習方法及新藥物相互作用預測模型。現(xiàn)任 TPAMI、TMLR 編委及 Neural Networks 資深編委,多次擔任 ICML、NeurIPS、ICLR 領域主席,入選 IEEE Computing Top 30、IET Fellow 等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      遭同行排擠打壓?張雪:所有品牌都不做我們的售后 只能自己直播

      遭同行排擠打壓?張雪:所有品牌都不做我們的售后 只能自己直播

      念洲
      2026-04-21 08:52:33
      我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

      我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

      千秋文化
      2026-04-20 19:55:30
      單桿100分零封瓦菲!斯佳輝本賽季破百超丁俊暉,火箭8-2沖賽點!

      單桿100分零封瓦菲!斯佳輝本賽季破百超丁俊暉,火箭8-2沖賽點!

      劉姚堯的文字城堡
      2026-04-22 22:05:02
      滿載中國商品赴伊巨輪遭扣押!陸戰(zhàn)隊天降奪船,中東火藥桶恐引爆

      滿載中國商品赴伊巨輪遭扣押!陸戰(zhàn)隊天降奪船,中東火藥桶恐引爆

      花仙歷史說
      2026-04-23 01:37:13
      人有沒有錢,一看便知:沒錢的子女,大多有3大特質、3大窮習慣

      人有沒有錢,一看便知:沒錢的子女,大多有3大特質、3大窮習慣

      第一桶金學派
      2025-06-30 10:18:46
      高市讓步三代表團訪華,中國四箭齊發(fā)引日抗議

      高市讓步三代表團訪華,中國四箭齊發(fā)引日抗議

      風流女漢
      2026-04-23 01:00:52
      深圳這個街道是怎么做到讓攤販、居民都叫好

      深圳這個街道是怎么做到讓攤販、居民都叫好

      南方都市報
      2026-04-22 23:22:19
      定了!5月1日起,醫(yī)生收“紅包回扣”不再是違規(guī),直接算犯罪

      定了!5月1日起,醫(yī)生收“紅包回扣”不再是違規(guī),直接算犯罪

      朗威談星座
      2026-04-22 16:12:19
      5月1日起!巨額財產來源不明罪,立案標準從30萬大幅提高到300萬

      5月1日起!巨額財產來源不明罪,立案標準從30萬大幅提高到300萬

      今朝牛馬
      2026-04-22 21:09:48
      今夜,大跳水!美聯(lián)儲,降息大消息!中東,利空突襲!

      今夜,大跳水!美聯(lián)儲,降息大消息!中東,利空突襲!

      中國基金報
      2026-04-22 00:17:05
      無人報考!多所大學面臨倒閉

      無人報考!多所大學面臨倒閉

      華人星光
      2026-04-22 10:42:04
      個人收款被查了!2026年個人收款高于這個數,要小心!

      個人收款被查了!2026年個人收款高于這個數,要小心!

      新浪財經
      2026-04-21 22:04:32
      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      混沌錄
      2026-04-22 19:51:04
      湖人噩耗!東契奇無奈退出,傷情曝光,原因找到,詹姆斯以一擋三

      湖人噩耗!東契奇無奈退出,傷情曝光,原因找到,詹姆斯以一擋三

      萌蘭聊個球
      2026-04-22 09:52:53
      河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

      河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

      極目新聞
      2026-04-22 15:36:21
      內塔尼亞胡計劃訪問匈牙利,匈當選總理:他入境就會被抓!

      內塔尼亞胡計劃訪問匈牙利,匈當選總理:他入境就會被抓!

      每日經濟新聞
      2026-04-21 18:39:15
      勞務派遣在央國企殺瘋了!

      勞務派遣在央國企殺瘋了!

      燈錦年
      2026-04-21 17:56:52
      唏噓!前英超冠軍提前2輪跌入英甲 連續(xù)2年降級 近18輪僅1勝崩盤

      唏噓!前英超冠軍提前2輪跌入英甲 連續(xù)2年降級 近18輪僅1勝崩盤

      我愛英超
      2026-04-22 06:31:41
      中方援助送到了,沉默96小時,伊朗司令通告全球,導彈已堆滿倉庫

      中方援助送到了,沉默96小時,伊朗司令通告全球,導彈已堆滿倉庫

      基斯默默
      2026-04-21 16:35:36
      喪葬費調整后,機關事業(yè)單位退休人員離世,家屬到底能領多少錢?

      喪葬費調整后,機關事業(yè)單位退休人員離世,家屬到底能領多少錢?

      復轉這些年
      2026-04-22 20:54:30
      2026-04-23 04:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12831文章數 142633關注度
      往期回顧 全部

      科技要聞

      對話梅濤:沒有視頻底座,具身智能走不遠

      頭條要聞

      伊朗:特朗普“又說謊了”

      頭條要聞

      伊朗:特朗普“又說謊了”

      體育要聞

      網易傳媒再度簽約法國隊和阿根廷隊

      娛樂要聞

      蜜雪冰城泰國代言人 被扒出辱華黑歷史

      財經要聞

      醫(yī)院專家號"秒空"!警方牽出黑色產業(yè)鏈

      汽車要聞

      純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

      態(tài)度原創(chuàng)

      家居
      手機
      本地
      游戲
      公開課

      家居要聞

      極簡繪夢 克制和諧

      手機要聞

      消息稱部分廠商停更Ultra級別旗艦手機,Pro Max機型成重頭戲

      本地新聞

      春色滿城關不?。座N梅浪漫盛放,吳山藏了一片四月雪

      曝次世代Xbox主機性能炸裂!是PS6兩倍 將顛覆市場

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版