<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型如何訓練百萬 Token 上下文:上下文并行與 Ring Attention

      0
      分享至

      只用了幾年時間,上下文窗口就從 4k 膨脹到 1000 萬。Meta 發布的 Llama 4 Scout 的時候說這個模型支持 1000 萬 Token,是 Llama 3 那 128k 的 78 倍。而Google Gemini 3 Pro 是 100 萬,Claude 4 也桐鄉市100萬。

      一次推理跑完整個代碼庫、幾百篇論文、連續好幾天的對話記錄在技術上可行了,但問題是硬件跟不上。

      405B 參數的模型,32 位精度下光權重就要 6.5TB 內存。再算上梯度、狀態、激活值,后者還隨上下文長度二次方增長。單臺 NVIDIA HGX B300 配了 2.3TB HBM3e都不夠。

      這就逼著必須做多節點分布式訓練和推理,幾十上百塊 NVIDIA Blackwell GPU 、NVLink 再加上 InfiniBand,就成了數據中心的標配。所以難點就變味了 GPU 之間的通信瓶頸。



      并行化基礎

      模型或數據集超出單卡容量,就得上并行策略,但是每種策略本質上都是拿通信開銷換內存空間。

      數據并行是最直接的方案:整個模型復制到每張卡上,訓練數據切開,每張卡跑不同的 batch跑完一步同步梯度。適合小模型,計算是瓶頸、內存不是問題的場景。

      模型并行針對大模型:單卡裝不下,就把模型拆開,不同的層放不同的卡上,按順序跑。405B 這種規模只能這樣,并且下游的卡得等上游算完中間是有空轉的。

      張量并行更極端:連單個矩陣乘法都塞不進一張卡。就需要把矩陣按行或按列切開,分到各卡上算,再通過 all-reduce 合起來。

      但這些都有共同的局限。模型大、上下文又長到幾百萬 Token,張量并行也頂不住。因為注意力的二次方內存增長太兇,激活值直接占滿顯存。128k 上下文的激活值內存是 8k 的 16 倍,這個目前沒辦法,因為就是這么夸張。

      上下文并行與序列并行

      序列并行和上下文并行都是在設備間切序列來省內存,但切法不一樣。

      序列并行配合張量并行使用,只切那些非矩陣乘法的操作,比如層歸一化、dropout。張量并行管不到的地方,序列并行接手,每張卡處理一部分激活值。兩者配合能把序列撐長一些,但到 128k 以上還是會有問題,因為注意力的二次方增長是繞不過去。

      上下文并行更徹底:整個序列在所有模塊里都切開,包括注意力。每個操作拿到的都是分區后的序列。百萬級上下文的訓練就靠這個,把激活值的內存占用分攤到各卡上。

      注意力一直是最麻煩的問題,因為模型的其他操作基本都是逐 Token 獨立處理并行起來很自然。但注意力不行,每個 Token 都要"看"序列里所有其他 Token。序列切到多張卡上之后,GPU 1 的 Token 怎么看 GPU 2 的 Token?直接等數據傳完再算,整個流水線就卡住了。

      Ring Attention 就是來解決這個問題的,讓多節點多卡的大模型訓練和推理能在大規模數據中心里跑起來。

      Zig Zag Ring Attention:通信和計算重疊

      Ring Attention 把 GPU 組織成環形拓撲。每張卡的工作流程是這樣的:持有序列中 Q、K、V 張量的一個分塊;用本地的 K 和 V 給自己的 Q 分塊算注意力;把 K 和 V 傳給環里的下一張卡;從上一張卡接收 K 和 V;循環往復,直到所有 Q Token 都跟所有 K/V Token 算完注意力。



      關鍵在于計算和通信是重疊的。GPU 1 拿著當前的 K/V 分塊算注意力的時候,同時在從 GPU 0 接收下一批分塊。通信延遲減少了,因為不用干等數據全到了再開算。

      GPT 這類自回歸模型有個額外的麻煩:Token 只能看前面的 Token不能看后面的。所以會導致負載不均衡有些卡會空轉,Zig-Zag Ring Attention 解決這個問題的辦法是交錯分配,不是按順序切塊而是 GPU 0 拿 Token [0, 4, 8...],GPU 1 拿 [1, 5, 9...],以此類推。每張卡都拿到早期和晚期 Token 的混合,因果注意力計算時負載就均衡了環里不會有卡閑著。

      但是代價是索引邏輯稍微復雜一點,不過大規模場景下性能收益很可觀,因果掩碼下也能做到接近滿 GPU 利用率。



      上下文并行與 Ring Attention 常見問題

      上下文并行把輸入序列切到多張 GPU 上,突破訓練時的內存限制。跟張量并行、數據并行不同,它在所有模型模塊里都切序列維度。單卡裝不下的百萬級 Token 上下文,只有靠這個才能訓。

      Ring Attention 把 GPU 排成環,每張卡一邊算當前數據的注意力,一邊把鍵值對往下傳。通信和計算重疊,全對全的注意力計算不用等完整序列數據到齊,GPU 不會干等。

      而序列并行只切非矩陣乘法操作(層歸一化之類的),配合張量并行用。上下文并行在所有模塊里都切序列,包括注意力。超過 128k Token 的上下文必須用后者,因為激活值內存二次方增長太猛了。

      為什么 Zig-Zag Ring Attention 比標準 Ring Attention 更好?

      Zig-Zag 用交錯分配代替順序分配,因果掩碼計算時各卡負載更均衡。標準 Ring Attention 會讓后面的卡等前面的分塊,造成計算空閑。Zig-Zag 把早期和晚期 Token 均勻撒到各卡上,避免這個問題。

      那么訓練百萬級 Token 上下文的模型需要什么硬件?

      多節點 GPU 集群,配 HBM 內存,加高速互連——NVIDIA NVLink 1.8TB/s 或者 InfiniBand。405B 參數模型 32 位精度從頭訓練加推理,4 臺 NVIDIA HGX B300 的機架部署是個不錯的起點。

      總結

      上下文并行本質上是拿通信開銷換內存空間,而網絡帶寬是最要命的瓶頸。Ring Attention 要在 GPU 之間不停交換鍵值對,傳輸時間一旦超過計算時間,各卡就會從"邊算邊傳"退化成"等數據"。NVIDIA NVLink 1.8TB/s 加 InfiniBand 的高速互連,在多機架部署里不是可選項是必需品。互連帶寬必須匹配 GPU 計算吞吐量,否則上下文并行的效果會大打折扣。

      https://avoid.overfit.cn/post/fd6022b9196942ffb737ba306925b6db

      by Khang Pham

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      悅心知足
      2026-02-21 23:03:46
      范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

      范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

      干史人
      2026-03-05 21:06:35
      “新任指揮官瓦希迪:伊朗革命衛隊的‘冷酷無情’時代來臨!”

      “新任指揮官瓦希迪:伊朗革命衛隊的‘冷酷無情’時代來臨!”

      世界探索者探索
      2026-03-07 15:29:39
      頭號援軍到位,伊朗強勢表態!特朗普做一項決定,臺當局陷入絕望

      頭號援軍到位,伊朗強勢表態!特朗普做一項決定,臺當局陷入絕望

      野史日記
      2026-03-06 13:50:03
      身邊毀三觀的八卦,太炸裂了!不準備兩斤瓜子出不來!

      身邊毀三觀的八卦,太炸裂了!不準備兩斤瓜子出不來!

      另子維愛讀史
      2026-01-24 20:54:02
      倪萍看望漸凍癥終末期的蔡磊,稱看到蔡磊的狀態非常鼓舞自己

      倪萍看望漸凍癥終末期的蔡磊,稱看到蔡磊的狀態非常鼓舞自己

      大象新聞
      2026-03-07 14:39:03
      馬刺29分超級逆轉,小卡空砍30+9!福克斯立功,文班亞馬是頭怪獸

      馬刺29分超級逆轉,小卡空砍30+9!福克斯立功,文班亞馬是頭怪獸

      毒舌NBA
      2026-03-07 13:05:00
      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      千秋歷史
      2026-02-02 20:23:42
      前國腳:梅西并不是公認的球王,個人能力獨一無二,沒有超過C羅

      前國腳:梅西并不是公認的球王,個人能力獨一無二,沒有超過C羅

      夏侯看英超
      2026-03-06 21:05:17
      阿里天才少年出走,硅谷大佬砸重金搶人

      阿里天才少年出走,硅谷大佬砸重金搶人

      大佬灼見
      2026-03-06 16:20:57
      女流直播突然孩子哭鬧,被迫過去“墊一口”,網友:不行下播吧

      女流直播突然孩子哭鬧,被迫過去“墊一口”,網友:不行下播吧

      相思賦予誰a
      2026-03-05 16:09:12
      西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰爭的規則

      西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰爭的規則

      阿七說史
      2026-03-05 15:43:01
      岳父跟我9年,除夕夜大舅哥來接,臨走時岳父悄悄說:晚點來接我

      岳父跟我9年,除夕夜大舅哥來接,臨走時岳父悄悄說:晚點來接我

      朗威談星座
      2026-03-07 15:21:53
      陳飛宇在巴黎吃麻辣燙被偶遇!衣服破了個大洞,網友:我眼花了?

      陳飛宇在巴黎吃麻辣燙被偶遇!衣服破了個大洞,網友:我眼花了?

      木子愛娛樂大號
      2026-03-06 16:45:32
      隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

      隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

      側身凌空斬
      2026-03-07 06:34:39
      韓國網友瘋狂稱贊中國電影《731》配日文字幕上線YouTube!

      韓國網友瘋狂稱贊中國電影《731》配日文字幕上線YouTube!

      奮斗在韓國
      2026-03-05 13:52:04
      中國女籃戰捷克,直播頻道有變,張子宇對比劉禹彤,差距顯而易見

      中國女籃戰捷克,直播頻道有變,張子宇對比劉禹彤,差距顯而易見

      體育大學僧
      2026-03-07 11:40:15
      官方:皇馬與阿聯酋航空續約至2031年;據悉價值每年7400萬歐

      官方:皇馬與阿聯酋航空續約至2031年;據悉價值每年7400萬歐

      懂球帝
      2026-03-07 14:11:07
      F35輕松擊落伊朗戰機!看完五代機實戰發現,難怪中國殲20不出口

      F35輕松擊落伊朗戰機!看完五代機實戰發現,難怪中國殲20不出口

      黑鷹觀軍事
      2026-03-06 17:13:39
      名場面!烏克蘭大使公開拒吊唁伊朗高層,字字戳心撕破偽善面具

      名場面!烏克蘭大使公開拒吊唁伊朗高層,字字戳心撕破偽善面具

      老馬拉車莫少裝
      2026-03-06 13:45:05
      2026-03-07 17:07:00
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      伊朗總統:絕不可能無條件投降 向鄰國表示歉意

      頭條要聞

      伊朗總統:絕不可能無條件投降 向鄰國表示歉意

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      時尚
      教育
      旅游
      親子
      健康

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      教育要聞

      教育部部長懷進鵬:我國義務教育達高收入國家平均水平 #我國義務教育達高收入國家平均水平#2026全國...

      旅游要聞

      警報聲中的歸途:一個義烏老板娘的中東“驚魂”之旅

      親子要聞

      中泰家庭婚姻觀、育兒觀差異巨大,聽聽小葉的真實看法。

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版