<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      無損減少80%激活值內存,提升5倍訓練序列長度,僅需兩行代碼

      0
      分享至




      本文的第一作者羅琪竣、第二作者李夢琦為香港中文大學(深圳)計算機科學博士生,本文在上海交通大學趙磊老師、香港中文大學(深圳)李肖老師的指導下完成。

      長序列訓練對于模型的長序列推理等能力至關重要。隨著序列長度增加,訓練所需儲存的激活值快速增加,占據訓練的大部分內存。即便使用梯度檢查點(gradient checkpointing)方法,激活值依然占據大量內存,限制訓練所能使用的序列長度。

      來自港中文(深圳)和上海交通大學的團隊提出StreamBP算法。通過對鏈式法則進行線性分解和分步計算,StreamBP 將大語言模型訓練所需的激活值內存(logits 和 layer activation)降低至梯度檢查點(gradient checkpointing)的 20% 左右。



      • 論文標題:StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
      • 論文:https://arxiv.org/abs/2506.03077
      • 代碼:https://github.com/Ledzy/StreamBP

      在相同內存限制下,StreamBP 最大序列長度為梯度檢查點的 2.8-5.5 倍。在相同序列長度下,StreamBP 的速度和梯度檢查點接近甚至更快。StreamBP 適用于 SFT、GRPO、PPO 和 DPO 等常見 LLM 目標函數。代碼已開源,可集成至現有訓練代碼。







      StreamBP 所需儲存的激活值和注意力掩碼(橙色)大幅低于梯度檢查點(橙色 + 白色部分)。

      對于 lmhead 層,當以 SFT 或 GRPO 為目標函數時,觀察到不同位置的 logits 對于目標函數的影響相互獨立。因此,StreamBP 從序列維度分塊,每次計算單塊損失函數的梯度,從而只需儲存單塊 logits 和 logits 梯度。



      圖:StreamBP for SFT



      圖:StreamBP for GRPO

      對于 DPO,由于非線性 sigmoid 函數的存在,每個位置的 logits 對于目標函數的影響并不獨立。StreamBP 利用 logits 梯度在序列維度的獨立性,分塊進行梯度計算。



      圖:StreamBP for DPO

      實驗結果

      我們在單張 A800-80GB GPU 上測試了不同大小的模型,StreamBP 的最大 BP 序列長度為標準 BP 的 23-36 倍,梯度檢查點的 2.5-5.5 倍。



      圖:不同序列長度下的 BP 峰值內存

      在現有 Transformers 框架下,StreamBP 的實現可避免計算掩碼部分的 pre-attention score(見論文 3.2.2 部分),在長序列訓練下相較于梯度檢查點實現了加速。



      通過使用 StreamBP,不同目標函數下最大的序列長度得到了大幅提升。在同樣的序列長度下,StreamBP 允許更大的批處理大小以加速訓練。





      表:Qwen 3-4B 單個樣本 BP 時間,序列長度為 9000。

      在 Deepspeed ZeRO 分布式訓練模式下,Distributed StreamBP 比梯度檢查點的最大可訓練序列長度提升了5—5.6倍。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為烏克蘭捐款的明星名人有哪些?

      為烏克蘭捐款的明星名人有哪些?

      難得君
      2025-12-07 00:21:21
      劉世錦:有條件有意愿的地方可以在消費、民生、需求等方面步子大一些

      劉世錦:有條件有意愿的地方可以在消費、民生、需求等方面步子大一些

      證券時報
      2025-12-07 13:55:02
      一份高鐵定向班面試名單,未通過名單與百度人名大全高度重合

      一份高鐵定向班面試名單,未通過名單與百度人名大全高度重合

      澎湃新聞
      2025-12-07 21:58:27
      0-2大冷門!14億豪門主場轟然倒下5輪1勝 兩大邊后衛染紅中衛重傷

      0-2大冷門!14億豪門主場轟然倒下5輪1勝 兩大邊后衛染紅中衛重傷

      狍子歪解體壇
      2025-12-08 06:28:49
      陳震被約談畫面曝光!一切都結束了!

      陳震被約談畫面曝光!一切都結束了!

      廣告創意
      2025-12-08 08:37:53
      用了幾十年的聚酯纖維,是怎么在互聯網塌房的?

      用了幾十年的聚酯纖維,是怎么在互聯網塌房的?

      差評XPIN
      2025-12-08 00:06:03
      廣州房票“買爆”全城,黃埔拆遷戶半月買了600套,房票中介也做起倒賣生意

      廣州房票“買爆”全城,黃埔拆遷戶半月買了600套,房票中介也做起倒賣生意

      時代財經
      2025-12-08 07:03:19
      風向突變!450億顆芯片斷供,荷蘭突然宣布光刻機決定,外媒:這是滅頂之災

      風向突變!450億顆芯片斷供,荷蘭突然宣布光刻機決定,外媒:這是滅頂之災

      V記錄號
      2025-12-08 00:46:27
      那些支持JavaScript的公司,幾乎全倒下了!

      那些支持JavaScript的公司,幾乎全倒下了!

      碼農翻身
      2025-12-08 08:58:26
      梅西剛到美國被黑還不如伊布!兩年半來一直獲得MVP、奪冠!

      梅西剛到美國被黑還不如伊布!兩年半來一直獲得MVP、奪冠!

      氧氣是個地鐵
      2025-12-07 22:20:53
      泰國出動F-16戰機打擊柬埔寨軍事目標

      泰國出動F-16戰機打擊柬埔寨軍事目標

      環球網資訊
      2025-12-08 12:00:29
      浙大1999年出生的研究員任博導,本科畢業才4年,學院回應

      浙大1999年出生的研究員任博導,本科畢業才4年,學院回應

      極目新聞
      2025-12-08 11:50:36
      美國癌癥死亡率驚人下降,2030年抗癌策略值得學習!

      美國癌癥死亡率驚人下降,2030年抗癌策略值得學習!

      霹靂炮
      2025-12-07 23:06:11
      48歲男子因心梗猝死,生前堅持每天散步5公里,醫生:3個習慣致命

      48歲男子因心梗猝死,生前堅持每天散步5公里,醫生:3個習慣致命

      卡西莫多的故事
      2025-12-08 10:20:04
      合法,卻無恥:特朗普毀掉布達佩斯備忘錄

      合法,卻無恥:特朗普毀掉布達佩斯備忘錄

      書生論劍
      2025-12-08 00:12:33
      國家稅務總局山東省稅務局原副局長薛建英被查

      國家稅務總局山東省稅務局原副局長薛建英被查

      新京報
      2025-12-08 10:02:21
      《家里家外2》:細水長流的短劇,最撫慰人心

      《家里家外2》:細水長流的短劇,最撫慰人心

      新聲Pro
      2025-12-08 13:54:15
      最瘆人文物:裝人頭的青銅蒸鍋!這個15歲少女經歷了什么?

      最瘆人文物:裝人頭的青銅蒸鍋!這個15歲少女經歷了什么?

      收藏大視界
      2025-12-06 20:35:41
      用命在跑??!深圳馬拉松接連倒下兩名男選手,現場的急救人員慌了

      用命在跑啊!深圳馬拉松接連倒下兩名男選手,現場的急救人員慌了

      火山詩話
      2025-12-08 07:40:11
      父親為“方便兒子花錢”,委托公司將工資打孩子賬戶上,誤致兒子喪失應屆生身份無法考公,法官:可證偽勞動關系

      父親為“方便兒子花錢”,委托公司將工資打孩子賬戶上,誤致兒子喪失應屆生身份無法考公,法官:可證偽勞動關系

      大象新聞
      2025-12-08 00:18:38
      2025-12-08 15:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11865文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      教育
      親子
      健康
      游戲
      軍事航空

      教育要聞

      妹妹家公婆怎么稱呼

      親子要聞

      嬰兒被褥印不雅英文單詞,家長沒法不較真|新京報快評

      甲狀腺結節到這個程度,該穿刺了!

      《頌鐘長鳴》大型更新前瞻:商隊、運輸與城墻建造

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲综合无码一区二区三区不卡| 瑜伽裤国产一区二区三区| 亚洲成人高清无码| 国产免费久久精品44| 99久久婷婷国产综合精品青草五月 | 久久精品6| 超碰99热| 国产人妻人伦精品一区二区| 国自产拍偷拍精品啪啪模特| 午夜在线不卡| 男人亚洲天堂| 邳州市| 日韩欧美亚洲综合久久| 免费人成视频19674不收费| 欧美人与动牲交A免费观看| 狼友福利网| 强奸福利视频在线观看| 国产在线精品一区二区在线看| 91中文字幕在线一区| 3p视频在线观看| 99免费精品| 久久亚洲精品中文字幕| 别揉我奶头~嗯~啊~的视频| 国产精品18| aV无码av天天aV天天爽小说| 欧美综合天天夜夜久久| 欧美视频网站www色| 9久久精品| 蜜桃av一卡二卡三卡| 日本人妻巨大乳挤奶水| 国产美女69视频免费观看| 欧美丝袜另类| 国产成人精品免费视频大全| 18禁超污无遮挡无码免费游戏 | 亚洲成人资源| 成人无码中出| 97人人模人人爽人人喊电影| 日韩大片高清播放器| 中文字幕av久久波多野结| 欧美肥妇毛多水多bbxx| 亚洲国产精品久久青草无码|