<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      月之暗面公開RL訓練加速方法:訓練速度暴漲97%,長尾延遲狂降93%

      0
      分享至

      鷺羽 發自 凹非寺
      量子位 | 公眾號 QbitAI

      u1s1,現在模型能力是Plus了,但Rollout階段的速度卻越來越慢……

      于是月之暗面出手了:爆改RL訓練速度,讓LLM“越跑越快”!



      最近月之暗面聯合清華大學提出了全新的加速引擎Seer,能夠在不改變核心訓練算法的前提下,大幅度提升LLM的強化學習訓練速度。



      依托組內上下文設計,可實現同步RL的Rollout效率提升74%~97%,長尾延遲減少75%~93%

      好好好,幾乎是模型換代式的效率提升。



      下面來康康詳細內容。

      跑得更快、更省資源

      強化學習目前已成為推動LLM發展的核心技術,但現有系統面臨著嚴重的性能瓶頸。

      具體來說,就是在端到端迭代過程中,生成階段(rollout phase)會耗費大量的時間資源,然而該階段受固有工作負載不均衡的影響,存在明顯的長尾延遲問題,且資源利用率較低。



      因此研究團隊針對性推出了高效同步RL框架Seer

      其核心架構包括三大模塊:

      1、推理引擎池(Inference Engine Pool)

      基于DRAM/SSD構建,包括多個推理實例與跨節點的全局KVCache池,不僅可以支持負載均衡,又能通過KVCache池復用中間數據,避免重復計算。

      2、請求緩沖區(Request Buffer)

      作為所有rollout請求的統一入口,負責維護請求的全量元數據(包括組ID、提示詞長度、原始最大生成長度、已生成長度等),并管理請求狀態(未調度/處理中/已完成片段),實現資源的精細化調度。

      3、上下文管理器(Context Manager)

      負責維護所有請求的上下文視圖,并基于上下文信號生成調度決策。

      另外,Seer還引入了三項關鍵技術,包括用于動態負載均衡的分段生成、上下文感知調度以及自適應分組推測解碼,協同降低長尾延遲和提高資源利用效率。

      技術一:分段生成(Divided Rollout)

      針對內存波動與負載失衡,Seer提出“精細化分段+全局KVCache支撐” 的解決方案。

      首先是將GRPO中隸屬同一提示詞的響應拆解為多個獨立請求,再將每個請求按照生成長度進一步拆分為多個片段。

      然后重新回到請求緩沖區,更新已生成長度,等待后續調度直到生成原始最大長度。

      同時為避免重新調度時的提示詞編碼重計算,Seer復用全局KVCache池,將每個片段的中間數據都存儲在共享池中。

      這樣就能在片段遷移到新實例時,直接從共享池中讀取KVCache,而無需重新編碼提示詞,大幅降低遷移開銷。

      技術二:上下文感知調度(Context-Aware Scheduling)

      為了解決調度失衡、長請求延遲導致的長尾問題,Seer使用“先探路+后調度”的策略。

      先為每個提示詞組指定第一個響應為投機請求(speculative request),優先獲取該組的長度特征,再基于特征調度剩余請求,避免長請求被保留到最后。

      技術三:自適應分組推測解碼(Adaptive Grouped Speculative Decoding)

      由于傳統推測解碼依賴靜態小模型生成草稿,無法適配RL中目標模型的迭代更新,Seer利用組內響應模式相似的特性,通過DGDS(分布式分組草稿服務器)聚合組內所有響應的token序列,構建動態模式參考庫。



      然后基于參考庫生成草稿,就能削減額外模型開銷,并隨著組內響應的增加進一步提升草稿質量。

      最終依靠三者的協同作用,既能保障同步RL的算法保真度,又可從內存、調度、推理三個維度全面優化rollout效率。

      實驗驗證

      為了驗證系統性能,研究團隊選取MoonlightQwen2-VL-72BKimi-K2三個模型,均采用GRPO算法訓練,并將veRL(同步RL系統,支持訓練與rollout協同部署)作為基線系統進行對比。



      在端到端性能驗證上,實驗結果發現Seer在不同工作負載中均實現性能突破,其中吞吐量可提升74%~97%,顯著高于veRL,且穩定性更強。

      而veRL的長尾延遲則相當嚴重,例如在Moonlight任務中,veRL最后10%請求需耗時3984秒(占總時長約50%),而Seer僅需364秒,長尾延遲可實現降低85%。



      此外,Qwen2-VL-72B任務中可降低93%,Kimi-K2任務降低75%。

      研究團隊還對Seer的核心創新點(上下文感知調度、分組推測解碼)進行了專項實驗。

      先是在Qwen2-VL-72B任務的第5次迭代中,設置三組對比:

      • No-Context:僅分段生成,無長度預測。
      • Context-Aware:Seer的調度策略。
      • Oracle:提前知道所有請求的真實長度,執行理想LFS調度。



      結果表明,在吞吐量上Context-Aware可達到Oracle的95%,遠高于No-Context;在長尾延遲上,Context-Aware也僅為No-Context的13%,接近Oracle。

      說明基于組內長度上下文的調度,雖無法達到理想Oracle水平,但已能大幅緩解長尾問題,且無需提前知道真實長度,實用性較強。

      然后同樣是在Qwen2-VL-72B任務中,設置四組對比推測解碼的有效性:

      • No-SD:無推測解碼。
      • No-Context:有推測解碼,但不聚合組內模式。
      • No-Adapt:有組模式,但固定推測參數。
      • Seer:完整分組推測解碼。



      結果顯示,Seer在吞吐量上遠高于No-Context與No-Adapt,Seer的接受長度也隨rollout推進而動態提升,證明了只有組內模式上下文自適應參數相互結合才能最大化推測解碼的效率。

      One More Thing

      另外,有消息稱,月之暗面即將完成新一輪融資,融資金額將高達數億美元。

      本輪融資一旦完成,該公司估值將提升至40億美元



      目前月之暗面正在積極與IDG Capital等在內的投資機構進行融資洽談,其中潛在投資方還包括現有股東騰訊

      消息還稱,預期計劃將在今年年底前完成該輪融資,并在明年下半年啟動IPO進程

      參考鏈接:
      [1]https://x.com/rohanpaul_ai/status/1992315143665881432?s=20
      [2]https://arxiv.org/abs/2511.14617
      [3]https://cn.wsj.com/articles/chinas-moonshot-ai-raising-fresh-funds-that-could-value-it-at-about-4-billion-0216a228

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      48年濟南頭號漢奸被捕,他只說了一句詩,軍管會主任大驚:是同志

      48年濟南頭號漢奸被捕,他只說了一句詩,軍管會主任大驚:是同志

      白云故事
      2025-11-20 12:10:08
      最新談判結果!普京開出停戰條件,特朗普表態,澤連斯基開始急了

      最新談判結果!普京開出停戰條件,特朗普表態,澤連斯基開始急了

      阿訊說天下
      2025-12-08 16:27:55
      2017年,中國化工490億美金買下先正達,如今8年過去,賺了多少?

      2017年,中國化工490億美金買下先正達,如今8年過去,賺了多少?

      尋途
      2025-11-24 19:07:01
      大興機場被北漂睡成“洗浴中心”,揭開當下社會最體面的一幕

      大興機場被北漂睡成“洗浴中心”,揭開當下社會最體面的一幕

      王曉愛體彩
      2025-12-03 10:54:15
      某大廠P7員工:很生氣,部門新入職的女同事頂替我成+1的嫡系

      某大廠P7員工:很生氣,部門新入職的女同事頂替我成+1的嫡系

      螞蟻大喇叭
      2025-12-08 16:36:34
      魯能又要為國足獻上一份歸化大禮?入籍時間敲定,以官宣為準

      魯能又要為國足獻上一份歸化大禮?入籍時間敲定,以官宣為準

      籃球看比賽
      2025-12-08 11:48:01
      小貝:我希望梅西退役后住在邁阿密,但他說只想住諾坎普附近

      小貝:我希望梅西退役后住在邁阿密,但他說只想住諾坎普附近

      懂球帝
      2025-12-07 17:01:05
      上海交大解剖280名肺癌死者,驚訝發現患肺癌的人,有6大特點

      上海交大解剖280名肺癌死者,驚訝發現患肺癌的人,有6大特點

      小彭的燦爛筆記1
      2025-12-08 13:21:08
      99倍票瞄準8.3億獎池,10倍追加票鎖定雙偶后區,140期大樂透曬票

      99倍票瞄準8.3億獎池,10倍追加票鎖定雙偶后區,140期大樂透曬票

      阿海閑聊
      2025-12-08 09:18:48
      12月橫財降臨,鴻運連連紅到發紫,好運直接拉滿!

      12月橫財降臨,鴻運連連紅到發紫,好運直接拉滿!

      人閒情事
      2025-12-08 15:31:18
      唏噓!國足兩大希望星不敢留洋已成廢柴 邵佳一需重新發掘人才

      唏噓!國足兩大希望星不敢留洋已成廢柴 邵佳一需重新發掘人才

      零度眼看球
      2025-12-08 08:37:09
      就在今天!12月7日晚上,男籃傳來張鎮麟、王哲林、郭士強新消息

      就在今天!12月7日晚上,男籃傳來張鎮麟、王哲林、郭士強新消息

      林子說事
      2025-12-08 12:17:01
      國家稅務總局:嚴禁平臺企業向從事配送運輸等人員轉嫁涉稅義務

      國家稅務總局:嚴禁平臺企業向從事配送運輸等人員轉嫁涉稅義務

      新京報
      2025-12-08 10:55:03
      溫馨提示!碧海金沙、漁人碼頭景區將暫停開放進行維護

      溫馨提示!碧海金沙、漁人碼頭景區將暫停開放進行維護

      上海奉賢
      2025-12-08 16:18:52
      可控核聚變,最正宗的4家公司

      可控核聚變,最正宗的4家公司

      Thurman在昆明
      2025-12-08 12:41:46
      馬克龍夫婦吃北京烤鴨!鞏俐低調陪同有地位,穿一身黑衣氣場超強

      馬克龍夫婦吃北京烤鴨!鞏俐低調陪同有地位,穿一身黑衣氣場超強

      阿纂看事
      2025-12-06 17:34:01
      遼寧搶簽?王俊杰下家3選1,簽字費曝光,22歲簽年薪只有50萬

      遼寧搶簽?王俊杰下家3選1,簽字費曝光,22歲簽年薪只有50萬

      樂聊球
      2025-12-08 11:29:49
      適合普通人作為日常穿搭的時尚好看又有女人味的網紅打扮

      適合普通人作為日常穿搭的時尚好看又有女人味的網紅打扮

      美女穿搭分享
      2025-12-07 10:32:13
      烈士江姐兒子定居美國,記者問他為何不回國?他的回答很現實

      烈士江姐兒子定居美國,記者問他為何不回國?他的回答很現實

      忠于法紀
      2025-11-23 22:56:45
      16人!湖北省委組織部發布干部任前公示,恩施州1人

      16人!湖北省委組織部發布干部任前公示,恩施州1人

      硒都身邊事兒
      2025-12-08 15:37:50
      2025-12-08 17:23:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11824文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      頭條要聞

      40歲北京本地獨生女想結婚被網暴:樂于生育和相夫教子

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      旅游
      藝術
      手機
      數碼
      軍事航空

      旅游要聞

      山東榮成:雪后初霽現“海浩”景觀

      藝術要聞

      一棵樹的力量

      手機要聞

      匯頂科技為三星首款三折疊屏手機觸控方案供應商

      數碼要聞

      惠普、戴爾等回應漲價:由于配件漲價 電腦肯定也漲價

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲无线观看国产精品| 亚洲自拍另类| 成人无码h真人在线网站| 狠狠88综合久久久久综合网| 野花社区视频www官网| 麻豆国产97在线 | 欧洲| 日本精品极品视频在线| 欧美老妇牲交videos| 天天干干强奸| 亚洲黄色片| 日本高清在线播放一区二区三区 | 无码中文字幕av免费放| 国产成人啪精品午夜网站| 777米奇影视第四色| 中文字幕亚洲亚洲精品| 第一福利导航视频| 亚洲综合图| 成全影视大全在线观看| 亚洲激情一区二区三区在线| 欧美变态口味重另类在线视频| 饶平县| 亚洲欧美综合一区二区三区| 毛片无遮挡高清免费| 国产欧美日韩免费看AⅤ视频| 亚洲自拍另类| 极品少妇xxxx| 色屁屁www影院免费观看入口| xxxx国产| 九龙县| 免费三级网站| 国产18禁黄网站禁片免费视频| 日本韩国一级| 亚洲日本va午夜在线电影| 妇女bbbbb撒尿正面视频| 精品国产女同疯狂摩擦2| 欧美啊v| 精品国产一区二区三区四区| 超碰免费公开| 成av人电影在线观看| 91最新在线| 嫖妓丰满肥熟妇在线精品|