網易首頁 > 網易號 > 正文申請入駐

月之暗面公開RL訓練加速方法：訓練速度暴漲97%，長尾延遲狂降93%

2025-11-27 16:04:16　來源: 量子位

北京舉報

分享至

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

u1s1，現在模型能力是Plus了，但Rollout階段的速度卻越來越慢……

于是月之暗面出手了：爆改RL訓練速度，讓LLM“越跑越快”！

最近月之暗面聯合清華大學提出了全新的加速引擎Seer，能夠在不改變核心訓練算法的前提下，大幅度提升LLM的強化學習訓練速度。

依托組內上下文設計，可實現同步RL的Rollout效率提升74%～97%，長尾延遲減少75%～93%。

好好好，幾乎是模型換代式的效率提升。

下面來康康詳細內容。

跑得更快、更省資源

強化學習目前已成為推動LLM發展的核心技術，但現有系統面臨著嚴重的性能瓶頸。

具體來說，就是在端到端迭代過程中，生成階段（rollout phase）會耗費大量的時間資源，然而該階段受固有工作負載不均衡的影響，存在明顯的長尾延遲問題，且資源利用率較低。

因此研究團隊針對性推出了高效同步RL框架Seer。

其核心架構包括三大模塊：

1、推理引擎池（Inference Engine Pool）

基于DRAM/SSD構建，包括多個推理實例與跨節點的全局KVCache池，不僅可以支持負載均衡，又能通過KVCache池復用中間數據，避免重復計算。

2、請求緩沖區（Request Buffer）

作為所有rollout請求的統一入口，負責維護請求的全量元數據（包括組ID、提示詞長度、原始最大生成長度、已生成長度等），并管理請求狀態（未調度/處理中/已完成片段），實現資源的精細化調度。

3、上下文管理器（Context Manager）

負責維護所有請求的上下文視圖，并基于上下文信號生成調度決策。

另外，Seer還引入了三項關鍵技術，包括用于動態負載均衡的分段生成、上下文感知調度以及自適應分組推測解碼，協同降低長尾延遲和提高資源利用效率。

技術一：分段生成（Divided Rollout）

針對內存波動與負載失衡，Seer提出“精細化分段+全局KVCache支撐” 的解決方案。

首先是將GRPO中隸屬同一提示詞的響應拆解為多個獨立請求，再將每個請求按照生成長度進一步拆分為多個片段。

然后重新回到請求緩沖區，更新已生成長度，等待后續調度直到生成原始最大長度。

同時為避免重新調度時的提示詞編碼重計算，Seer復用全局KVCache池，將每個片段的中間數據都存儲在共享池中。

這樣就能在片段遷移到新實例時，直接從共享池中讀取KVCache，而無需重新編碼提示詞，大幅降低遷移開銷。

技術二：上下文感知調度（Context-Aware Scheduling）

為了解決調度失衡、長請求延遲導致的長尾問題，Seer使用“先探路+后調度”的策略。

先為每個提示詞組指定第一個響應為投機請求（speculative request），優先獲取該組的長度特征，再基于特征調度剩余請求，避免長請求被保留到最后。

技術三：自適應分組推測解碼（Adaptive Grouped Speculative Decoding）

由于傳統推測解碼依賴靜態小模型生成草稿，無法適配RL中目標模型的迭代更新，Seer利用組內響應模式相似的特性，通過DGDS（分布式分組草稿服務器）聚合組內所有響應的token序列，構建動態模式參考庫。

然后基于參考庫生成草稿，就能削減額外模型開銷，并隨著組內響應的增加進一步提升草稿質量。

最終依靠三者的協同作用，既能保障同步RL的算法保真度，又可從內存、調度、推理三個維度全面優化rollout效率。

實驗驗證

為了驗證系統性能，研究團隊選取Moonlight、Qwen2-VL-72B、Kimi-K2三個模型，均采用GRPO算法訓練，并將veRL（同步RL系統，支持訓練與rollout協同部署）作為基線系統進行對比。

在端到端性能驗證上，實驗結果發現Seer在不同工作負載中均實現性能突破，其中吞吐量可提升74%~97%，顯著高于veRL，且穩定性更強。

而veRL的長尾延遲則相當嚴重，例如在Moonlight任務中，veRL最后10%請求需耗時3984秒（占總時長約50%），而Seer僅需364秒，長尾延遲可實現降低85%。

此外，Qwen2-VL-72B任務中可降低93%，Kimi-K2任務降低75%。

研究團隊還對Seer的核心創新點（上下文感知調度、分組推測解碼）進行了專項實驗。

先是在Qwen2-VL-72B任務的第5次迭代中，設置三組對比：

No-Context：僅分段生成，無長度預測。
Context-Aware：Seer的調度策略。
Oracle：提前知道所有請求的真實長度，執行理想LFS調度。

結果表明，在吞吐量上Context-Aware可達到Oracle的95%，遠高于No-Context；在長尾延遲上，Context-Aware也僅為No-Context的13%，接近Oracle。

說明基于組內長度上下文的調度，雖無法達到理想Oracle水平，但已能大幅緩解長尾問題，且無需提前知道真實長度，實用性較強。

然后同樣是在Qwen2-VL-72B任務中，設置四組對比推測解碼的有效性：

No-SD：無推測解碼。
No-Context：有推測解碼，但不聚合組內模式。
No-Adapt：有組模式，但固定推測參數。
Seer：完整分組推測解碼。

結果顯示，Seer在吞吐量上遠高于No-Context與No-Adapt，Seer的接受長度也隨rollout推進而動態提升，證明了只有組內模式上下文和自適應參數相互結合才能最大化推測解碼的效率。

One More Thing

另外，有消息稱，月之暗面即將完成新一輪融資，融資金額將高達數億美元。

本輪融資一旦完成，該公司估值將提升至40億美元。

目前月之暗面正在積極與IDG Capital等在內的投資機構進行融資洽談，其中潛在投資方還包括現有股東騰訊。

消息還稱，預期計劃將在今年年底前完成該輪融資，并在明年下半年啟動IPO進程。

參考鏈接：
[1]https://x.com/rohanpaul_ai/status/1992315143665881432?s=20
[2]https://arxiv.org/abs/2511.14617
[3]https://cn.wsj.com/articles/chinas-moonshot-ai-raising-fresh-funds-that-could-value-it-at-about-4-billion-0216a228

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.