![]()
隨著大模型步入規模化應用深水區,日益高昂的推理成本與延遲已成為掣肘產業落地的核心瓶頸。在 “降本增效” 的行業共識下,從量化、剪枝到模型蒸餾,各類壓縮技術競相涌現,但往往難以兼顧性能損耗與通用性。
在此背景下,投機采樣作為一種 “另辟蹊徑” 的推理加速范式,正憑借其近乎無損的加速效果成為業界新寵。騰訊混元近日升級的AngelSlim 訓練框架,首次將這一技術的潛力拓展至 LLM、VLM 及語音的全模態場景,實現了從 “可加速” 到 “善加速” 的關鍵躍遷。其核心在于獨創的Eagle3 訓練架構,通過讓小模型學會 “前瞻性” 地為大模型起草多步候選 token,再由大模型并行驗證,一舉將大模型解碼階段的算力冗余轉化為提速動能,實測最高可帶來1.9 倍的推理速度飆升。這不僅是一次技術升級,更是對下一代高效推理基礎設施的重要定義,為多模態 AI 應用的實時化、普惠化鋪平了道路。
一、AngelSlim + 投機采樣
投機采樣是一種通過小模型多步預測 + 大模型一步驗證的推理加速技術,其核心思想是:使用一個輕量級的草稿模型生成多個候選 token,由目標模型對候選結果進行并行驗證是否接受,以此來并行解碼加速,在有效利用大模型解碼階段的算力冗余,提升推理吞吐并降低單請求延遲。
AngelSlim 是一款集成了包括量化、投機采樣等壓縮算法,面向全模態的大模型壓縮算法工具包。此次對投機采樣訓練進行了重磅升級,支持了大語言、多模態理解、語音等不同模態大模型投機采樣草稿模型訓練能力。
AngelSlim 以 “Eagle3 訓練即部署” 為設計核心,提供從數據處理、模型封裝到投機采樣算法訓練的完整鏈路,幫助開發在不侵入現有模型結構的前提下,顯著降低推理時延與計算成本,各模態、各類大模型加速可達 1.4-1.9 倍。
![]()
Github 開源地址:https://github.com/Tencent/AngelSlim
二、核心亮點
1. 覆蓋從文生文、多模態理解到語音的全模態投機采樣訓練
AngelSlim 是一個從設計之初就支持全模態的投機采樣訓練框架,通過統一的訓練接口,不同模態之間共享核心算法與工程能力,避免重復造輪子。
2. 面向部署
AngelSlim 并不止步于 “能訓”,而是強調訓出來就能用。AngelSlim 訓練產出的模型可以無縫用于 vLLM/Sglang 等框架進行部署。
三、核心訓練組件解析
![]()
1. 數據處理模塊
![]()
數據處理模塊為投機采樣訓練多個模態提供穩定、可復用的數據基礎,主要包括:
a. 數據重采樣:針對分布外數據集重新采樣,生成分布內數據集用以訓練。
b. 數據預處理:
i. 統一不同模態的數據格式,將文本、圖像、音頻等輸入標準化處理成 token ids 和 loss mask。
ii. 草稿模型裁剪詞表的映射。
c. 隱藏特征提取:根據處理好的 token ids 獲取對應的隱藏特征。
![]()
2. 模型模塊
模型模塊是 AngelSlim 實現高度擴展性的關鍵。
a. 統一的 TargetModel 接口
i.AngelSlim 提供統一的 TargetModel 接口,包括模型加載與權重管理、前向計算、中間層 / 隱狀態特征提取等抽象方法;
b. 低成本擴展新的模型后端
ii. 對于新的模型架構或后端,用戶只需實現 TargetModel 中定義的抽象方法即可完成模型注冊并接入訓練流程,無需修改訓練器或核心算法代碼。這一設計極大降低了對新模型、新模態的適配成本。
![]()
3. 訓練器模塊
a. 訓練器針對 Eagle3 算法特點設計了兩種訓練模式:在線訓練和離線訓練。在線與離線訓練的區別在于是否預先生成并存好全量數據的 hidden states。在線訓練適合小尺寸模型或顯存足夠的場景,離線訓練適合大尺寸模型、低顯存高磁盤空間機器。
b. 訓練器實現封裝了 Eagle3 等投機采樣算法訓練的關鍵邏輯:
i. 訓練時測試(training-time-test):訓練時模擬 Eagle3 模型多步生成過程,讓 Eagle3 模型看到并學習使用自己的預測。
c. 訓練器原生支持斷點續訓能力,完整保存并恢復:
i. 草稿模型參數
ii.Optimizer/ LR Scheduler 狀態以及訓練進度
四、實踐與部署
1. 快速開始
當安裝好 AngelSlim 后,進入 AngelSlim 根目錄按照如下命令可以快速開始 Eagle3 的訓練:
# 啟動vLLM 服務
bash scripts/speculative/run_vllm_server.sh
# 生成訓練數據
bash scripts/speculative/generate_data_for_target_model.sh
# 開始在線訓練
bash scripts/speculative/train_eagle3_online.sh
其中前兩條命令是準備數據,對訓練數據進行重采樣,生成目標模型分布內的數據。這一步是可選項,如果訓練數據已經是來自目標模型的 SFT 數據或自身生成的數據,這一步可跳過。對 Eagle3 模型進行訓練直接執行最后一條命令即可,更多進階的使用指南可以參見我們的文檔。
我們提供了全面的多模態模型 Eagle3 訓練與部署指南,支持 LLM / VLM / Audio (ASR & TTS) 模型。
詳見:https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/eagle.html
2.AngelSlim 訓練模型的加速表現
我們使用 vLLM 在代碼、數學、指令跟隨、文本生成、多模態理解等任務上評測了 AngelSlim 所訓練的 Eagle3 模型,設置 num_speculative_tokens=2 or 4 下我們所訓的模型接收長度可達 1.8-3.5,最高加速可達 1.4-1.9 倍。
![]()
3. 代碼和模型鏈接
- AngelSlim 代碼 Github 開源倉庫:https://github.com/Tencent/AngelSlim
- Hugging-Face Eagle3 模型與權重:https://huggingface.co/collections/AngelSlim/eagle3
五、未來計劃
在未來規劃中,我們將從工具與算法兩個層面持續推進投機采樣能力演進:工具方面,計劃支持基于 vLLM 的離線 hidden states 生成,以進一步降低數據構建與訓練成本,并通過系統性的訓練加速優化提升整體訓練效率;算法創新方面,將探索多模態理解與語音輸入信息在 Eagle3 模型中的深度融合,統一建模文本、視覺與語音特征,拓展投機采樣在全模態場景下的適用性與加速潛力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.