網易首頁 > 網易號 > 正文申請入駐

騰訊AngelSlim升級，LLM、VLM及語音多模態一體投機采樣訓練框架

2026-01-16 14:09:08　來源: 機器之心Pro

河北舉報

分享至

隨著大模型步入規模化應用深水區，日益高昂的推理成本與延遲已成為掣肘產業落地的核心瓶頸。在 “降本增效” 的行業共識下，從量化、剪枝到模型蒸餾，各類壓縮技術競相涌現，但往往難以兼顧性能損耗與通用性。

在此背景下，投機采樣作為一種 “另辟蹊徑” 的推理加速范式，正憑借其近乎無損的加速效果成為業界新寵。騰訊混元近日升級的AngelSlim 訓練框架，首次將這一技術的潛力拓展至 LLM、VLM 及語音的全模態場景，實現了從 “可加速” 到 “善加速” 的關鍵躍遷。其核心在于獨創的Eagle3 訓練架構，通過讓小模型學會 “前瞻性” 地為大模型起草多步候選 token，再由大模型并行驗證，一舉將大模型解碼階段的算力冗余轉化為提速動能，實測最高可帶來1.9 倍的推理速度飆升。這不僅是一次技術升級，更是對下一代高效推理基礎設施的重要定義，為多模態 AI 應用的實時化、普惠化鋪平了道路。

一、AngelSlim + 投機采樣

投機采樣是一種通過小模型多步預測 + 大模型一步驗證的推理加速技術，其核心思想是：使用一個輕量級的草稿模型生成多個候選 token，由目標模型對候選結果進行并行驗證是否接受，以此來并行解碼加速，在有效利用大模型解碼階段的算力冗余，提升推理吞吐并降低單請求延遲。

AngelSlim 是一款集成了包括量化、投機采樣等壓縮算法，面向全模態的大模型壓縮算法工具包。此次對投機采樣訓練進行了重磅升級，支持了大語言、多模態理解、語音等不同模態大模型投機采樣草稿模型訓練能力。

AngelSlim 以 “Eagle3 訓練即部署” 為設計核心，提供從數據處理、模型封裝到投機采樣算法訓練的完整鏈路，幫助開發在不侵入現有模型結構的前提下，顯著降低推理時延與計算成本，各模態、各類大模型加速可達 1.4-1.9 倍。

Github 開源地址：https://github.com/Tencent/AngelSlim

二、核心亮點

1. 覆蓋從文生文、多模態理解到語音的全模態投機采樣訓練

AngelSlim 是一個從設計之初就支持全模態的投機采樣訓練框架，通過統一的訓練接口，不同模態之間共享核心算法與工程能力，避免重復造輪子。

2. 面向部署

AngelSlim 并不止步于 “能訓”，而是強調訓出來就能用。AngelSlim 訓練產出的模型可以無縫用于 vLLM/Sglang 等框架進行部署。

三、核心訓練組件解析

1. 數據處理模塊

數據處理模塊為投機采樣訓練多個模態提供穩定、可復用的數據基礎，主要包括：

a. 數據重采樣：針對分布外數據集重新采樣，生成分布內數據集用以訓練。

b. 數據預處理：

i. 統一不同模態的數據格式，將文本、圖像、音頻等輸入標準化處理成 token ids 和 loss mask。

ii. 草稿模型裁剪詞表的映射。

c. 隱藏特征提取：根據處理好的 token ids 獲取對應的隱藏特征。

2. 模型模塊

模型模塊是 AngelSlim 實現高度擴展性的關鍵。

a. 統一的 TargetModel 接口

i.AngelSlim 提供統一的 TargetModel 接口，包括模型加載與權重管理、前向計算、中間層 / 隱狀態特征提取等抽象方法；

b. 低成本擴展新的模型后端

ii. 對于新的模型架構或后端，用戶只需實現 TargetModel 中定義的抽象方法即可完成模型注冊并接入訓練流程，無需修改訓練器或核心算法代碼。這一設計極大降低了對新模型、新模態的適配成本。

3. 訓練器模塊

a. 訓練器針對 Eagle3 算法特點設計了兩種訓練模式：在線訓練和離線訓練。在線與離線訓練的區別在于是否預先生成并存好全量數據的 hidden states。在線訓練適合小尺寸模型或顯存足夠的場景，離線訓練適合大尺寸模型、低顯存高磁盤空間機器。

b. 訓練器實現封裝了 Eagle3 等投機采樣算法訓練的關鍵邏輯：

i. 訓練時測試（training-time-test）：訓練時模擬 Eagle3 模型多步生成過程，讓 Eagle3 模型看到并學習使用自己的預測。

c. 訓練器原生支持斷點續訓能力，完整保存并恢復：

i. 草稿模型參數

ii.Optimizer/ LR Scheduler 狀態以及訓練進度

四、實踐與部署

1. 快速開始

當安裝好 AngelSlim 后，進入 AngelSlim 根目錄按照如下命令可以快速開始 Eagle3 的訓練：

# 啟動vLLM 服務

bash scripts/speculative/run_vllm_server.sh

# 生成訓練數據

bash scripts/speculative/generate_data_for_target_model.sh

# 開始在線訓練

bash scripts/speculative/train_eagle3_online.sh

其中前兩條命令是準備數據，對訓練數據進行重采樣，生成目標模型分布內的數據。這一步是可選項，如果訓練數據已經是來自目標模型的 SFT 數據或自身生成的數據，這一步可跳過。對 Eagle3 模型進行訓練直接執行最后一條命令即可，更多進階的使用指南可以參見我們的文檔。

我們提供了全面的多模態模型 Eagle3 訓練與部署指南，支持 LLM / VLM / Audio (ASR & TTS) 模型。

詳見：https://angelslim.readthedocs.io/zh-cn/latest/features/speculative_decoding/eagle/eagle.html

2.AngelSlim 訓練模型的加速表現

我們使用 vLLM 在代碼、數學、指令跟隨、文本生成、多模態理解等任務上評測了 AngelSlim 所訓練的 Eagle3 模型，設置 num_speculative_tokens=2 or 4 下我們所訓的模型接收長度可達 1.8-3.5，最高加速可達 1.4-1.9 倍。

3. 代碼和模型鏈接

AngelSlim 代碼 Github 開源倉庫：https://github.com/Tencent/AngelSlim
Hugging-Face Eagle3 模型與權重：https://huggingface.co/collections/AngelSlim/eagle3

五、未來計劃

在未來規劃中，我們將從工具與算法兩個層面持續推進投機采樣能力演進：工具方面，計劃支持基于 vLLM 的離線 hidden states 生成，以進一步降低數據構建與訓練成本，并通過系統性的訓練加速優化提升整體訓練效率；算法創新方面，將探索多模態理解與語音輸入信息在 Eagle3 模型中的深度融合，統一建模文本、視覺與語音特征，拓展投機采樣在全模態場景下的適用性與加速潛力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.