網易首頁 > 網易號 > 正文申請入駐

vLLM 重要更新

2025-12-20 11:39:30　來源: 機器學習與Python社區

北京舉報

分享至

vLLM 作為目前最受歡迎的開源 LLM 推理和服務框架，近期發布了一系列重大更新。本文將詳細解讀 vLLM 團隊在2025年12月密集發布的六項核心技術進展，涵蓋路由負載均衡、推測解碼、幻覺檢測、多模態服務、語義路由及大規模部署等關鍵領域。

vLLM Router：高性能智能負載均衡器
Speculators v0.3.0：推測解碼訓練支持
HaluGate：實時幻覺檢測管道
編碼器解耦（EPD）：多模態模型服務優化
AMD × vLLM 語義路由器：混合模型智能協作
大規模服務：DeepSeek @ 2.2k tok/s/H200

1. vLLM Router：高性能智能負載均衡器

發布日期：2025年12月13日

在大規模生產環境中，高效管理請求分發至多個模型副本至關重要。傳統負載均衡器往往缺乏對 LLM 推理有狀態特性（如 KV 緩存）的感知，無法處理復雜的服務模式（如 Prefill/Decode 分離）。

核心架構

vLLM Router 是一款專為 vLLM 打造的高性能、輕量級負載均衡器，采用 Rust 構建以實現最小開銷。它作為智能、狀態感知的負載均衡器，位于客戶端和 vLLM 工作節點集群之間。

vLLM Router 架構示意圖智能負載均衡策略

vLLM Router 提供多種負載均衡算法：

策略

特點

一致性哈希

確保相同路由鍵的請求"粘性"路由到同一工作節點，最大化 KV 緩存復用

Power of Two

低開銷隨機選擇策略，提供優秀的負載分配

輪詢 & 隨機

無狀態負載分配的標準策略

原生 Prefill/Decode 分離支持

Router 作為 vLLM 最先進服務架構的編排層：

智能將新請求路由到 Prefill 工作組
完成后，將請求狀態定向到適當的 Decode 工作節點 進行 token 生成
支持 NIXL 和 NCCL-based 分離后端

性能基準測試

DeepSeek V3 基準測試

Llama 3.1 8B（8 Prefill pods + 8 Decode pods）：

vLLM Router 吞吐量比 llm-d 高 25%，比 K8s 原生負載均衡器高 100%
TTFT 比 llm-d 快 1200ms

DeepSeek V3（TP8 配置）：

吞吐量比 K8s 原生負載均衡器 高 100%
TTFT 比 llm-d 和 K8s 原生 快 2000ms

2. Speculators v0.3.0：推測解碼訓練支持

發布日期：2025年12月13日
貢獻團隊：Red Hat AI 模型優化團隊

什么是推測解碼？

推測解碼允許 LLM 在單次前向傳播中生成多個 token。它利用一個小型"草稿"模型與完整的"驗證"模型配合工作：

Eagle3 架構

工作原理：

草稿模型快速自回歸預測多個 token
驗證模型并行處理這些 token
驗證器決定是否接受每個 token
被拒絕的 token 及后續序列將被丟棄

優勢：

最終響應與僅使用驗證模型完全一致，無性能降級
驗證模型可并行生成多個 token
草稿模型開銷極小

端到端訓練支持

Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓練支持：

數據生成流程

訓練流程包括：

使用 vLLM 的離線數據生成
單層和多層草稿模型訓練
MoE 和非 MoE 驗證器支持

隱狀態生成器一鍵部署

訓練完成后，只需簡單命令即可在 vLLM 中運行：

vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

支持的模型：

Llama (3.1, 3.2, 3.3): 8B 到 70B 參數
Qwen3: 8B, 14B, 32B 參數
Qwen3 MoE: 235B-A22B 參數
GPT-OSS: 20B, 120B 參數
多模態：Llama 4 視覺-語言模型

3. HaluGate：實時幻覺檢測管道

發布日期：2025年12月14日

問題背景

幻覺已成為 LLM 生產部署的最大障礙。跨行業場景中（法律、醫療、金融、客服），模型會生成看似權威但經不起推敲的虛假內容。

幻覺問題示例

典型場景：

工具返回正確數據： {"built": "1887-1889", "height": "330 meters"}
LLM 響應卻是："埃菲爾鐵塔建于1950年，高500米"

HaluGate 兩階段檢測管道

HaluGate 架構階段一：HaluGate Sentinel（提示分類）

不是每個查詢都需要幻覺檢測。HaluGate Sentinel 是基于 ModernBERT 的分類器，判斷提示是否需要事實驗證：

Sentinel 工作流程

需要驗證 ：QA、真實性測試、幻覺基準、信息查詢對話
無需驗證 ：創意寫作、代碼、觀點/指令類

準確率達 **96.4%**，推理延遲僅 ~12ms。

階段二：Token 級別檢測 + NLI 解釋
Token級檢測

與句子級分類器不同，token 級檢測能精確識別哪些 token 不受上下文支持：

輸入: [CLS] context [SEP] question [SEP] answer [SEP]
      ↓
ModernBERT 編碼器
      ↓
Token 分類頭 (每個 token 二分類)
      ↓
標簽: 0 = 支持, 1 = 幻覺

NLI 解釋層

為什么采用集成方法？ Token 級檢測單獨僅達 59% F1；兩階段方法將平庸的檢測器轉化為可操作系統：LettuceDetect 提供召回率，NLI 提供精度和可解釋性。

性能表現
延遲對比

方法

延遲

成本

LLM-as-Judge (GPT-4)

500-3000ms

$0.03/請求

HaluGate

50-125ms

固定 GPU 成本

4. 編碼器解耦（EPD）：多模態模型服務優化

發布日期：2025年12月15日
貢獻團隊：vLLM 多模態工作流組

問題動機

現代大型多模態模型（LMM）引入了獨特的服務瓶頸：在任何文本生成開始之前，所有圖像必須由視覺編碼器（如 ViT）處理。

EPD 架構圖

傳統方案的問題：

編碼器在 GPU 上運行時，Decode 階段必須等待
圖像密集型請求會阻塞純文本請求
編碼器利用率不均導致資源浪費

解耦方案的三大優勢

工作流程圖 1. 流水線執行與消除干擾

E → P D (請求 1)
    E → P D (請求 2)
        E → P D (請求 3)

請求 N 的編碼可在請求 N-1 預填充/解碼時運行
純文本請求完全繞過編碼器
系統變為流水線并行，提升吞吐量

2. 獨立細粒度擴展

根據多模態圖像量擴展編碼器 GPU
根據請求率和輸出長度擴展 Prefill/Decode GPU

3. 編碼器輸出緩存與復用

常用圖像（logo、圖表、產品圖）的嵌入只計算一次
緩存命中的請求編碼成本為零，直接降低 TTFT

性能測試結果

測試環境：4×A100 80G，模型：Qwen3-VL-4B-Instruct

短文本工作負載

短文本工作負載（~400 tokens）：

單圖：goodput 小幅提升（23 → 24 QPS）
四圖： goodput 翻倍 （6 → 12 QPS）
P99 TTFT/TPOT 通常 降低 20-50%

長文本工作負載

長文本工作負載（~2000 tokens）：

EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput
有效解碼吞吐增加 10-30%

NPU 測試結果

硬件可移植性： 在華為昇騰 NPU（4×Ascend 910B 32G）上也展現了相同的架構級收益。

5. AMD × vLLM 語義路由器：混合模型智能協作

發布日期：2025年12月16日
貢獻團隊：AMD 與 vLLM 語義路由器團隊

從單模型到混合模型的轉變
混合模型架構

在混合模型（Mixture-of-Models）世界中，企業 AI 棧通常包括：

路由 SLM ：分類、路由和策略執行
多個 LLM 和領域專用模型（代碼、金融、醫療、法律）
工具、RAG 管道、向量搜索和業務系統

VSR 核心能力

VSR 核心功能 1. 基于信號的 Multi-LoRA 路由

路由策略

描述

關鍵詞路由

快速確定性的模式匹配

領域分類

意圖感知的適配器選擇

嵌入語義相似度

基于語義理解的細粒度路由

事實檢查路由

高風險查詢路由到專門驗證管道

2. 跨實例智能

Response API ：集中存儲實現有狀態多輪對話
語義緩存 ：通過跨實例向量匹配顯著減少 token 使用

3. 企業級護欄

企業護欄

PII 檢測 ：防止敏感信息泄露
越獄防護 ：阻止惡意提示注入
幻覺檢測 ：驗證關鍵領域的響應可靠性
超級對齊 ：確保 AI 系統在向 AGI 能力擴展時保持與人類價值觀對齊

AMD GPU 部署路徑

部署路徑

兩種部署方式：

基于 vLLM 的推理 ：在 AMD GPU 上運行完整推理
輕量級 ONNX 路由 ：僅路由邏輯，最小化資源占用

6. 大規模服務：DeepSeek @ 2.2k tok/s/H200

發布日期：2025年12月17日

V1 引擎完成遷移

在 v0.11.0 中，vLLM V0 引擎的最后代碼被移除，標志著向改進的 V1 引擎架構的完全遷移。這一成就離不開 vLLM 社區 1,969 位貢獻者的努力。

性能突破
Prefill 吞吐 Decode 吞吐

社區基準測試（Coreweave H200 集群，Infiniband + ConnectX-7 NICs）顯示：

生產級多節點部署達到 2.2k tokens/s 每 GPU
相比早期 1.5k tokens/s 有顯著提升

核心組件 Wide-EP（專家并行）

https://blog.vllm.ai/ Wide-EP Token 路由

DeepSeek-V3 部署的兩大考慮：

稀疏專家激活 ：DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數
KV 緩存管理 ：張量并行對 MLA 注意力架構并非最優

KV 緩存對比

Wide-EP 結合 EP 與數據并行（DP），最大化 MLA 架構的 KV 緩存效率。

雙批次重疊（DBO）
DBO 優化前

優化前： MoE 調度/組合部分的通信開銷占用大量時間

DBO 優化后

優化后： 微批次工作線程交替執行，重疊計算與通信，提升 GPU 利用率

專家并行負載均衡（EPLB）

MoE 專家層在訓練時針對平衡負載優化，但推理時實際工作負載可能導致不均衡。EPLB 動態調整邏輯到物理專家的映射。

分離式服務（Disaggregated Serving）

分離式服務

由于專家分布在各 rank 上，單個計算密集型 prefill 請求可能延遲整個 EP 組的前向傳播。分離式服務放大了解耦的收益。

部署方案

方案

特點

llm-d

Kubernetes 原生分布式推理服務棧

Dynamo

高吞吐低延遲生產部署，支持 KV 感知路由

Ray Serve LLM

模塊化部署，無縫集成 Ray 生態

總結

vLLM 在2025年12月的更新展現了其在大規模 LLM 推理領域的持續創新：

vLLM Router 解決了生產環境中的智能負載均衡問題
Speculators v0.3.0 讓推測解碼從研究走向生產
HaluGate 提供了實時、低延遲的幻覺檢測能力
EPD 通過編碼器解耦優化多模態模型服務
AMD × VSR 構建了混合模型時代的智能控制面
大規模服務優化 實現了 2.2k tok/s/H200 的突破性性能

這些技術進展共同推動 vLLM 成為企業級 AI 基礎設施的核心組件，為構建可擴展、可信賴、高性能的 AI 應用提供了堅實基礎。

本文由 AI 輔助編寫，基于 vLLM 官方博客https://blog.vllm.ai/內容整理。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

中國批準稀土出口，日媒歡呼：對華反制措施見效，下一秒遭打臉

書紀文譚

2026-02-10 18:32:15

上海洗浴中心成新頂流，俄羅斯美女博主被圈粉，還有海外游客專門飛來打卡

界面新聞

2026-02-11 18:31:08

四川成都一佳人好漂亮，身高169cm，體重48kg 美的讓人移不開眼

喜歡歷史的阿繁

2026-02-07 14:21:17

退伍回村救了個落水女人，2天后縣長突然來電：明天來我辦公室

秋風專欄

2025-08-13 15:54:55

頭部朝下落地！中國33歲冬奧老將出意外:被抬出雪場目前意識清醒

風過鄉

2026-02-11 20:52:27

女子8年拒絕8次男友求婚，男友無奈另娶她人，女友：憑什么？

小蔣愛嘮嗑

2026-02-11 05:33:41

特朗普下達最后通牒，要求臺當局立即付款，否則將取消對臺軍售

東極妙嚴

2026-02-11 12:54:31

亞馬爾連續5場破門+西甲24球，打破梅西和姆巴佩兩項紀錄

晚霧空青

2026-02-11 08:41:59

從一晚三千到無人接盤，五星級酒店集體被甩賣，這場泡沫該誰買單

青眼財經

2026-01-19 23:37:28

萬斯：伊朗人民想推翻政權，那得靠他們自己

桂系007

2026-02-11 23:38:09

笑麻了！以為兩人相伴了一輩子，其實厭煩了幾十年！

墻頭草

2026-02-09 16:37:03

生圖能打！孟子義青島逛街被偶遇，路人驚呼：白到發光比精修還美

心靈得以滋養

2026-02-11 21:50:42

女演員千萬別整容！看《夜色正濃》里40歲江疏影和36歲藍盈瑩

章眽八卦

2026-02-11 12:40:57

回顧“91女神”琪琪：五官出眾，卻因天真讓自己“受傷”

就一點

2025-11-22 10:36:39

我去！塔圖姆被下放了！！

柚子說球

2026-02-11 17:20:08

利物浦遭重創！后場萬金油被擔架抬下面臨長期傷停

球事百科吖

2026-02-12 07:23:26

3人共禁賽13場！這大概是年度最兇沖突了！

柚子說球

2026-02-12 07:52:13

這跟不穿有什么區別？王楚然裙子太短露膚度極高，胡意旋身材曼妙

樂悠悠娛樂

2026-02-10 12:44:32

比賭博還狠的“隱形毒藥”，正慢慢掏空中國家庭，無數人被它拖垮

千秋文化

2026-02-10 20:55:47

梁朝偉過安檢可憐眼神向劉嘉玲求救前所未見老婆搞笑反應曝光

達達哥

2026-02-10 21:52:25

機器學習與Python社區

機器學習算法與Python

3247文章數 11085關注度

往期回顧全部

科技要聞

Meta將斥資超100億美元建設數據中心

頭條要聞

環球：高市"豪賭"大勝軍工業恐成日本經濟"搖錢樹"

頭條要聞

環球：高市"豪賭"大勝軍工業恐成日本經濟"搖錢樹"

體育要聞

搞垮一個冬奧選手，只需要一首歌?

娛樂要聞

大孤山風波愈演愈烈超50位明星扎堆

財經要聞

廣州前首富被判無期 200億集資窟窿何償

汽車要聞

比亞迪最美B級SUV? 宋Ultra這腰線美翻了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

本地

游戲

公開課

軍事航空

藝術要聞

這13個狂草字，您認出幾個？楷書練習多久就可以練行書了？

本地新聞

下一站是嘉禾望崗，請各位乘客做好哭泣準備

《英雄無敵5：重生》開發者將推出新地圖生成器

公開課

手機 / 數碼

房產 / 家居

vLLM 重要更新

Meta將斥資超100億美元建設數據中心

環球：高市"豪賭"大勝 軍工業恐成日本經濟"搖錢樹"

環球：高市"豪賭"大勝 軍工業恐成日本經濟"搖錢樹"

搞垮一個冬奧選手，只需要一首歌?

大孤山風波愈演愈烈 超50位明星扎堆

廣州前首富被判無期 200億集資窟窿何償

比亞迪最美B級SUV? 宋Ultra這腰線美翻了

態度原創

這13個狂草字，您認出幾個？楷書練習多久就可以練行書了？

下一站是嘉禾望崗，請各位乘客做好哭泣準備

《英雄無敵5：重生》開發者將推出新地圖生成器

特朗普：若美伊談判失敗 或再派一支航母打擊群

環球：高市"豪賭"大勝軍工業恐成日本經濟"搖錢樹"

環球：高市"豪賭"大勝軍工業恐成日本經濟"搖錢樹"

大孤山風波愈演愈烈超50位明星扎堆

特朗普：若美伊談判失敗或再派一支航母打擊群