<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM 重要更新

      0
      分享至

      vLLM 作為目前最受歡迎的開源 LLM 推理和服務框架,近期發布了一系列重大更新。本文將詳細解讀 vLLM 團隊在2025年12月密集發布的六項核心技術進展,涵蓋路由負載均衡、推測解碼、幻覺檢測、多模態服務、語義路由及大規模部署等關鍵領域。
      目錄
      1. vLLM Router:高性能智能負載均衡器

      2. Speculators v0.3.0:推測解碼訓練支持

      3. HaluGate:實時幻覺檢測管道

      4. 編碼器解耦(EPD):多模態模型服務優化

      5. AMD × vLLM 語義路由器:混合模型智能協作

      6. 大規模服務:DeepSeek @ 2.2k tok/s/H200

      1. vLLM Router:高性能智能負載均衡器

      發布日期:2025年12月13日

      在大規模生產環境中,高效管理請求分發至多個模型副本至關重要。傳統負載均衡器往往缺乏對 LLM 推理有狀態特性(如 KV 緩存)的感知,無法處理復雜的服務模式(如 Prefill/Decode 分離)。

      核心架構

      vLLM Router 是一款專為 vLLM 打造的高性能、輕量級負載均衡器,采用 Rust 構建以實現最小開銷。它作為智能、狀態感知的負載均衡器,位于客戶端和 vLLM 工作節點集群之間。


      vLLM Router 架構示意圖 智能負載均衡策略

      vLLM Router 提供多種負載均衡算法:

      策略

      特點

      一致性哈希

      確保相同路由鍵的請求"粘性"路由到同一工作節點,最大化 KV 緩存復用

      Power of Two

      低開銷隨機選擇策略,提供優秀的負載分配

      輪詢 & 隨機

      無狀態負載分配的標準策略


      原生 Prefill/Decode 分離支持

      Router 作為 vLLM 最先進服務架構的編排層:

      1. 智能將新請求路由到 Prefill 工作組

      2. 完成后,將請求狀態定向到適當的 Decode 工作節點 進行 token 生成

      3. 支持 NIXL 和 NCCL-based 分離后端

      性能基準測試 DeepSeek V3 基準測試

      Llama 3.1 8B(8 Prefill pods + 8 Decode pods):

      • vLLM Router 吞吐量比 llm-d 高 25%,比 K8s 原生負載均衡器高 100%

      • TTFT 比 llm-d 快 1200ms

      DeepSeek V3(TP8 配置):

      • 吞吐量比 K8s 原生負載均衡器 高 100%

      • TTFT 比 llm-d 和 K8s 原生 快 2000ms

      2. Speculators v0.3.0:推測解碼訓練支持

      發布日期:2025年12月13日
      貢獻團隊:Red Hat AI 模型優化團隊

      什么是推測解碼?

      推測解碼允許 LLM 在單次前向傳播中生成多個 token。它利用一個小型"草稿"模型與完整的"驗證"模型配合工作:


      Eagle3 架構

      工作原理:

      1. 草稿模型快速自回歸預測多個 token

      2. 驗證模型并行處理這些 token

      3. 驗證器決定是否接受每個 token

      4. 被拒絕的 token 及后續序列將被丟棄

      優勢:

      • 最終響應與僅使用驗證模型完全一致,無性能降級

      • 驗證模型可并行生成多個 token

      • 草稿模型開銷極小

      端到端訓練支持

      Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓練支持:


      數據生成流程

      訓練流程包括:

      • 使用 vLLM 的離線數據生成

      • 單層和多層草稿模型訓練

      • MoE 和非 MoE 驗證器支持

      隱狀態生成器 一鍵部署

      訓練完成后,只需簡單命令即可在 vLLM 中運行:

      vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

      支持的模型:

      • Llama (3.1, 3.2, 3.3): 8B 到 70B 參數

      • Qwen3: 8B, 14B, 32B 參數

      • Qwen3 MoE: 235B-A22B 參數

      • GPT-OSS: 20B, 120B 參數

      • 多模態:Llama 4 視覺-語言模型

      3. HaluGate:實時幻覺檢測管道

      發布日期:2025年12月14日

      問題背景

      幻覺已成為 LLM 生產部署的最大障礙。跨行業場景中(法律、醫療、金融、客服),模型會生成看似權威但經不起推敲的虛假內容。


      幻覺問題示例

      典型場景:

      • 工具返回正確數據: {"built": "1887-1889", "height": "330 meters"}

      • LLM 響應卻是:"埃菲爾鐵塔建于1950年,高500米"

      HaluGate 兩階段檢測管道 HaluGate 架構 階段一:HaluGate Sentinel(提示分類)

      不是每個查詢都需要幻覺檢測。HaluGate Sentinel 是基于 ModernBERT 的分類器,判斷提示是否需要事實驗證:


      Sentinel 工作流程


      • 需要驗證 :QA、真實性測試、幻覺基準、信息查詢對話

      • 無需驗證 :創意寫作、代碼、觀點/指令類

      準確率達 **96.4%**,推理延遲僅 ~12ms

      階段二:Token 級別檢測 + NLI 解釋
      Token級檢測

      與句子級分類器不同,token 級檢測能精確識別哪些 token 不受上下文支持:

      輸入: [CLS] context [SEP] question [SEP] answer [SEP]

      ModernBERT 編碼器

      Token 分類頭 (每個 token 二分類)

      標簽: 0 = 支持, 1 = 幻覺
      NLI 解釋層

      為什么采用集成方法? Token 級檢測單獨僅達 59% F1;兩階段方法將平庸的檢測器轉化為可操作系統:LettuceDetect 提供召回率,NLI 提供精度和可解釋性。

      性能表現
      延遲對比

      方法

      延遲

      成本

      LLM-as-Judge (GPT-4)

      500-3000ms

      $0.03/請求

      HaluGate

      50-125ms

      固定 GPU 成本


      4. 編碼器解耦(EPD):多模態模型服務優化

      發布日期:2025年12月15日
      貢獻團隊:vLLM 多模態工作流組

      問題動機

      現代大型多模態模型(LMM)引入了獨特的服務瓶頸:在任何文本生成開始之前,所有圖像必須由視覺編碼器(如 ViT)處理。


      EPD 架構圖

      傳統方案的問題:

      • 編碼器在 GPU 上運行時,Decode 階段必須等待

      • 圖像密集型請求會阻塞純文本請求

      • 編碼器利用率不均導致資源浪費

      解耦方案的三大優勢 工作流程圖 1. 流水線執行與消除干擾

      E → P D (請求 1)
      E → P D (請求 2)
      E → P D (請求 3)
      • 請求 N 的編碼可在請求 N-1 預填充/解碼時運行

      • 純文本請求完全繞過編碼器

      • 系統變為流水線并行,提升吞吐量

      2. 獨立細粒度擴展
      • 根據多模態圖像量擴展編碼器 GPU

      • 根據請求率和輸出長度擴展 Prefill/Decode GPU

      3. 編碼器輸出緩存與復用
      • 常用圖像(logo、圖表、產品圖)的嵌入只計算一次

      • 緩存命中的請求編碼成本為零,直接降低 TTFT

      性能測試結果

      測試環境:4×A100 80G,模型:Qwen3-VL-4B-Instruct


      短文本工作負載

      短文本工作負載(~400 tokens):

      • 單圖:goodput 小幅提升(23 → 24 QPS)

      • 四圖: goodput 翻倍 (6 → 12 QPS)

      • P99 TTFT/TPOT 通常 降低 20-50%

      長文本工作負載

      長文本工作負載(~2000 tokens):

      • EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput

      • 有效解碼吞吐增加 10-30%

      NPU 測試結果

      硬件可移植性: 在華為昇騰 NPU(4×Ascend 910B 32G)上也展現了相同的架構級收益。

      5. AMD × vLLM 語義路由器:混合模型智能協作

      發布日期:2025年12月16日
      貢獻團隊:AMD 與 vLLM 語義路由器團隊

      從單模型到混合模型的轉變
      混合模型架構

      在混合模型(Mixture-of-Models)世界中,企業 AI 棧通常包括:

      • 路由 SLM :分類、路由和策略執行

      • 多個 LLM 和領域專用模型(代碼、金融、醫療、法律)

      • 工具、RAG 管道、向量搜索和業務系統

      VSR 核心能力 VSR 核心功能 1. 基于信號的 Multi-LoRA 路由

      路由策略

      描述

      關鍵詞路由

      快速確定性的模式匹配

      領域分類

      意圖感知的適配器選擇

      嵌入語義相似度

      基于語義理解的細粒度路由

      事實檢查路由

      高風險查詢路由到專門驗證管道


      2. 跨實例智能

      • Response API :集中存儲實現有狀態多輪對話

      • 語義緩存 :通過跨實例向量匹配顯著減少 token 使用

      3. 企業級護欄 企業護欄
      • PII 檢測 :防止敏感信息泄露

      • 越獄防護 :阻止惡意提示注入

      • 幻覺檢測 :驗證關鍵領域的響應可靠性

      • 超級對齊 :確保 AI 系統在向 AGI 能力擴展時保持與人類價值觀對齊

      AMD GPU 部署路徑 部署路徑

      兩種部署方式:

      1. 基于 vLLM 的推理 :在 AMD GPU 上運行完整推理

      2. 輕量級 ONNX 路由 :僅路由邏輯,最小化資源占用

      6. 大規模服務:DeepSeek @ 2.2k tok/s/H200

      發布日期:2025年12月17日

      V1 引擎完成遷移

      在 v0.11.0 中,vLLM V0 引擎的最后代碼被移除,標志著向改進的 V1 引擎架構的完全遷移。這一成就離不開 vLLM 社區 1,969 位貢獻者的努力。

      性能突破
      Prefill 吞吐 Decode 吞吐

      社區基準測試(Coreweave H200 集群,Infiniband + ConnectX-7 NICs)顯示:

      • 生產級多節點部署達到 2.2k tokens/s 每 GPU

      • 相比早期 1.5k tokens/s 有顯著提升

      核心組件 Wide-EP(專家并行)



      https://blog.vllm.ai/ Wide-EP Token 路由

      DeepSeek-V3 部署的兩大考慮:

      • 稀疏專家激活 :DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數

      • KV 緩存管理 :張量并行對 MLA 注意力架構并非最優

      KV 緩存對比

      Wide-EP 結合 EP 與數據并行(DP),最大化 MLA 架構的 KV 緩存效率。

      雙批次重疊(DBO)
      DBO 優化前

      優化前: MoE 調度/組合部分的通信開銷占用大量時間


      DBO 優化后

      優化后: 微批次工作線程交替執行,重疊計算與通信,提升 GPU 利用率

      專家并行負載均衡(EPLB)


      MoE 專家層在訓練時針對平衡負載優化,但推理時實際工作負載可能導致不均衡。EPLB 動態調整邏輯到物理專家的映射。

      分離式服務(Disaggregated Serving)


      分離式服務

      由于專家分布在各 rank 上,單個計算密集型 prefill 請求可能延遲整個 EP 組的前向傳播。分離式服務放大了解耦的收益。

      部署方案

      方案

      特點


      llm-d

      Kubernetes 原生分布式推理服務棧


      Dynamo

      高吞吐低延遲生產部署,支持 KV 感知路由


      Ray Serve LLM

      模塊化部署,無縫集成 Ray 生態


      總結

      vLLM 在2025年12月的更新展現了其在大規模 LLM 推理領域的持續創新:

      1. vLLM Router 解決了生產環境中的智能負載均衡問題

      2. Speculators v0.3.0 讓推測解碼從研究走向生產

      3. HaluGate 提供了實時、低延遲的幻覺檢測能力

      4. EPD 通過編碼器解耦優化多模態模型服務

      5. AMD × VSR 構建了混合模型時代的智能控制面

      6. 大規模服務優化 實現了 2.2k tok/s/H200 的突破性性能

      這些技術進展共同推動 vLLM 成為企業級 AI 基礎設施的核心組件,為構建可擴展、可信賴、高性能的 AI 應用提供了堅實基礎。

      本文由 AI 輔助編寫,基于 vLLM 官方博客https://blog.vllm.ai/內容整理。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張雪:我以前挺喜歡雷軍,挖孔機蓋事件我會給消費者兩個選擇

      張雪:我以前挺喜歡雷軍,挖孔機蓋事件我會給消費者兩個選擇

      金融界
      2026-03-30 17:38:20
      日本8艘宙斯盾艦全改戰斧!射程覆蓋北京上海,威脅中國腹地!

      日本8艘宙斯盾艦全改戰斧!射程覆蓋北京上海,威脅中國腹地!

      詩酒趁的年華
      2026-04-01 05:01:12
      蘋果把M5 MacBook Pro降價15%上架

      蘋果把M5 MacBook Pro降價15%上架

      摸魚算法
      2026-04-02 09:47:10
      Steam大更新:商店大變!玩家好評如潮

      Steam大更新:商店大變!玩家好評如潮

      游民星空
      2026-04-02 11:45:19
      特朗普宣稱已掏空世界最強大國家,伊朗迅速發射大規模導彈

      特朗普宣稱已掏空世界最強大國家,伊朗迅速發射大規模導彈

      兵國大事
      2026-04-02 16:30:24
      有一種貧窮人格:習慣性否定

      有一種貧窮人格:習慣性否定

      洞見
      2026-03-26 09:14:24
      多名院士研究發現:吃一塊桃酥,就等于吃兩勺糖,真的假的?

      多名院士研究發現:吃一塊桃酥,就等于吃兩勺糖,真的假的?

      蜉蝣說
      2026-04-02 09:16:24
      鄭麗文帶核心六人來留下兩老將坐鎮,76歲張榮恭也要爬階拜謁

      鄭麗文帶核心六人來留下兩老將坐鎮,76歲張榮恭也要爬階拜謁

      小影的娛樂
      2026-04-02 12:09:42
      2026年世界杯歷史性時刻:8支阿拉伯球隊成功晉級!

      2026年世界杯歷史性時刻:8支阿拉伯球隊成功晉級!

      球天下資訊
      2026-04-01 23:53:53
      王傳君夫妻疑街頭爭吵!齊溪全程皺眉咄咄逼人,膀大腰圓像是保鏢

      王傳君夫妻疑街頭爭吵!齊溪全程皺眉咄咄逼人,膀大腰圓像是保鏢

      洲洲影視娛評
      2026-04-01 19:20:27
      央視直播乒乓球時間表:4月2日CCTV5節目單,國乒沖擊8強!

      央視直播乒乓球時間表:4月2日CCTV5節目單,國乒沖擊8強!

      皮皮觀天下
      2026-04-02 08:34:35
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      美以襲伊月余,阿拉伯國家損失超千億美元!阿聯酋或成首個對伊直接參戰海灣國

      美以襲伊月余,阿拉伯國家損失超千億美元!阿聯酋或成首個對伊直接參戰海灣國

      紅星新聞
      2026-04-01 13:04:24
      從高點暴跌20%!華爾街預言:金價將復制2008年,3年暴漲178%

      從高點暴跌20%!華爾街預言:金價將復制2008年,3年暴漲178%

      阿鳧愛吐槽
      2026-04-02 09:01:25
      西媒:特朗普“受挫名單”暴露美國實力上限

      西媒:特朗普“受挫名單”暴露美國實力上限

      參考消息
      2026-04-02 16:37:05
      男子陰莖癌晚期,夫妻生活一向干凈,妻子:他就是改不了這個習慣

      男子陰莖癌晚期,夫妻生活一向干凈,妻子:他就是改不了這個習慣

      路醫生健康科普
      2026-02-04 06:00:03
      盡管特朗普威脅退出北約,但想辦到還是有難度的

      盡管特朗普威脅退出北約,但想辦到還是有難度的

      山河路口
      2026-04-02 15:23:16
      速效救心丸立大功!醫生發現:老人吃速效救心丸,能緩解4種癥狀

      速效救心丸立大功!醫生發現:老人吃速效救心丸,能緩解4種癥狀

      路醫生健康科普
      2026-03-25 23:35:03
      老婆月薪19000卻不幫我弟還房貸,我一氣之下提離婚,她反應我愣了

      老婆月薪19000卻不幫我弟還房貸,我一氣之下提離婚,她反應我愣了

      匹夫來搞笑
      2026-04-02 14:31:01
      爆發!場均19+10+三分52.9%,6換2血賺,最強幫手,華子等到了

      爆發!場均19+10+三分52.9%,6換2血賺,最強幫手,華子等到了

      球童無忌
      2026-04-02 16:26:12
      2026-04-02 17:32:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      教育
      時尚
      藝術
      旅游
      健康

      教育要聞

      天府新區調整劃片后,利好不止這個片區

      女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

      藝術要聞

      故人西辭黃鶴樓,煙花三月下揚州

      旅游要聞

      河南中牟:地鐵直達赴春約 “微度假”成春日近郊游爆款

      干細胞抗衰4大誤區,90%的人都中招

      無障礙瀏覽 進入關懷版