<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM 重要更新

      0
      分享至

      vLLM 作為目前最受歡迎的開源 LLM 推理和服務框架,近期發布了一系列重大更新。本文將詳細解讀 vLLM 團隊在2025年12月密集發布的六項核心技術進展,涵蓋路由負載均衡、推測解碼、幻覺檢測、多模態服務、語義路由及大規模部署等關鍵領域。
      目錄
      1. vLLM Router:高性能智能負載均衡器

      2. Speculators v0.3.0:推測解碼訓練支持

      3. HaluGate:實時幻覺檢測管道

      4. 編碼器解耦(EPD):多模態模型服務優化

      5. AMD × vLLM 語義路由器:混合模型智能協作

      6. 大規模服務:DeepSeek @ 2.2k tok/s/H200

      1. vLLM Router:高性能智能負載均衡器

      發布日期:2025年12月13日

      在大規模生產環境中,高效管理請求分發至多個模型副本至關重要。傳統負載均衡器往往缺乏對 LLM 推理有狀態特性(如 KV 緩存)的感知,無法處理復雜的服務模式(如 Prefill/Decode 分離)。

      核心架構

      vLLM Router 是一款專為 vLLM 打造的高性能、輕量級負載均衡器,采用 Rust 構建以實現最小開銷。它作為智能、狀態感知的負載均衡器,位于客戶端和 vLLM 工作節點集群之間。


      vLLM Router 架構示意圖 智能負載均衡策略

      vLLM Router 提供多種負載均衡算法:

      策略

      特點

      一致性哈希

      確保相同路由鍵的請求"粘性"路由到同一工作節點,最大化 KV 緩存復用

      Power of Two

      低開銷隨機選擇策略,提供優秀的負載分配

      輪詢 & 隨機

      無狀態負載分配的標準策略


      原生 Prefill/Decode 分離支持

      Router 作為 vLLM 最先進服務架構的編排層:

      1. 智能將新請求路由到 Prefill 工作組

      2. 完成后,將請求狀態定向到適當的 Decode 工作節點 進行 token 生成

      3. 支持 NIXL 和 NCCL-based 分離后端

      性能基準測試 DeepSeek V3 基準測試

      Llama 3.1 8B(8 Prefill pods + 8 Decode pods):

      • vLLM Router 吞吐量比 llm-d 高 25%,比 K8s 原生負載均衡器高 100%

      • TTFT 比 llm-d 快 1200ms

      DeepSeek V3(TP8 配置):

      • 吞吐量比 K8s 原生負載均衡器 高 100%

      • TTFT 比 llm-d 和 K8s 原生 快 2000ms

      2. Speculators v0.3.0:推測解碼訓練支持

      發布日期:2025年12月13日
      貢獻團隊:Red Hat AI 模型優化團隊

      什么是推測解碼?

      推測解碼允許 LLM 在單次前向傳播中生成多個 token。它利用一個小型"草稿"模型與完整的"驗證"模型配合工作:


      Eagle3 架構

      工作原理:

      1. 草稿模型快速自回歸預測多個 token

      2. 驗證模型并行處理這些 token

      3. 驗證器決定是否接受每個 token

      4. 被拒絕的 token 及后續序列將被丟棄

      優勢:

      • 最終響應與僅使用驗證模型完全一致,無性能降級

      • 驗證模型可并行生成多個 token

      • 草稿模型開銷極小

      端到端訓練支持

      Speculators v0.3.0 提供 Eagle3 草稿模型的完整訓練支持:


      數據生成流程

      訓練流程包括:

      • 使用 vLLM 的離線數據生成

      • 單層和多層草稿模型訓練

      • MoE 和非 MoE 驗證器支持

      隱狀態生成器 一鍵部署

      訓練完成后,只需簡單命令即可在 vLLM 中運行:

      vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

      支持的模型:

      • Llama (3.1, 3.2, 3.3): 8B 到 70B 參數

      • Qwen3: 8B, 14B, 32B 參數

      • Qwen3 MoE: 235B-A22B 參數

      • GPT-OSS: 20B, 120B 參數

      • 多模態:Llama 4 視覺-語言模型

      3. HaluGate:實時幻覺檢測管道

      發布日期:2025年12月14日

      問題背景

      幻覺已成為 LLM 生產部署的最大障礙。跨行業場景中(法律、醫療、金融、客服),模型會生成看似權威但經不起推敲的虛假內容。


      幻覺問題示例

      典型場景:

      • 工具返回正確數據: {"built": "1887-1889", "height": "330 meters"}

      • LLM 響應卻是:"埃菲爾鐵塔建于1950年,高500米"

      HaluGate 兩階段檢測管道 HaluGate 架構 階段一:HaluGate Sentinel(提示分類)

      不是每個查詢都需要幻覺檢測。HaluGate Sentinel 是基于 ModernBERT 的分類器,判斷提示是否需要事實驗證:


      Sentinel 工作流程


      • 需要驗證 :QA、真實性測試、幻覺基準、信息查詢對話

      • 無需驗證 :創意寫作、代碼、觀點/指令類

      準確率達 **96.4%**,推理延遲僅 ~12ms

      階段二:Token 級別檢測 + NLI 解釋
      Token級檢測

      與句子級分類器不同,token 級檢測能精確識別哪些 token 不受上下文支持:

      輸入: [CLS] context [SEP] question [SEP] answer [SEP]

      ModernBERT 編碼器

      Token 分類頭 (每個 token 二分類)

      標簽: 0 = 支持, 1 = 幻覺
      NLI 解釋層

      為什么采用集成方法? Token 級檢測單獨僅達 59% F1;兩階段方法將平庸的檢測器轉化為可操作系統:LettuceDetect 提供召回率,NLI 提供精度和可解釋性。

      性能表現
      延遲對比

      方法

      延遲

      成本

      LLM-as-Judge (GPT-4)

      500-3000ms

      $0.03/請求

      HaluGate

      50-125ms

      固定 GPU 成本


      4. 編碼器解耦(EPD):多模態模型服務優化

      發布日期:2025年12月15日
      貢獻團隊:vLLM 多模態工作流組

      問題動機

      現代大型多模態模型(LMM)引入了獨特的服務瓶頸:在任何文本生成開始之前,所有圖像必須由視覺編碼器(如 ViT)處理。


      EPD 架構圖

      傳統方案的問題:

      • 編碼器在 GPU 上運行時,Decode 階段必須等待

      • 圖像密集型請求會阻塞純文本請求

      • 編碼器利用率不均導致資源浪費

      解耦方案的三大優勢 工作流程圖 1. 流水線執行與消除干擾

      E → P D (請求 1)
      E → P D (請求 2)
      E → P D (請求 3)
      • 請求 N 的編碼可在請求 N-1 預填充/解碼時運行

      • 純文本請求完全繞過編碼器

      • 系統變為流水線并行,提升吞吐量

      2. 獨立細粒度擴展
      • 根據多模態圖像量擴展編碼器 GPU

      • 根據請求率和輸出長度擴展 Prefill/Decode GPU

      3. 編碼器輸出緩存與復用
      • 常用圖像(logo、圖表、產品圖)的嵌入只計算一次

      • 緩存命中的請求編碼成本為零,直接降低 TTFT

      性能測試結果

      測試環境:4×A100 80G,模型:Qwen3-VL-4B-Instruct


      短文本工作負載

      短文本工作負載(~400 tokens):

      • 單圖:goodput 小幅提升(23 → 24 QPS)

      • 四圖: goodput 翻倍 (6 → 12 QPS)

      • P99 TTFT/TPOT 通常 降低 20-50%

      長文本工作負載

      長文本工作負載(~2000 tokens):

      • EPD 保持 18/11/9/8 QPS vs 基線 8/4/4/4 QPS — 2-2.5倍 goodput

      • 有效解碼吞吐增加 10-30%

      NPU 測試結果

      硬件可移植性: 在華為昇騰 NPU(4×Ascend 910B 32G)上也展現了相同的架構級收益。

      5. AMD × vLLM 語義路由器:混合模型智能協作

      發布日期:2025年12月16日
      貢獻團隊:AMD 與 vLLM 語義路由器團隊

      從單模型到混合模型的轉變
      混合模型架構

      在混合模型(Mixture-of-Models)世界中,企業 AI 棧通常包括:

      • 路由 SLM :分類、路由和策略執行

      • 多個 LLM 和領域專用模型(代碼、金融、醫療、法律)

      • 工具、RAG 管道、向量搜索和業務系統

      VSR 核心能力 VSR 核心功能 1. 基于信號的 Multi-LoRA 路由

      路由策略

      描述

      關鍵詞路由

      快速確定性的模式匹配

      領域分類

      意圖感知的適配器選擇

      嵌入語義相似度

      基于語義理解的細粒度路由

      事實檢查路由

      高風險查詢路由到專門驗證管道


      2. 跨實例智能

      • Response API :集中存儲實現有狀態多輪對話

      • 語義緩存 :通過跨實例向量匹配顯著減少 token 使用

      3. 企業級護欄 企業護欄
      • PII 檢測 :防止敏感信息泄露

      • 越獄防護 :阻止惡意提示注入

      • 幻覺檢測 :驗證關鍵領域的響應可靠性

      • 超級對齊 :確保 AI 系統在向 AGI 能力擴展時保持與人類價值觀對齊

      AMD GPU 部署路徑 部署路徑

      兩種部署方式:

      1. 基于 vLLM 的推理 :在 AMD GPU 上運行完整推理

      2. 輕量級 ONNX 路由 :僅路由邏輯,最小化資源占用

      6. 大規模服務:DeepSeek @ 2.2k tok/s/H200

      發布日期:2025年12月17日

      V1 引擎完成遷移

      在 v0.11.0 中,vLLM V0 引擎的最后代碼被移除,標志著向改進的 V1 引擎架構的完全遷移。這一成就離不開 vLLM 社區 1,969 位貢獻者的努力。

      性能突破
      Prefill 吞吐 Decode 吞吐

      社區基準測試(Coreweave H200 集群,Infiniband + ConnectX-7 NICs)顯示:

      • 生產級多節點部署達到 2.2k tokens/s 每 GPU

      • 相比早期 1.5k tokens/s 有顯著提升

      核心組件 Wide-EP(專家并行)



      https://blog.vllm.ai/ Wide-EP Token 路由

      DeepSeek-V3 部署的兩大考慮:

      • 稀疏專家激活 :DeepSeek-R1 每次前向傳播僅激活 37B/671B 參數

      • KV 緩存管理 :張量并行對 MLA 注意力架構并非最優

      KV 緩存對比

      Wide-EP 結合 EP 與數據并行(DP),最大化 MLA 架構的 KV 緩存效率。

      雙批次重疊(DBO)
      DBO 優化前

      優化前: MoE 調度/組合部分的通信開銷占用大量時間


      DBO 優化后

      優化后: 微批次工作線程交替執行,重疊計算與通信,提升 GPU 利用率

      專家并行負載均衡(EPLB)


      MoE 專家層在訓練時針對平衡負載優化,但推理時實際工作負載可能導致不均衡。EPLB 動態調整邏輯到物理專家的映射。

      分離式服務(Disaggregated Serving)


      分離式服務

      由于專家分布在各 rank 上,單個計算密集型 prefill 請求可能延遲整個 EP 組的前向傳播。分離式服務放大了解耦的收益。

      部署方案

      方案

      特點


      llm-d

      Kubernetes 原生分布式推理服務棧


      Dynamo

      高吞吐低延遲生產部署,支持 KV 感知路由


      Ray Serve LLM

      模塊化部署,無縫集成 Ray 生態


      總結

      vLLM 在2025年12月的更新展現了其在大規模 LLM 推理領域的持續創新:

      1. vLLM Router 解決了生產環境中的智能負載均衡問題

      2. Speculators v0.3.0 讓推測解碼從研究走向生產

      3. HaluGate 提供了實時、低延遲的幻覺檢測能力

      4. EPD 通過編碼器解耦優化多模態模型服務

      5. AMD × VSR 構建了混合模型時代的智能控制面

      6. 大規模服務優化 實現了 2.2k tok/s/H200 的突破性性能

      這些技術進展共同推動 vLLM 成為企業級 AI 基礎設施的核心組件,為構建可擴展、可信賴、高性能的 AI 應用提供了堅實基礎。

      本文由 AI 輔助編寫,基于 vLLM 官方博客https://blog.vllm.ai/內容整理。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國批準稀土出口,日媒歡呼:對華反制措施見效,下一秒遭打臉

      中國批準稀土出口,日媒歡呼:對華反制措施見效,下一秒遭打臉

      書紀文譚
      2026-02-10 18:32:15
      上海洗浴中心成新頂流,俄羅斯美女博主被圈粉,還有海外游客專門飛來打卡

      上海洗浴中心成新頂流,俄羅斯美女博主被圈粉,還有海外游客專門飛來打卡

      界面新聞
      2026-02-11 18:31:08
      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      喜歡歷史的阿繁
      2026-02-07 14:21:17
      退伍回村救了個落水女人,2天后縣長突然來電:明天來我辦公室

      退伍回村救了個落水女人,2天后縣長突然來電:明天來我辦公室

      秋風專欄
      2025-08-13 15:54:55
      頭部朝下落地!中國33歲冬奧老將出意外:被抬出雪場 目前意識清醒

      頭部朝下落地!中國33歲冬奧老將出意外:被抬出雪場 目前意識清醒

      風過鄉
      2026-02-11 20:52:27
      女子8年拒絕8次男友求婚,男友無奈另娶她人,女友:憑什么?

      女子8年拒絕8次男友求婚,男友無奈另娶她人,女友:憑什么?

      小蔣愛嘮嗑
      2026-02-11 05:33:41
      特朗普下達最后通牒,要求臺當局立即付款,否則將取消對臺軍售

      特朗普下達最后通牒,要求臺當局立即付款,否則將取消對臺軍售

      東極妙嚴
      2026-02-11 12:54:31
      亞馬爾連續5場破門+西甲24球,打破梅西和姆巴佩兩項紀錄

      亞馬爾連續5場破門+西甲24球,打破梅西和姆巴佩兩項紀錄

      晚霧空青
      2026-02-11 08:41:59
      從一晚三千到無人接盤,五星級酒店集體被甩賣,這場泡沫該誰買單

      從一晚三千到無人接盤,五星級酒店集體被甩賣,這場泡沫該誰買單

      青眼財經
      2026-01-19 23:37:28
      萬斯:伊朗人民想推翻政權,那得靠他們自己

      萬斯:伊朗人民想推翻政權,那得靠他們自己

      桂系007
      2026-02-11 23:38:09
      笑麻了!以為兩人相伴了一輩子,其實厭煩了幾十年!

      笑麻了!以為兩人相伴了一輩子,其實厭煩了幾十年!

      墻頭草
      2026-02-09 16:37:03
      生圖能打!孟子義青島逛街被偶遇,路人驚呼:白到發光比精修還美

      生圖能打!孟子義青島逛街被偶遇,路人驚呼:白到發光比精修還美

      心靈得以滋養
      2026-02-11 21:50:42
      女演員千萬別整容!看《夜色正濃》里40歲江疏影和36歲藍盈瑩

      女演員千萬別整容!看《夜色正濃》里40歲江疏影和36歲藍盈瑩

      章眽八卦
      2026-02-11 12:40:57
      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      就一點
      2025-11-22 10:36:39
      我去!塔圖姆被下放了!!

      我去!塔圖姆被下放了!!

      柚子說球
      2026-02-11 17:20:08
      利物浦遭重創!后場萬金油被擔架抬下 面臨長期傷停

      利物浦遭重創!后場萬金油被擔架抬下 面臨長期傷停

      球事百科吖
      2026-02-12 07:23:26
      3人共禁賽13場!這大概是年度最兇沖突了!

      3人共禁賽13場!這大概是年度最兇沖突了!

      柚子說球
      2026-02-12 07:52:13
      這跟不穿有什么區別?王楚然裙子太短露膚度極高,胡意旋身材曼妙

      這跟不穿有什么區別?王楚然裙子太短露膚度極高,胡意旋身材曼妙

      樂悠悠娛樂
      2026-02-10 12:44:32
      比賭博還狠的“隱形毒藥”,正慢慢掏空中國家庭,無數人被它拖垮

      比賭博還狠的“隱形毒藥”,正慢慢掏空中國家庭,無數人被它拖垮

      千秋文化
      2026-02-10 20:55:47
      梁朝偉過安檢可憐眼神向劉嘉玲求救前所未見 老婆搞笑反應曝光

      梁朝偉過安檢可憐眼神向劉嘉玲求救前所未見 老婆搞笑反應曝光

      達達哥
      2026-02-10 21:52:25
      2026-02-12 08:35:00
      機器學習與Python社區 incentive-icons
      機器學習與Python社區
      機器學習算法與Python
      3247文章數 11085關注度
      往期回顧 全部

      科技要聞

      Meta將斥資超100億美元建設數據中心

      頭條要聞

      環球:高市"豪賭"大勝 軍工業恐成日本經濟"搖錢樹"

      頭條要聞

      環球:高市"豪賭"大勝 軍工業恐成日本經濟"搖錢樹"

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態度原創

      藝術
      本地
      游戲
      公開課
      軍事航空

      藝術要聞

      這13個狂草字,您認出幾個?楷書練習多久就可以練行書了?

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      《英雄無敵5:重生》開發者將推出新地圖生成器

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:若美伊談判失敗 或再派一支航母打擊群

      無障礙瀏覽 進入關懷版