<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM v0.17.0來了,Qwen3.5 全系列完美支持,Anthropic API 兼容

      0
      分享至

      關于 vLLM,我之前寫過不少:

      今天 vLLMv0.17.0 正式發布


      十大核心亮點速覽

      我從 Release Notes 里提煉了 v0.17.0 最值得關注的十大核心亮點,按重要程度排列:

      1?? FlashAttention 4 集成

      這可能是這個版本最讓人興奮的更新。vLLM 現在正式支持FlashAttention 4 后端了。

      FlashAttention 一路從 1 到 2 到 3,現在 4 也來了。每一代都在推動 attention 計算的效率極限。FA4 在前代基礎上又做了大量底層優化,對于長序列、大模型的推理性能提升顯著。

      如果你在用 H100/H200 或者更新的 GPU 跑大模型推理,升級到 v0.17 應該能明顯感受到速度提升。

      2?? Model Runner V2 里程碑:全面成熟

      Model Runner V2 是 vLLM 下一代模型執行架構,在這個版本中達到了一個重要的成熟里程碑

      • Pipeline Parallel(流水線并行)

      • Decode Context Parallel(解碼上下文并行)

      • Eagle3 推測解碼+ CUDA Graph

      • Pooling 模型支持

      • 分段 & 混合 CUDA Graph 捕獲

      • DP+EP 推測解碼

      • 全新 ModelState 架構

      此外官方還發布了Model Runner V2 的設計文檔,對于想深入了解 vLLM 內部架構的同學,這是一份非常好的學習資料。

      簡單來說,Model Runner V2 是 vLLM 的「心臟升級」。它讓 vLLM 在多卡、多節點、各種并行策略下的推理變得更加靈活和高效。

      3?? Qwen3.5 全家桶支持

      我之前介紹過的方法,vLLM一節都是用的nightly版()

      Qwen3.5 模型全系列在這個版本得到了完整支持,包括:

      • 基于GDN(Gated Delta Networks)的全新架構

      • FP8 量化支持

      • MTP 推測解碼

      • 推理解析器(reasoning parser)支持

      這意味著你可以直接在 vLLM 上跑 Qwen3.5 的各種版本,享受推測解碼和量化加速的全套優化。

      對于國內用戶來說,這可能是最實際的更新之一——Qwen3.5 是目前開源圈里最強的中文大模型之一,但是這一波 vLLM 有點慢了。

      4??--performance-mode一鍵性能調優

      這個功能太貼心了。之前部署 vLLM,性能調優需要手動設置一堆參數(batch size、調度策略等),對新手非常不友好。

      現在只需要一個參數:

      vllm serve your-model --performance-mode throughput

      提供三種模式:

      • **balanced**:均衡模式,適合大多數場景

      • **interactivity**:交互模式,優先降低首 token 延遲,適合聊天場景

      • **throughput**:吞吐模式,最大化吞吐量,適合批處理場景

      不用再去查文檔翻參數了,一個 flag 搞定。這種把復雜度封裝起來的思路,我很喜歡。

      5?? Anthropic API 兼容

      vLLM 之前一直兼容 OpenAI API 格式,現在開始支持Anthropic API 兼容了:

      • thinking blocks(思考塊)支持

      • count_tokensAPI

      • tool_choice=none選項

      • streaming 和圖片處理修復

      這意味著如果你的應用代碼之前是基于 Anthropic Claude API 寫的,現在可以無縫切換到本地 vLLM 部署的模型。API 兼容性做得越來越好,這對于降低遷移成本太重要了。

      6?? 權重卸載 V2:預取技術隱藏延遲

      對于顯存不夠用的同學,這個更新很關鍵。

      v0.17 的權重卸載器引入了預取機制(Prefetching),可以在 GPU 計算的同時,把下一層的權重從 CPU 加載到 GPU,從而隱藏權重加載延遲

      此外還支持了:

      • 選擇性 CPU 權重卸載:不用全部卸載,只卸載你指定的層

      • 無需雙倍 pinned memory 的 CPU 卸載:省內存

      這對于在消費級 GPU(3090、4090)上跑大模型的同學來說,是實打實的優化。

      7?? 彈性專家并行 Phase 2

      MoE(Mixture of Experts)模型是當前大模型的主流架構(DeepSeek-V3/V3.2、Qwen3 MoE、Llama 4 等),vLLM 在這個版本引入了彈性專家并行 Milestone 2

      核心能力:動態 GPU 縮放

      什么意思?就是你的 MoE 模型可以根據負載動態調整使用的 GPU 數量,負載低的時候少用幾張卡省錢,負載高的時候自動擴展。這對于生產環境的成本優化太重要了。

      8?? 量化 LoRA 適配器直接加載

      之前在 vLLM 上用 LoRA 微調后的模型,如果是量化版本(比如 QLoRA),需要各種周折才能加載。

      現在,vLLM 可以直接加載量化 LoRA 適配器了。

      這對于做 LoRA 微調 + 量化部署的工作流來說是個大利好。QLoRA 訓練完直接扔到 vLLM 里就能跑,中間環節省了。

      9?? 推測解碼全面進化

      推測解碼(Speculative Decoding)是加速 LLM 推理的關鍵技術,v0.17 在這方面做了大量優化:

      • Eagle3推測解碼支持 CUDA Graph,速度更快

      • Nemotron-HMTP 和 Mamba 推測解碼

      • Sparse MLA + MTP全 CUDA Graph 支持

      • DP+EP推測解碼(數據并行 + 專家并行)

      • Eagle3 支持disaggregated serving(分離式推理)

      特別是 Eagle3 + CUDA Graph 這個組合,是這次推測解碼部分最值得關注的組合之一。

      Kernel 層面的深度優化

      這個版本在底層內核上做了大量「不起眼但很重要」的優化:

      • FlashInfer Sparse MLA后端

      • Triton top-k / top-p 采樣器內核

      • TRTLLM DSV3 Router GEMM 內核:batch-1 場景加速 6%

      • FA3 swizzle 優化

      • 256-bit LDG/STG 激活內核

      • Helion 內核框架:自動調優基礎設施

      這些優化可能單個看不起眼,但加在一起就是量變引起質變。實際測試中,DeepSeek R1 BF16 最低延遲 QKV GEMM 做到了0.5% 端到端加速,Pipeline Parallel 異步收發做到了2.9% 端到端吞吐提升,pooling maxsim 做到了13.9% 吞吐提升

      硬件支持:不止 NVIDIA

      vLLM 越來越不是 NVIDIA 的專屬了。v0.17 在硬件支持上做了大量工作:

      NVIDIA 方面:

      • SM100(Blackwell)FP8 MLA prefill 支持

      • SM100 MXFP8 塊級縮放分組矩陣乘法

      • SM120 FP8 GEMM 優化

      • FlashInfer DeepGEMM 在 SM90 上默認開啟 swapAB

      AMD ROCm 方面:

      • AITER 融合 RoPE+KVCache

      • gfx950 上 MXFP4 MoE 權重預混洗

      • bitsandbytes 量化支持

      • CK(Composable Kernel)MoE 量化后端

      Intel XPU 方面:

      • CUDA graph 支持終于來了

      • NIXL GPUDirect RDMA

      CPU 方面:

      • ARM BF16 交叉編譯

      • s390x FP16 支持

      • 同時支持 AVX2 和 AVX512 的 CPU 發行版

      如果你是 AMD 或 Intel 的用戶,現在上 vLLM 的體驗已經好了很多。雖然和 NVIDIA 比還有差距,但差距在快速縮小。

      ASR 模型支持:不只是 LLM 了

      v0.17 有一個很有意思的變化——開始支持ASR(語音識別)模型了:

      • FunASR

      • FireRedASR2

      • Qwen3-ASR 實時流式識別

      vLLM 從名字看是「vLLM」——Virtual LLM,但現在它的野心顯然不止于文本大模型。之前加了多模態(視覺、音頻),現在又加了 ASR,正在進化成一個全模態推理引擎

      升級注意事項

      在你興沖沖跑去升級之前,說幾個需要注意的點:

      1. PyTorch 2.10 升級(Breaking Change!)

      v0.17 升級到了 PyTorch 2.10,這是環境依賴的破壞性變更。如果你的環境依賴特定版本的 PyTorch,需要做好兼容性測試。

      2. CUDA 12.9+ 已知問題

      如果你在 CUDA 12.9+ 上遇到CUBLAS_STATUS_INVALID_VALUE錯誤,可以試試:

      # 方法 1:清理 LD_LIBRARY_PATH
      unset LD_LIBRARY_PATH

      # 方法 2:uv 安裝
      uv pip install vllm --torch-backend=auto

      # 方法 3:指定 CUDA 版本
      pip install vllm --extra-index-url https://download.pytorch.org/whl/cu129

      3. KV 緩存加載策略變更

      KV load failure policy 默認值從recompute變為fail。如果你的部署依賴自動重算行為,需要手動設置回去。

      安裝

      安裝很簡單,一行命令:

      uv pip install vllm

      Docker 用戶:

      docker pull vllm/vllm-openai:v0.17.0
      docker run --gpus all \
      -v ~/.cache/huggingface:/root/.cache/huggingface \
      --env "HF_TOKEN=$HF_TOKEN" \
      -p 8000:8000 \
      --ipc=host \
      vllm/vllm-openai:v0.17.0 \
      --model Qwen/Qwen3-0.6B
      和 SGLang 怎么選?

      這是評論區最常被問到的問題之一。我簡單說下我的看法:

      • vLLM:更成熟,社區更大(GitHub 50k+ stars),硬件兼容性更好,企業級特性更豐富(pipeline parallel、disaggregated serving 等)。適合生產環境部署。

      • SGLang:在某些場景下性能更極致(特別是 DeepSeek 系列模型),API 更現代化。適合追求極致性能的場景。

      兩者都是頂級的推理引擎,現在更像是Chrome vs Firefox的關系——競爭推動了整個行業的進步。

      總結

      vLLM v0.17.0 是一個里程碑式的版本。FlashAttention 4 集成、Model Runner V2 成熟、Qwen3.5 全面支持、一鍵性能調優、Anthropic API 兼容……幾乎每一個更新都是硬核的工程突破。

      如果你正在做 LLM 推理部署,不管是研發還是生產環境,vLLM 依然是最值得關注的推理引擎之一

      .5

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      好可怕!40歲中年男人就有老人味嗎,差一點吐了,網友發帖引熱議

      好可怕!40歲中年男人就有老人味嗎,差一點吐了,網友發帖引熱議

      火山詩話
      2026-03-30 07:38:38
      送走馬蓉又來馮清,43歲的"老實人"王寶強,還是沒逃出"女人圈"

      送走馬蓉又來馮清,43歲的"老實人"王寶強,還是沒逃出"女人圈"

      趣知史館
      2026-03-10 20:20:03
      特朗普“混亂”講話,引發全球股市巨震!滬指險守3900點,接下來思路是什么?

      特朗普“混亂”講話,引發全球股市巨震!滬指險守3900點,接下來思路是什么?

      每經牛眼
      2026-04-02 15:32:23
      和老伴去遼寧興城住了1個月,我實話實說:跟想象中完全不一樣

      和老伴去遼寧興城住了1個月,我實話實說:跟想象中完全不一樣

      西莫的藝術宮殿
      2026-04-02 12:10:03
      小哈梅內伊的下落,突然被俄羅斯曝光,普京送特朗普一個關鍵機會

      小哈梅內伊的下落,突然被俄羅斯曝光,普京送特朗普一個關鍵機會

      滄海旅行家
      2026-04-02 13:34:22
      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      達文西看世界
      2026-03-04 15:07:30
      刀都架脖子上了!親美派準備上位,連戰3天攔截,強行保下蕭旭岑

      刀都架脖子上了!親美派準備上位,連戰3天攔截,強行保下蕭旭岑

      策略述
      2026-04-01 16:16:53
      為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

      為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

      侃神評故事
      2026-03-10 18:50:04
      CCTV5+直播,銅梁龍延續黑馬本色,王鈺棟PK向余望,浙江追擊前三

      CCTV5+直播,銅梁龍延續黑馬本色,王鈺棟PK向余望,浙江追擊前三

      替補席看球
      2026-04-02 13:46:38
      趙姬咽氣前拉著嬴政衣袖嘶吼:你爹不是呂不韋!三大秘密終曝光

      趙姬咽氣前拉著嬴政衣袖嘶吼:你爹不是呂不韋!三大秘密終曝光

      千秋文化
      2026-02-14 20:35:30
      歷史竟開了個玩笑:先倒下的不是烏克蘭,而是百年中立的瑞士?

      歷史竟開了個玩笑:先倒下的不是烏克蘭,而是百年中立的瑞士?

      通鑒史智
      2026-04-02 10:27:20
      15.99萬起!廣汽官宣:新車首次降價

      15.99萬起!廣汽官宣:新車首次降價

      高科技愛好者
      2026-04-01 23:01:53
      別把股民當傻子!滬指尾盤拉升,AI算力板塊大跌超-3%

      別把股民當傻子!滬指尾盤拉升,AI算力板塊大跌超-3%

      財報翻譯官
      2026-04-02 15:22:47
      色情網站“丁香”覆滅記:7.3億瀏覽量的背后,是誰在操控盈利?

      色情網站“丁香”覆滅記:7.3億瀏覽量的背后,是誰在操控盈利?

      談史論天地
      2026-02-08 20:30:04
      2000km續航!比亞迪新車今天上市

      2000km續航!比亞迪新車今天上市

      手機評測室
      2026-04-02 11:50:58
      2選1!里夫斯站上運十字路口:去達拉斯組三巨頭,還是留湖人沖冠

      2選1!里夫斯站上運十字路口:去達拉斯組三巨頭,還是留湖人沖冠

      體育閑話說
      2026-04-02 10:26:27
      世界杯冠軍點兵!阿根廷名單已定22席:梅西領銜 還差4人

      世界杯冠軍點兵!阿根廷名單已定22席:梅西領銜 還差4人

      葉青足球世界
      2026-04-02 15:31:43
      西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

      西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

      壹家言
      2026-03-31 11:04:40
      楊丞琳成都演唱會:造型封神,青春大合唱

      楊丞琳成都演唱會:造型封神,青春大合唱

      東方不敗然多多
      2026-04-02 11:38:57
      吳佳尼心累,兩個兒子一年開支上百萬,64歲前夫馬景濤只提供學費

      吳佳尼心累,兩個兒子一年開支上百萬,64歲前夫馬景濤只提供學費

      話娛論影
      2026-03-30 20:57:14
      2026-04-02 17:35:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      房產
      健康
      教育
      時尚
      軍事航空

      房產要聞

      大反轉!海口今年首宗重磅江景地塊,拍賣突然終止!

      干細胞抗衰4大誤區,90%的人都中招

      教育要聞

      天府新區調整劃片后,利好不止這個片區

      女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

      軍事要聞

      伊朗自殺無人機突進 逼退林肯號航母

      無障礙瀏覽 進入關懷版