網易首頁 > 網易號 > 正文申請入駐

vLLM v0.17.1 緊急補丁，修復 Qwen3.5 越跑越蠢的隱形 Bug

2026-03-18 00:09:21　來源: Ai學習的老章

北京舉報

分享至

上周剛寫了 vLLM v0.17.0 的更新，，墨跡未干，v0.17.1 就來了，一個很小但是很重要的一次更新。

先看全貌：v0.17.1 改了什么

變更

類型

新增 Nemotron 3 Super 模型支持

新模型

[Mamba][Qwen3.5] Zero freed SSM cache blocks on GPU（#35219）

關鍵修復

Fix activation_type 傳遞到 TRTLLM fused MoE NVFP4/FP8（#36017）

修復

恢復 nongated fused moe triton 支持（#36412）

修復

重新啟用 trtllm MoE FP8 backend 的 EP（#36494）

修復

Fix TRTLLM Block FP8 MoE Monolithic（#36296）

修復

[DSV3.2][MTP] 優化 Indexer MTP handling（#36723）

? 性能優化

重點：35219 修了一個"越跑越蠢"的 Bug

這個 bug 針對的是 Qwen3.5-397B-A17B 這類混合架構模型。

Qwen3.5 的 MoE 模型用了 Mamba + Attention 的混合架構，兩種層共享同一套 GPU block pool。

Mamba 層往 block 里寫的是fp32狀態數據，attention 層用的是fp8或fp16的 KV cache。

問題就出在 block 復用上

一個 block 先被 Mamba 層用過，留下了fp32的位模式。后來這個 block 被回收，又分配給了 attention 層。attention 層的數據類型更窄，fp32殘留的 bit pattern 在新類型下直接變成了NaN或Inf。

最坑的是 attention kernel 的掩碼機制，很多 attention kernel（FlashAttn3、FlashInfer-TRTLLM 等）處理未使用位置時，采用的是乘零掩碼——把不需要的位置乘以 0。正常情況下沒問題，但0 × NaN = NaN，這些臟數據沿著 KV cache block 一路擴散，所有共享這個 block 的請求全部中招。

時間一長，輸出質量持續下降

這個 Bug 有多隱蔽

看下 Issue #35138 里的復現條件：

模型：Qwen/Qwen3.5-397B-A17B-FP8
硬件：8 × NVIDIA B200
后端：FlashInfer Attention backend
現象：用同一套評測腳本跑兩輪，第二輪準確率就出問題了

重點是第一輪完全正常

服務剛啟動，所有 block 都是干凈的，看什么都好好的。

跑一陣子，block 開始回收和復用，臟數據慢慢滲透，精度悄悄下滑

這種 bug 在生產環境里排查起來極其痛苦。

模型沒掛、顯存沒炸、API 正常返回，就是結果在變差。

你可能以為是 prompt 的問題、數據的問題、甚至模型本身的問題，但誰能想到是緩存塊復用帶來的浮點臟數據污染。

修復方案

新分配給 attention 層的 block，用之前先在 GPU 上清零

但做得很克制：

只針對帶 Mamba 層的 hybrid models——純 attention 模型完全不受影響
只處理新分配出來的 blocks——prefix cache 命中的不動
只清 FullAttentionSpec blocks——Mamba 自己的 block 不管，因為 Mamba 每步都會完整覆寫狀態

實現上用了一個 Triton kernel 批量清零，提前預計算好所有 KV cache segment 的絕對字節地址，通過 pinned memory 傳 block ID 到 GPU，和 kernel launch 做 overlap，避免同步等待。

性能開銷

官方 PR 給了 B200 上的實測數據：

階段

清零 blocks 數

延遲

占 forward step 比例

Prefill（BS ~8K）

~515 blocks（~920 MiB）

~170 μs

Decode

~30 blocks

~15 μs

端到端吞吐測試，輸出 tokens/s 波動在 ±2% 噪聲范圍內，代價幾乎為零

Nemotron 3 Super：這次被寫進 release notes 了

v0.17.1 另一個值得注意的變更是新增了Nemotron 3 Super模型支持。

前幾天我剛寫過這個模型：

總結

跑 Qwen3.5 混合架構模型的：必須升

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.