<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM v0.17.1 緊急補丁,修復 Qwen3.5 越跑越蠢的隱形 Bug

      0
      分享至

      上周剛寫了 vLLM v0.17.0 的更新,,墨跡未干,v0.17.1 就來了,一個很小但是很重要的一次更新。

      先看全貌:v0.17.1 改了什么

      變更

      類型

      新增 Nemotron 3 Super 模型支持

      新模型

      [Mamba][Qwen3.5] Zero freed SSM cache blocks on GPU(#35219)

      關鍵修復

      Fix activation_type 傳遞到 TRTLLM fused MoE NVFP4/FP8(#36017)

      修復

      恢復 nongated fused moe triton 支持(#36412)

      修復

      重新啟用 trtllm MoE FP8 backend 的 EP(#36494)

      修復

      Fix TRTLLM Block FP8 MoE Monolithic(#36296)

      修復

      [DSV3.2][MTP] 優化 Indexer MTP handling(#36723)

      ? 性能優化


      重點:35219 修了一個"越跑越蠢"的 Bug

      這個 bug 針對的是 Qwen3.5-397B-A17B 這類混合架構模型

      Qwen3.5 的 MoE 模型用了 Mamba + Attention 的混合架構,兩種層共享同一套 GPU block pool。

      Mamba 層往 block 里寫的是fp32狀態數據,attention 層用的是fp8fp16的 KV cache。

      問題就出在 block 復用上

      一個 block 先被 Mamba 層用過,留下了fp32的位模式。后來這個 block 被回收,又分配給了 attention 層。attention 層的數據類型更窄,fp32殘留的 bit pattern 在新類型下直接變成了NaNInf

      最坑的是 attention kernel 的掩碼機制,很多 attention kernel(FlashAttn3、FlashInfer-TRTLLM 等)處理未使用位置時,采用的是乘零掩碼——把不需要的位置乘以 0。正常情況下沒問題,但0 × NaN = NaN,這些臟數據沿著 KV cache block 一路擴散,所有共享這個 block 的請求全部中招。

      時間一長,輸出質量持續下降

      這個 Bug 有多隱蔽

      看下 Issue #35138 里的復現條件:

      • 模型:Qwen/Qwen3.5-397B-A17B-FP8

      • 硬件:8 × NVIDIA B200

      • 后端:FlashInfer Attention backend

      • 現象:用同一套評測腳本跑兩輪,第二輪準確率就出問題了

      重點是第一輪完全正常

      服務剛啟動,所有 block 都是干凈的,看什么都好好的。

      跑一陣子,block 開始回收和復用,臟數據慢慢滲透,精度悄悄下滑

      這種 bug 在生產環境里排查起來極其痛苦。

      模型沒掛、顯存沒炸、API 正常返回,就是結果在變差。

      你可能以為是 prompt 的問題、數據的問題、甚至模型本身的問題,但誰能想到是緩存塊復用帶來的浮點臟數據污染

      修復方案

      新分配給 attention 層的 block,用之前先在 GPU 上清零

      但做得很克制:

      • 只針對帶 Mamba 層的 hybrid models——純 attention 模型完全不受影響

      • 只處理新分配出來的 blocks——prefix cache 命中的不動

      • 只清 FullAttentionSpec blocks——Mamba 自己的 block 不管,因為 Mamba 每步都會完整覆寫狀態

      實現上用了一個 Triton kernel 批量清零,提前預計算好所有 KV cache segment 的絕對字節地址,通過 pinned memory 傳 block ID 到 GPU,和 kernel launch 做 overlap,避免同步等待。

      性能開銷

      官方 PR 給了 B200 上的實測數據:

      階段

      清零 blocks 數

      延遲

      占 forward step 比例

      Prefill(BS ~8K)

      ~515 blocks(~920 MiB)

      ~170 μs

      Decode

      ~30 blocks

      ~15 μs

      端到端吞吐測試,輸出 tokens/s 波動在 ±2% 噪聲范圍內,代價幾乎為零

      Nemotron 3 Super:這次被寫進 release notes 了

      v0.17.1 另一個值得注意的變更是新增了Nemotron 3 Super模型支持。

      前幾天我剛寫過這個模型:

      總結

      跑 Qwen3.5 混合架構模型的:必須升

      .5

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      愛競彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說財經
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      簡史檔案館
      2026-04-02 11:05:03
      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      深析古今
      2026-04-01 21:52:44
      金價徹底爆了!

      金價徹底爆了!

      新浪財經
      2026-04-02 10:04:40
      現在教育最大的問題是:大多數學生根本就不想學習。

      現在教育最大的問題是:大多數學生根本就不想學習。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      新京報
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      混沌錄
      2026-04-01 20:37:15
      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      清風拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      蜉蝣說
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3302文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      健康
      家居
      數碼
      房產
      教育

      干細胞抗衰4大誤區,90%的人都中招

      家居要聞

      歲月靜好 典雅新章

      數碼要聞

      中國芯片廠商占領本土近半市場 NVIDIA領先優勢大幅縮減

      房產要聞

      大反轉!海口今年首宗重磅江景地塊,拍賣突然終止!

      教育要聞

      天府新區調整劃片后,利好不止這個片區

      無障礙瀏覽 進入關懷版