<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      vLLM 部署 Qwen3.5 滿血&量化版,并發性能測試,附部署腳本

      0
      分享至

      最近openclaw在國內火的優點離譜,脫離其實力范圍的火,以至于我也要在文中加上兩句才可能有流量。。。主要是我個人一直玩的是自己折騰的一套,比較放心

      不過本周我會測試國產的兩個claw,敬請期待。

      本文繼續折騰Qwen3.5 不出意外是最后一篇了。

      Qwen3.5 系列我一直沒有拿 vLLM 部署,,趁著周末,玩一下。

      首先需要升級 vLLM,唯一需要注意的是自己的硬件及 CUDA 版本


      我的系統總是有幺蛾子,所有還是用的 Docker

      正常拉取鏡像即可:docker pull vllm/vllm-openai:v0.17.0

      我是 4090 的卡,所以選擇官方 FP8

      35B 權重文件 37GB

      27B 權重文件 30GB


      遭遇各種 OOM 之后。。。。


      最終調整到了一版合適的參數,腳本以 35B 為例,27B 僅需修改模型文具地址和對應 name 即可,我只有 4 卡,所有還要測完 35B 后 stop 才能起 27B

      #!/usr/bin/env bash
      set -euo pipefail

      MODEL_DIR="/data/models/Qwen3.5-35B-A3B-FP8"
      CONTAINER_NAME="qwen35-35b-a3b-fp8"
      PORT=8000

      docker rm -f ${CONTAINER_NAME} 2>/dev/null || true

      docker run -d \
      --name ${CONTAINER_NAME} \
      --gpus '"device=0,1,2,3"' \
      --ipc=host \
      --shm-size=16g \
      -p ${PORT}:8000 \
      -v ${MODEL_DIR}:/model:ro \
      -e NCCL_P2P_DISABLE=0 \
      -e NCCL_IB_DISABLE=1 \
      -e VLLM_USE_V1=1 \
      vllm/vllm-openai:v0.17.0 \
      --model /model \
      --served-model-name qwen3.5-35b-a3b-fp8 \
      --tensor-parallel-size 4 \
      --max-model-len 262144 \
      --kv-cache-dtype fp8 \
      --gpu-memory-utilization 0.9 \
      --max-num-seqs 4 \
      --max-num-batched-tokens 8192 \
      --language-model-only \
      --enable-prefix-caching \
      --default-chat-template-kwargs '{"enable_thinking": false}' \
      --host 0.0.0.0 \
      --port 8000

      這里說明一下
      --tensor-parallel-size 4我又 4 張 4090 顯卡
      --max-model-len 262144是我的強需求,可以稍微犧牲一點并發
      --kv-cache-dtype fp8這是為了降低 KV cache 內存占用,從而支持更長上下文
      --gpu-memory-utilization 0.9是為了給真實運行時留空間。實際部署中,除了權重和 KV cache,還會吃掉顯存的還有:CUDA graph、NCCL 通信 buffer、allocator 碎片、連續 batching 帶來的波動等等
      --max-num-seqs 4避免長上下文 + 高并發疊加把顯存直接頂爆,感覺還有空間往上加
      --max-num-batched-tokens 8192參數控制一次調度里的總 token 規模。它過大時,會帶來更高吞吐,但也會加大運行時顯存波動和調度壓力
      --language-model-only我不需要多模態,所以只要文本推理
      --enable-prefix-caching高效的 KV 管理和吞吐優化參數
      --default-chat-template-kwargs '{"enable_thinking": false}':加了思考我這配置卡的很,思考太過漫長了

      而且我用的 FP8 它的思考居然是英文


      實際運行,性能特別差 27B 幾乎沒有并發能力,35B-A3B 還可以,但是 RPS 很低,首 Token 延遲都奔 10s 了


      沒辦法,我放棄官方 FP8,上了 4bit


      cyankiwi/Qwen3.5-35B-A3B-AWQ-4bitcyankiwi/Qwen3.5-27B-AWQ-4bit

      然后使用了同樣的部署腳本,只是它倆更省卡,2 張 4090 就能跑起來,我可以同時跑 27B 和 35B,而且我還在原代碼基礎上 加大了 max-num-seqs


      Moe 確實省顯卡

      我把它倆接入到了 openwebui,都關閉思考情況下,27B 也慢得多!看樣子我之前的判斷大錯特錯了,27 太拉垮了。

      日志顯示 27B 70+ t/s


      35B 100+ t/s



      代碼能力呢,都不太能看,臥龍鳳雛了


      性能方面,27B 依然相當差勁,比 PF8 好多了


      35B 比 FP8 提升多了,也比 27B 強多了


      總結,以我的需求,暫時不想替代 Qwen3-32B,還是 32B 跟穩。

      而且 3.5 還整了騷操作,把開頭的 從“動態生成”變成了“靜態預置”,下游對接的系統苦了。。。要么模型測,要么應用測,是要改的。

      再加上它本身不支持思考與否的軟關閉,這個級別能力提升也不見得能彌補這些缺點,企業級應用,我感覺很多都不太樂意升 3.5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      愛競彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說財經
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      簡史檔案館
      2026-04-02 11:05:03
      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      深析古今
      2026-04-01 21:52:44
      金價徹底爆了!

      金價徹底爆了!

      新浪財經
      2026-04-02 10:04:40
      現在教育最大的問題是:大多數學生根本就不想學習。

      現在教育最大的問題是:大多數學生根本就不想學習。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      新京報
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      混沌錄
      2026-04-01 20:37:15
      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      清風拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      蜉蝣說
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3302文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      親子
      本地
      家居
      藝術
      公開課

      親子要聞

      輔酶q10備孕怎么吃?高齡備孕吃什么提高卵泡數量?

      本地新聞

      從學徒到世界冠軍,為什么說張雪的底氣在重慶?

      家居要聞

      歲月靜好 典雅新章

      藝術要聞

      故人西辭黃鶴樓,煙花三月下揚州

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版