網易首頁 > 網易號 > 正文申請入駐

實測，單卡 4090 + llama.cpp 輕松跑 Claude-Opus-4.6蒸餾版Qwen3.5 27B，46 Token每秒！

2026-03-18 23:00:48　來源: Ai學習的老章

北京舉報

分享至

前文：

本文實測 24GB 顯存的 4090 單卡啟動 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M

省流：

1、單卡 4090 跑 27B 很輕松，最高64K 上下文、128K 報 OOM，這個上下文還是不錯的，對比同樣單 4090 啟動的，上下文只能開到 10K
2、平均生成速度 46 token/s 的樣子，并發是沒有的，個人用還可以
3、實際表現中規中矩，中等水平，可以完成核心任務，細節不如 GLM-4.7-Flash

極簡過程及啟動腳本下載模型

我選擇的這個

使用 modelscope 下載

pip install modelscope
modelscope download --model Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-27B.Q4_K_M.gguf --local_dir .

llama.cpp 安裝

安裝真是一言難盡，大家各顯神通吧

我的內網機基礎環境很差，編譯從來沒有成功過

所以還是走的 Docker 方案

docker pull ghcr.io/ggml-org/llama.cpp:full-cuda

啟動腳本

我計劃完全用顯卡來跑，不動用 CPU

啟動腳本：

docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -ngl 99

前端對話使用的自帶 UI，其實可以接入到 OpenwebUI，它現在的 UI 還支持 MCP

告訴他細節不夠豐富后，這種表現已經十分優秀了，這個題目考察閱讀理解+svg 代碼生成+審美，很多大號模型表現也不一定這么好

對比 GLM-4.7-Flash-AWQ-4bit

平均 46 t/s

測試并發能力，失敗告終

找 GPT5.4 讀了文檔加了一些支持并發，激發性能的參數，結果依然如上，沒有改善，或許默認的 4 并發會好一些，沒在嘗試。

docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -kvu -ngl 99 --flash-attn on -b 1024 -t 48

，結論：

lama.cpp 并未針對張量并行（Tensor Parallelism）與批推理（Batch Inference）進行優化。只有在進行 LLM 的部分或全部 CPU 卸載時，你才應該使用 llama.cpp。但在多 GPU 配置下，需要經過優化的批推理與 Tensor Parallelism，此時 vLLM 是正確選擇。

附 LocalLLaMA 社區的吐槽

llama.cpp 項目 issue 吐槽

14 張 RTX 3090 GPU 和 336GB VRAM 的專用 AI 服務器，# Stop Wasting Your Multi-GPU Setup With llama.cpp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.