前文:
本文實測 24GB 顯存的 4090 單卡啟動 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M
省流:
1、單卡 4090 跑 27B 很輕松,最高64K 上下文、128K 報 OOM,這個上下文還是不錯的,對比同樣單 4090 啟動的 ,上下文只能開到 10K
2、平均生成速度 46 token/s 的樣子,并發是沒有的,個人用還可以
3、 實際表現中規中矩,中等水平,可以完成核心任務,細節不如 GLM-4.7-Flash
我選擇的這個
![]()
使用 modelscope 下載
pip install modelscope
modelscope download --model Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-27B.Q4_K_M.gguf --local_dir .
llama.cpp 安裝安裝真是一言難盡,大家各顯神通吧
我的內網機基礎環境很差,編譯從來沒有成功過
所以還是走的 Docker 方案
docker pull ghcr.io/ggml-org/llama.cpp:full-cuda
啟動腳本
我計劃完全用顯卡來跑,不動用 CPU
啟動腳本:
docker run --rm --runtime nvidia --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536 -ngl 99
前端對話使用的自帶 UI,其實可以接入到 OpenwebUI,它現在的 UI 還支持 MCP
![]()
告訴他細節不夠豐富后,這種表現已經十分優秀了,這個題目考察閱讀理解+svg 代碼生成+審美,很多大號模型表現也不一定這么好
![]()
對比 GLM-4.7-Flash-AWQ-4bit
![]()
平均 46 t/s
![]()
測試并發能力,失敗告終
![]()
找 GPT5.4 讀了文檔加了一些支持并發,激發性能的參數,結果依然如上,沒有改善,或許默認的 4 并發會好一些,沒在嘗試。
docker run --rm --runtime nvidia --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536 -kvu -ngl 99 --flash-attn on -b 1024 -t 48
,結論:
lama.cpp 并未針對張量并行(Tensor Parallelism)與批推理(Batch Inference)進行優化。只有在進行 LLM 的部分或全部 CPU 卸載時,你才應該使用 llama.cpp。但在多 GPU 配置下,需要經過優化的批推理與 Tensor Parallelism,此時 vLLM 是正確選擇。
附 LocalLLaMA 社區的吐槽![]()
llama.cpp 項目 issue 吐槽
![]()
![]()
14 張 RTX 3090 GPU 和 336GB VRAM 的專用 AI 服務器,# Stop Wasting Your Multi-GPU Setup With llama.cpp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.