網易首頁 > 網易號 > 正文申請入駐

大模型本地部署，小號的vLLM來了

2025-11-17 11:48:27　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

一文中提到 2025 年最熱門的項目分布在 AI 基礎設施（vllm、ollama、huggingface/transformers）和持久的生態系統（vscode、godot、home-assistant）之間。

一方面，像vllm、ollama、ragflow、llama.cpp和huggingface/transformers這樣的項目占據主導地位，這表明貢獻者正在投資 AI 的基礎層——模型運行時、推理引擎和編排框架。
另一方面，像vscode、godot、expo和home-assistant這樣的主要生態系統繼續吸引穩定的貢獻者基礎，表明開源的勢頭遠遠超出了 AI 領域。

vLLM——2025 年增長最快的開源 AI 項目之一。

按貢獻者數量排名的頂級開源項目按貢獻者數量增長最快的項目吸引最多首次貢獻者的項目

這個推理引擎也是我最喜愛的，本號測試部署的 N 多大模型都是用它來部署的

唯一讓我不滿的是我在內網用 docker 起 vLLM，它太大了，足足 22 個 GB

周末剛看到一個新項目：輕量級 vLLM 實現——Nano-vLLM

項目地址：https://github.com/GeeeekExplorer/nano-vllm

關鍵功能快速離線推理 - 推理速度與 vLLM 相當易讀的代碼庫 - 約 1,200 行 Python 代碼的簡潔實現 ? 優化套件 - 前綴緩存、張量并行、Torch 編譯、CUDA 圖等

一行命令安裝pip install git+https://github.com/GeeeekExplorer/nano-vllm.git

手動下載模型權重，使用以下命令：

huggingface-cli download --resume-download Qwen/Qwen3-0.6B \
  --local-dir ~/huggingface/Qwen3-0.6B/ \
  --local-dir-use-symlinks False

網不通的話，可以使用我多次推薦的modelscope

pip install modelscope 之后，即可使用 modelscope download 下載模型

下載完整模型庫

`modelscope download --model Qwen/Qwen3-0.6B

下載單個文件到指定本地文件夾（以下載 README.md 到當前路徑下“dir”目錄為例）

modelscope download --model Qwen/Qwen3-0.6B README.md --local_dir ./dir

API 與 vLLM 的接口類似，LLM.generate方法有一些細微差別：

from nanovllm import LLM, SamplingParams
llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1)
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)
prompts = ["Hello, Nano-vLLM."]
outputs = llm.generate(prompts, sampling_params)
outputs[0]["text"]

看官方測試配置：**

硬件：RTX 4070 筆記本電腦（8GB）
模型: Qwen3-0.6B
總請求量: 256個序列
輸入長度: 隨機采樣在100到1024個標記之間
輸出長度: 隨機采樣在100到1024個標記之間

性能結果：

推理引擎

輸出標記

時間（秒）

吞吐量（令牌/秒）

vLLM

133,966

Nano-vLLM

133,966

這種小模型，時延更小，吞吐量更大，看起來是很不錯的樣子

時間關系，我還沒有本地跑大參數模型，后續肯定要試一試的。

文末薦書

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.