大家好,我是 Ai 學習的老章
一文中提到 2025 年最熱門的項目分布在 AI 基礎設施(vllm、ollama、huggingface/transformers)和持久的生態系統(vscode、godot、home-assistant)之間。
一方面,像vllm、ollama、ragflow、llama.cpp和huggingface/transformers這樣的項目占據主導地位,這表明貢獻者正在投資 AI 的基礎層——模型運行時、推理引擎和編排框架。
另一方面,像vscode、godot、expo和home-assistant這樣的主要生態系統繼續吸引穩定的貢獻者基礎,表明開源的勢頭遠遠超出了 AI 領域。
![]()
vLLM——2025 年增長最快的開源 AI 項目之一。
按貢獻者數量排名的頂級開源項目 按貢獻者數量增長最快的項目 吸引最多首次貢獻者的項目
這個推理引擎也是我最喜愛的,本號測試部署的 N 多大模型都是用它來部署的
唯一讓我不滿的是我在內網用 docker 起 vLLM,它太大了,足足 22 個 GB
周末剛看到一個新項目:輕量級 vLLM 實現——Nano-vLLM
項目地址:https://github.com/GeeeekExplorer/nano-vllm
關鍵功能快速離線推理 - 推理速度與 vLLM 相當 易讀的代碼庫 - 約 1,200 行 Python 代碼的簡潔實現 ? 優化套件 - 前綴緩存、張量并行、Torch 編譯、CUDA 圖等
一行命令安裝pip install git+https://github.com/GeeeekExplorer/nano-vllm.git
手動下載模型權重,使用以下命令:
huggingface-cli download --resume-download Qwen/Qwen3-0.6B \
--local-dir ~/huggingface/Qwen3-0.6B/ \
--local-dir-use-symlinks False
網不通的話,可以使用我多次推薦的modelscope
pip install modelscope 之后,即可使用 modelscope download 下載模型
下載完整模型庫
`modelscope download --model Qwen/Qwen3-0.6B
下載單個文件到指定本地文件夾(以下載 README.md 到當前路徑下“dir”目錄為例)
modelscope download --model Qwen/Qwen3-0.6B README.md --local_dir ./dir
API 與 vLLM 的接口類似,LLM.generate方法有一些細微差別:
from nanovllm import LLM, SamplingParams
llm = LLM("/YOUR/MODEL/PATH", enforce_eager=True, tensor_parallel_size=1)
sampling_params = SamplingParams(temperature=0.6, max_tokens=256)
prompts = ["Hello, Nano-vLLM."]
outputs = llm.generate(prompts, sampling_params)
outputs[0]["text"]
看官方測試配置:**
硬件:RTX 4070 筆記本電腦(8GB)
模型: Qwen3-0.6B
總請求量: 256個序列
輸入長度: 隨機采樣在100到1024個標記之間
輸出長度: 隨機采樣在100到1024個標記之間
性能結果:
推理引擎
輸出標記
時間(秒)
吞吐量(令牌/秒)
vLLM
133,966
Nano-vLLM
133,966
這種小模型,時延更小,吞吐量更大,看起來是很不錯的樣子
時間關系,我還沒有本地跑大參數模型,后續肯定要試一試的。
文末薦書
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.