大家好,我是章北海
前文我升了 CUDA、部署了 DeepSeek-OCR
重寫的 API 也支持 PaddleOCR-VL
然后騰訊也來了:,文中我提到想等等看新版 vLLM 來了再部署
可是看到 N 多同學部署失敗,還有 HunyuanOCR 到底需要多少顯存可以跑起來有點疑問。
前文我就提到,可能是官方文檔寫錯了現存和磁盤空間,當時寫的是需要 80GB 顯存
后來修改成了 20GB
![]()
官方文檔將顯存需求從 80GB 改成了 20GB,即便如此也有點離譜,畢竟只是 1B 的模型 安裝及模型啟動 - 官方教程
我沒有使用官方教程,感覺。。。太麻煩了
1 是失敗概率蠻高,依賴太多,安裝環境不能用 pip,必須使用 uv
2 是我是在離線環境部署,所以下面方式對我無效
uv venv hunyuanocr
source hunyuanocr/bin/activateuv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
模型啟動就簡單了,只要前面 vLLM 安裝順利,下面就幾乎不會出問題
出問題,大概率是 CUDA 版本太低造成的,建議 12.9 以上,畢竟未來 vLLM 0.11.1 之后版本默認就要 12.9 起步了
下載好 HunyuanOCR 模型文件后正常啟動就行
# 模型啟動-官方教程
vllm serve tencent/HunyuanOCR \
--no-enable-prefix-caching \
--mm-processor-cache-gb 0 \
--gpu-memory-utilization 0.2
安裝及模型啟動 - 我的方式最省心,省事兒,離線最友好的方式必須是 Docker
第一步,拉取 vllm/vllm-openai 官方鏡像,選最近的一個 nightly 即可
docker pull vllm/vllm-openai:nightly
第二步,保存鏡像到內網,如果本機測試那就沒這一步了
第三步,啟動模型,核心參數和官方教程沒啥區別
docker run --rm --runtime=nvidia --name Hunyuan-ocr --ipc=host --gpus '"device=1"' -p 5000:8000 -v /data/llm-models:/models vllm/vllm-openai:nightly
--model /models/HunyuanOCR --port 8000 --no-enable-prefix-caching --mm-processor-cache-gb 0
我的顯卡是 24GB 的 4090
模型只占 1.9GB,其他都是 KV cache 占用
![]()
官方教程中的模型調用貌似也不太友好啊,我還是用了為 DeeoSeekOCR 寫的 API,簡單修改后依然很好用
![]()
速度飛快,5 頁的 PDF 也是秒秒鐘搞定
![]()
回到最開始問題,啟動模型加上參數 --gpu-memory-utilization 0.66,也就是 16GB 啟動模型,依然是 OK 的
![]()
而且速度絲毫沒有下降
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.