網易首頁 > 網易號 > 正文申請入駐

純離線安裝大模型推理引擎，部署量化大模型

2025-08-25 12:40:23　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

繼續介紹大模型推理引擎+Llama.cpp，前文我寫了，詳細介紹了 llama.cpp 這個推理引擎，內網離線 cmake 編譯安裝、開啟 GPU 加速、Llama.cpp 的使用及核心參數深度解析等。

文中我也說了：源碼編譯其實蠻看運氣的，比如我生產環境的一臺 RHEL 系統的服務器，yum 源很不給力，僅僅是升級 GCC 都費老大勁，各種依賴安裝到吐血。

本文我們用個更省事兒的內網離線部署方式——Docker，然后用其部署量化大模型，其中踩坑若干，才有如此精煉、極簡教程

1、聯網環境拉取 llama.cpp 鏡像并保存

選擇鏡像最好是官方，比如 llama.cpp 提供的有不同版本，不同用途的鏡像

我選擇的是 ghcr.io/ggml-org/llama.cpp:server-cuda

https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md

市面上有很多個人打包的鏡像，大多都是閹割版

費老大勁搞進去，發現大模型無法加載

當然，你也可以自己構建 docker

下載及保存鏡像命令：

# 下載核心服務鏡像（指定 linux/amd64 平臺）   docker pull --platform linux/amd64 ghcr.io/ggml-org/llama.cpp:server-cuda # 保存鏡像到tar文件   docker save ghcr.io/ggml-org/llama.cpp > llama.cpp.tar

2、鏡像傳入內網

不贅述，不同公司有不同工具可以在辦公網與生產內網傳輸數據。

3、**在內網服務器（x86）加載鏡像

# 加載鏡像,加載過程需要一些時間，完成后，Docker 會輸出加載的鏡像信息。 docker load i llama.cpp.tar

# 運行 docker images 命令來查看本地鏡像列表，確認llama.cpp已經成功加載。 docker images

4、準備模型文件

這個也需要辦公網下載好（我一般去 modelscope 下載）

pip install modelscope 之后，即可使用 modelscope download 下載模型

下載完整模型庫

modelscope download --model unsloth/gpt-oss-120b

下載單個文件到指定本地文件夾（以下載 README.md 到當前路徑下“dir”目錄為例）

modelscope download --model unsloth/gpt-oss-120b README.md --local_dir ./dir

再傳入內網：

llama.cpp 服務需要模型文件才能運行，在你的 Linux 服務器上創建一個目錄，用來存放 GGUF 格式的模型文件。

5、啟動大模型

docker run --rm --runtime nvidia -e TZAsia/Shanghai --gpus "device=2" -v /opt/data/ai/GGUF:/models --name oss-20b-server -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/gpt-oss-20b-F16.gguf --port 8000 --host 0.0.0.0 -c4096 -n 1024 -ngl 999

可以看到已經啟動成功

6、接入 open-webui

最后再推薦一個我正在學習的課程

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.