![]()
大家好,我是 Ai 學習的老章
繼續介紹大模型推理引擎+Llama.cpp,前文我寫了,詳細介紹了 llama.cpp 這個推理引擎,內網離線 cmake 編譯安裝、開啟 GPU 加速、Llama.cpp 的使用及核心參數深度解析等。
文中我也說了:源碼編譯其實蠻看運氣的,比如我生產環境的一臺 RHEL 系統的服務器,yum 源很不給力,僅僅是升級 GCC 都費老大勁,各種依賴安裝到吐血。
本文我們用個更省事兒的內網離線部署方式——Docker,然后用其部署量化大模型,其中踩坑若干,才有如此精煉、極簡教程
1、聯網環境拉取 llama.cpp 鏡像并保存
選擇鏡像最好是官方,比如 llama.cpp 提供的有不同版本,不同用途的鏡像
我選擇的是 ghcr.io/ggml-org/llama.cpp:server-cuda
![]()
https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md
市面上有很多個人打包的鏡像,大多都是閹割版
費老大勁搞進去,發現大模型無法加載
![]()
當然,你也可以自己構建 docker
![]()
下載及保存鏡像命令:
# 下載核心服務鏡像(指定 linux/amd64 平臺) docker pull --platform linux/amd64 ghcr.io/ggml-org/llama.cpp:server-cuda # 保存鏡像到tar文件 docker save ghcr.io/ggml-org/llama.cpp > llama.cpp.tar 2、鏡像傳入內網不贅述,不同公司有不同工具可以在辦公網與生產內網傳輸數據。
3、**在內網服務器(x86)加載鏡像
# 加載鏡像,加載過程需要一些時間,完成后,Docker 會輸出加載的鏡像信息。 docker load i llama.cpp.tar# 運行 docker images 命令來查看本地鏡像列表,確認llama.cpp已經成功加載。 docker images這個也需要辦公網下載好(我一般去 modelscope 下載)
pip install modelscope 之后,即可使用 modelscope download 下載模型
下載完整模型庫
modelscope download --model unsloth/gpt-oss-120b
下載單個文件到指定本地文件夾(以下載 README.md 到當前路徑下“dir”目錄為例)
modelscope download --model unsloth/gpt-oss-120b README.md --local_dir ./dir
![]()
再傳入內網:
llama.cpp 服務需要模型文件才能運行,在你的 Linux 服務器上創建一個目錄,用來存放 GGUF 格式的模型文件。
![]()
5、啟動大模型
docker run --rm --runtime nvidia -e TZAsia/Shanghai --gpus "device=2" -v /opt/data/ai/GGUF:/models --name oss-20b-server -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -m /models/gpt-oss-20b-F16.gguf --port 8000 --host 0.0.0.0 -c4096 -n 1024 -ngl 999可以看到已經啟動成功
![]()
6、接入 open-webui ![]()
![]()
最后再推薦一個我正在學習的課程
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.