<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Docker部署Ollama踩坑:3個配置參數讓GPU利用率翻倍

      0
      分享至


      國內開發者跑本地大模型,Ollama幾乎是默認選項。但單機裸裝和團隊級部署之間,隔著一道Docker Compose的門檻——跨過去,版本管理、模型持久化、GPU調度才能變成可復現的工程問題。

      本文只解決一件事:用Docker Compose拉起一個帶GPU加速、模型不丟、配置可版本控制的Ollama服務。不講Docker基礎,不扯HTTPS反向代理,那些另有專文。

      為什么裸裝不夠用了

      個人開發機上一行命令就能跑,但場景稍微復雜一點,裸裝的脆弱就暴露出來。

      團隊環境里,你把`ollama serve`塞進了systemd還是tmux?模型存在哪個目錄?下次換機器怎么同步?Compose把這些變成一份可review的YAML文件。單節點服務器場景,升級變成改個鏡像tag重啟,模型權重躺在volume里不動。更現實的是,Ollama很少單獨跑——旁邊總掛著Web UI、向量庫、鑒權網關,Compose的`docker compose up`比手動起一堆容器省心太多。

      官方鏡像的設計也配合這個思路:默認執行`ollama serve`,暴露11434端口,狀態目錄設計成可掛載。

      兩個前置決策:版本鎖定與存儲路徑

      動手之前先定兩件事。

      版本鎖定用`.env`文件,把`OLLAMA_IMAGE_TAG`從`latest`釘到具體版本。存儲路徑官方文檔指向`/root/.ollama`,掛成named volume或bind mount都行,核心是別讓模型隨容器重建而消失。

      以下是一份經過生產驗證的Compose配置,關鍵參數都抽成了環境變量:

      services: ollama: image: ollama/ollama:${OLLAMA_IMAGE_TAG:-latest} container_name: ollama restart: unless-stopped ports: - "${OLLAMA_BIND_IP:-127.0.0.1}:11434:11434" volumes: - ollama:/root/.ollama environment: - OLLAMA_HOST=0.0.0.0:11434 - OLLAMA_KEEP_ALIVE=${OLLAMA_KEEP_ALIVE:-5m} - OLLAMA_NUM_PARALLEL=${OLLAMA_NUM_PARALLEL:-1} - OLLAMA_MAX_LOADED_MODELS=${OLLAMA_NUM_PARALLEL:-1}

      端口綁定默認鎖在127.0.0.1,需要外網訪問時再改`OLLAMA_BIND_IP`。`OLLAMA_HOST`在官方鏡像里已經是0.0.0.0,顯式寫出來是為了后續覆蓋時不踩坑。

      GPU支持:NVIDIA Runtime的配置細節

      GPU不是鏡像里自帶的,靠Docker的NVIDIA Container Runtime注入。Compose里加一段`deploy.resources.reservations`:

      deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu]

      這里`count: 1`是保守策略,單卡機器夠用。多卡環境可以改成`count: all`或指定device ID。`capabilities: [gpu]`不能省略,這是NVIDIA Runtime識別設備類型的標記。

      宿主機需要提前裝好NVIDIA Docker Toolkit,驗證命令是`docker run --rm --gpus all nvidia/cuda:12.0-base nvidia-smi`。這一步不過,容器里看不到卡。

      三個調參杠桿:內存、并發、模型駐留

      官方鏡像暴露的環境變量里,有三個直接影響服務行為。

      `OLLAMA_KEEP_ALIVE`控制模型在內存里駐留多久,默認5分鐘。調長可以減少冷啟動,調短可以騰顯存給別的任務。`OLLAMA_NUM_PARALLEL`決定單個模型同時處理多少請求,超過會排隊。`OLLAMA_MAX_LOADED_MODELS`限制同時駐留的模型數量,和顯存容量直接掛鉤。

      這三個參數的組合沒有萬能公式。8G顯存跑7B模型,`MAX_LOADED_MODELS`設1,`NUM_PARALLEL`設2是安全線。24G顯存可以嘗試同時駐留兩個不同模型,或者把并行度拉到4。

      持久化驗證:模型到底存哪了

      配置完先跑一遍拉模型流程,驗證volume掛載是否生效。

      `docker compose exec ollama ollama pull llama3.1:8b`之后,在宿主機執行`docker volume inspect ollama_ollama`,看`Mountpoint`指向的目錄里有沒有`models`子目錄。有,說明持久化成功;沒有,檢查volume名稱是否和Compose里的命名一致。

      升級鏡像時,改`.env`里的tag,執行`docker compose up -d`。容器重建,模型不動,服務無縫切換。這是Compose相比裸裝最核心的優勢。

      最后留個開放問題:你的Ollama部署里,`OLLAMA_KEEP_ALIVE`設了多久?是傾向于省顯存的多模型切換,還是省時間的單模型常駐?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

      關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

      楓嶺社
      2026-03-27 10:49:09
      伊朗巴斯基民兵:被迷信騙了半輩子,才看清這個政權的罪惡真面目

      伊朗巴斯基民兵:被迷信騙了半輩子,才看清這個政權的罪惡真面目

      老馬拉車莫少裝
      2026-03-27 20:41:33
      同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

      同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

      農村情感故事
      2026-03-23 07:31:39
      妻子由男醫生產檢,丈夫崩潰撞墻

      妻子由男醫生產檢,丈夫崩潰撞墻

      中國新聞周刊
      2026-03-27 21:47:06
      樊振東一單獨得2分 52歲華裔名將求合影 現場播放《真心英雄》

      樊振東一單獨得2分 52歲華裔名將求合影 現場播放《真心英雄》

      念洲
      2026-03-28 06:47:42
      美軍中東基地損失,最新披露

      美軍中東基地損失,最新披露

      環球時報國際
      2026-03-28 00:16:13
      意甲女記者穿高跟鞋秀球技,獲球迷稱贊:“球感極佳 ”

      意甲女記者穿高跟鞋秀球技,獲球迷稱贊:“球感極佳 ”

      懂球帝
      2026-03-27 21:45:13
      小鵬汽車宣布更名

      小鵬汽車宣布更名

      大象新聞
      2026-03-27 19:45:02
      時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

      時代最令人失望者!加州州長怒批馬斯克:親手將美國電車王冠讓給了中國

      快科技
      2026-03-27 14:18:12
      張雪峰靈堂內景曝光,四周擺滿了鮮花,遺照惹人淚目,女兒發聲

      張雪峰靈堂內景曝光,四周擺滿了鮮花,遺照惹人淚目,女兒發聲

      180視角
      2026-03-27 10:39:05
      雙休日22度打底

      雙休日22度打底

      脊梁in上海
      2026-03-28 08:36:50
      張雪峰靈堂花圈擺滿松柏:遺孀付幸保持沉默,前妻李麗婧也未露面

      張雪峰靈堂花圈擺滿松柏:遺孀付幸保持沉默,前妻李麗婧也未露面

      眼光很亮
      2026-03-27 14:45:20
      24分逆轉,倫納德完成跳投絕殺!步行者演技拙劣,加蘭30分5助攻

      24分逆轉,倫納德完成跳投絕殺!步行者演技拙劣,加蘭30分5助攻

      老梁體育漫談
      2026-03-28 09:49:14
      上班開糞車下班開奔馳的小伙今日大婚,當事人:吸糞車婚車隊,全球第一個

      上班開糞車下班開奔馳的小伙今日大婚,當事人:吸糞車婚車隊,全球第一個

      極目新聞
      2026-03-28 08:51:05
      表白失敗怒砸食堂后續:咖啡機報廢,面臨巨額賠償,前程恐要盡毀

      表白失敗怒砸食堂后續:咖啡機報廢,面臨巨額賠償,前程恐要盡毀

      離離言幾許
      2026-03-27 12:11:29
      看哭了!張雪峰女兒流淚發文,透露爸爸最窮的時候是怎么熬過來的

      看哭了!張雪峰女兒流淚發文,透露爸爸最窮的時候是怎么熬過來的

      翰飛觀事
      2026-03-27 19:35:51
      越南成品油價格大幅下調

      越南成品油價格大幅下調

      緬甸中文網
      2026-03-27 13:37:49
      是戰是和信息混亂,伊朗分析美方意圖,美國再延“最后通牒”期限

      是戰是和信息混亂,伊朗分析美方意圖,美國再延“最后通牒”期限

      環球網資訊
      2026-03-28 07:00:38
      教師大局已定:2026年全國教師隊伍將迎來四大新變化

      教師大局已定:2026年全國教師隊伍將迎來四大新變化

      戶外阿毽
      2026-03-27 12:30:20
      很多人只看到了"老頭樂起訴小米"的荒誕感,卻沒看到雷軍不敢戀戰背后的“惶恐”

      很多人只看到了"老頭樂起訴小米"的荒誕感,卻沒看到雷軍不敢戀戰背后的“惶恐”

      新浪財經
      2026-03-28 00:31:15
      2026-03-28 10:20:49
      硬核玩家2哈
      硬核玩家2哈
      沉淀中,勿擾
      308文章數 2關注度
      往期回顧 全部

      科技要聞

      遭中國學界"拉黑"后,這家AI頂會低頭道歉

      頭條要聞

      現役軍官帶刀闖中使館日方僅表示"遺憾" 高市沒反應

      頭條要聞

      現役軍官帶刀闖中使館日方僅表示"遺憾" 高市沒反應

      體育要聞

      “我是全家最差勁的運動員”

      娛樂要聞

      范瑋琪加盟,官宣《浪姐7》遭全網抵制

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      教育
      時尚
      親子
      本地
      旅游

      教育要聞

      “考研6年,輸給一條黑褲襪”,女大學生啃老式考研,被嘲研王爺

      推廣中獎名單-更新至2026年3月11日推廣

      親子要聞

      夫妻生孩子的核心目的就是生孩子

      本地新聞

      在濰坊待了三天,沒遇到一個“濰坊人”

      旅游要聞

      鏡觀中國丨赴一場春天的約會

      無障礙瀏覽 進入關懷版