<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測,單卡 4090 + llama.cpp 輕松跑 Claude-Opus-4.6蒸餾版Qwen3.5 27B,46 Token每秒!

      0
      分享至

      前文:

      本文實測 24GB 顯存的 4090 單卡啟動 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M

      省流:

      • 1、單卡 4090 跑 27B 很輕松,最高64K 上下文、128K 報 OOM,這個上下文還是不錯的,對比同樣單 4090 啟動的 ,上下文只能開到 10K

      • 2、平均生成速度 46 token/s 的樣子,并發是沒有的,個人用還可以

      • 3、 實際表現中規中矩,中等水平,可以完成核心任務,細節不如 GLM-4.7-Flash

      極簡過程及啟動腳本 下載模型

      我選擇的這個


      使用 modelscope 下載

      pip install modelscope
      modelscope download --model Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-27B.Q4_K_M.gguf --local_dir .
      llama.cpp 安裝

      安裝真是一言難盡,大家各顯神通吧

      我的內網機基礎環境很差,編譯從來沒有成功過

      所以還是走的 Docker 方案

      docker pull ghcr.io/ggml-org/llama.cpp:full-cuda

      啟動腳本

      我計劃完全用顯卡來跑,不動用 CPU

      啟動腳本:

      docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -ngl 99 

      前端對話使用的自帶 UI,其實可以接入到 OpenwebUI,它現在的 UI 還支持 MCP


      告訴他細節不夠豐富后,這種表現已經十分優秀了,這個題目考察閱讀理解+svg 代碼生成+審美,很多大號模型表現也不一定這么好


      對比 GLM-4.7-Flash-AWQ-4bit


      平均 46 t/s


      測試并發能力,失敗告終


      找 GPT5.4 讀了文檔加了一些支持并發,激發性能的參數,結果依然如上,沒有改善,或許默認的 4 并發會好一些,沒在嘗試。

      docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -kvu -ngl 99 --flash-attn on -b 1024 -t 48

      ,結論:

      lama.cpp 并未針對張量并行(Tensor Parallelism)與批推理(Batch Inference)進行優化。只有在進行 LLM 的部分或全部 CPU 卸載時,你才應該使用 llama.cpp。但在多 GPU 配置下,需要經過優化的批推理與 Tensor Parallelism,此時 vLLM 是正確選擇。

      附 LocalLLaMA 社區的吐槽

      llama.cpp 項目 issue 吐槽



      14 張 RTX 3090 GPU 和 336GB VRAM 的專用 AI 服務器,# Stop Wasting Your Multi-GPU Setup With llama.cpp

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      好可怕!40歲中年男人就有老人味嗎,差一點吐了,網友發帖引熱議

      好可怕!40歲中年男人就有老人味嗎,差一點吐了,網友發帖引熱議

      火山詩話
      2026-03-30 07:38:38
      送走馬蓉又來馮清,43歲的"老實人"王寶強,還是沒逃出"女人圈"

      送走馬蓉又來馮清,43歲的"老實人"王寶強,還是沒逃出"女人圈"

      趣知史館
      2026-03-10 20:20:03
      特朗普“混亂”講話,引發全球股市巨震!滬指險守3900點,接下來思路是什么?

      特朗普“混亂”講話,引發全球股市巨震!滬指險守3900點,接下來思路是什么?

      每經牛眼
      2026-04-02 15:32:23
      和老伴去遼寧興城住了1個月,我實話實說:跟想象中完全不一樣

      和老伴去遼寧興城住了1個月,我實話實說:跟想象中完全不一樣

      西莫的藝術宮殿
      2026-04-02 12:10:03
      小哈梅內伊的下落,突然被俄羅斯曝光,普京送特朗普一個關鍵機會

      小哈梅內伊的下落,突然被俄羅斯曝光,普京送特朗普一個關鍵機會

      滄海旅行家
      2026-04-02 13:34:22
      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      林青霞親口爆料:當年我全裸給他看,他卻嚇得扭頭就跑!

      達文西看世界
      2026-03-04 15:07:30
      刀都架脖子上了!親美派準備上位,連戰3天攔截,強行保下蕭旭岑

      刀都架脖子上了!親美派準備上位,連戰3天攔截,強行保下蕭旭岑

      策略述
      2026-04-01 16:16:53
      為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

      為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

      侃神評故事
      2026-03-10 18:50:04
      CCTV5+直播,銅梁龍延續黑馬本色,王鈺棟PK向余望,浙江追擊前三

      CCTV5+直播,銅梁龍延續黑馬本色,王鈺棟PK向余望,浙江追擊前三

      替補席看球
      2026-04-02 13:46:38
      趙姬咽氣前拉著嬴政衣袖嘶吼:你爹不是呂不韋!三大秘密終曝光

      趙姬咽氣前拉著嬴政衣袖嘶吼:你爹不是呂不韋!三大秘密終曝光

      千秋文化
      2026-02-14 20:35:30
      歷史竟開了個玩笑:先倒下的不是烏克蘭,而是百年中立的瑞士?

      歷史竟開了個玩笑:先倒下的不是烏克蘭,而是百年中立的瑞士?

      通鑒史智
      2026-04-02 10:27:20
      15.99萬起!廣汽官宣:新車首次降價

      15.99萬起!廣汽官宣:新車首次降價

      高科技愛好者
      2026-04-01 23:01:53
      別把股民當傻子!滬指尾盤拉升,AI算力板塊大跌超-3%

      別把股民當傻子!滬指尾盤拉升,AI算力板塊大跌超-3%

      財報翻譯官
      2026-04-02 15:22:47
      色情網站“丁香”覆滅記:7.3億瀏覽量的背后,是誰在操控盈利?

      色情網站“丁香”覆滅記:7.3億瀏覽量的背后,是誰在操控盈利?

      談史論天地
      2026-02-08 20:30:04
      2000km續航!比亞迪新車今天上市

      2000km續航!比亞迪新車今天上市

      手機評測室
      2026-04-02 11:50:58
      2選1!里夫斯站上運十字路口:去達拉斯組三巨頭,還是留湖人沖冠

      2選1!里夫斯站上運十字路口:去達拉斯組三巨頭,還是留湖人沖冠

      體育閑話說
      2026-04-02 10:26:27
      世界杯冠軍點兵!阿根廷名單已定22席:梅西領銜 還差4人

      世界杯冠軍點兵!阿根廷名單已定22席:梅西領銜 還差4人

      葉青足球世界
      2026-04-02 15:31:43
      西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

      西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

      壹家言
      2026-03-31 11:04:40
      楊丞琳成都演唱會:造型封神,青春大合唱

      楊丞琳成都演唱會:造型封神,青春大合唱

      東方不敗然多多
      2026-04-02 11:38:57
      吳佳尼心累,兩個兒子一年開支上百萬,64歲前夫馬景濤只提供學費

      吳佳尼心累,兩個兒子一年開支上百萬,64歲前夫馬景濤只提供學費

      話娛論影
      2026-03-30 20:57:14
      2026-04-02 17:35:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      健康
      藝術
      親子
      教育
      數碼

      干細胞抗衰4大誤區,90%的人都中招

      藝術要聞

      故人西辭黃鶴樓,煙花三月下揚州

      親子要聞

      輔酶q10備孕怎么吃?高齡備孕吃什么提高卵泡數量?

      教育要聞

      天府新區調整劃片后,利好不止這個片區

      數碼要聞

      中國芯片廠商占領本土近半市場 NVIDIA領先優勢大幅縮減

      無障礙瀏覽 進入關懷版