<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      最近很熱門的oMLX,Mac端大模型本地部署新選擇,Claude-Opus-4.6 蒸餾版 Qwen3.5-9B 實測

      0
      分享至

      oMLX 走的是 Apple Silicon + MLX 這條路,Windows 和 NVIDIA 這邊的朋友,這篇先看看熱鬧就好

      前文,評論區好幾個兄弟推薦測試 oMLX:

      • 博主有時間可以研究一下oMLX這個替代 LM Studio,據說比 lm 快很多倍。

      • 聽說 omlx 比 lm studio 更好用些,占用內存更小,有沒有嘗試部署一下?

      • 有大佬做成適合 omlx 跑的 fp8 量化版了,大概 10G,可以試試。同樣機器配置,換用了 oMLX 跑 qwen3.5 9b MLX Q4 版,利落了些,15token 左右吧。雖然回復慢,但還能用。而 ollama 跑就卡頓的很。

      花半天玩了一下,先看大家最關心的測試情況:

      • oMLX 有很多亮點,UI、菜單欄、管理后臺儀表板,Chat 頁面都很漂亮,底層有 SSD KV 緩存、設置熱緩存、支持 MCP、一鍵對接各種 AI Coding Agent,OpenAI/Anthropic 兼容接口、針對 Claude Code 優化等

      • 單請求生成速度約 20 token/s,峰值顯存/統一內存占用約 5.7GB

      • 無法硬跑 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit,LM Studio 可以強跑,但只能加載,執行任務直接徹底卡死

      安裝、配置、使用教程

      安裝后直接進入 Perference,自定義模型位置,端口號

      模型位置后面我把他改到了外接移動硬盤


      菜單欄確實方便,一鍵啟停 server、進入管理后臺,進入聊天界面


      先要進入模型 tab 然后點下載器


      下面的瀏覽模型可以直接看能否支持當前主機


      下載速度極慢,后來我換成了 modelcope


      感覺也有 bug,直接從上面下載,他會默認下載整個項目下的不同精度模型,而我只需要 Q4


      27B 我也下了


      沒有選擇 Jackrong 原版,主要是被 mlx-community 這句話吸引了


      但是 27B 最低使得 24 GB 及以上統一內存的 Mac 都能運行該模型,且還有足夠空間容納大型上下文窗口,推薦是 32GB

      官方測試數據:

      Metric

      Result

      Model load time

      2.4 seconds

      Prompt ingestion

      86.5 tokens/sec

      Generation speed

      15.7 tokens/sec

      Peak RAM usage

      15.6 GB

      Bit-rate

      4.501 bits/weight

      Final size

      14 GB (3 shards)

      下載過程中進入設置頁


      資源管理這里可以控制內存占用情況,


      下載完畢,可以選擇在設置 - 模型設置中啟動,剛開始居然沒找到哪里加載


      聊天頁面,很清爽


      儀表盤會記錄模型運行情況


      現在往下也能把啟動的模型一見接入到 Codex、OpenCode、OpenClaw


      它還可以做基準測試


      32K 單請求測試,電腦已經有點卡了,TTFT 高的離譜,TPS 只有 11

      測試

      TTFT (ms)

      TPOT (ms/tok)

      pp TPS

      tg TPS

      端到端延遲

      吞吐量

      峰值內存

      pp32768/tg128

      187.4 tok/s

      11.8 tok/s

      185.686s

      177.2 tok/s

      9.06 GB

      單請求 + 批處理能力沒敢開高,tg TPS 20.2 tok/s。輸入拉長到 4096 token 后 TTFT 從 4.8s 變成 18.8s,tg TPS 還在 19.8 tok/s,幾乎沒掉,Peak Mem 從 5.66 GB 到 6.40 GB

      并發到 2-4 路時總吞吐提升明顯,但 8 路已經接近平臺上限,延遲代價很大。


      依舊測試閱讀理解+SVG 代碼生成 + 審美

      感覺不穩了,需要抽卡


      重新嘗試可以識別到四次,svg 寫的很丑


      讓其優化之后,它的腦回路讓我想笑,它直接設計了模擬人物動作,完全偏離了主題


      27B 無法跑起來

      改了 N 多配置都不行,有高手可以出出主意

      我要換 32G 的 Mac 了


      但是 LM Studio 就可以用 option 按鍵強跑,只是無法執行任務,機器卡死


      其他再說說

      看了官方文檔,再說幾個 oMLX 的亮點,可是我都沒嘗試

      1. 連續批處理

      它基于mlx-lmBatchGenerator做并發處理,首頁給了一組非常直觀的 benchmark,機器是 M3 Ultra 512GB,模型是 Qwen3.5-122B-A10B-4bit:

      • 單請求、8k 上下文時,Prompt 處理速度能到941 tok/s

      • Token 生成速度大約54.0 tok/s

      • 8x連續批處理下,總吞吐能到190.2 tok/s

      • 對應3.36 倍吞吐提升

      • 內存占用峰值 73 GB

      另一組我很關注的數據是Qwen3-Coder-Next-8bit

      • 8k 上下文時,Prompt 處理速度2009 tok/s

      • 8x批處理總吞吐243.3 tok/s

      • 加速比來到4.14 倍

      • 內存占用峰值 85GB

      2. Claude Code 優化

      README 里有一句:

      支持在 Claude Code 中使用較小上下文模型的上下文縮放。通過縮放上報的 Token 數量,讓自動壓縮在合適的時機觸發,同時提供 SSE keep-alive 防止長時間預填充導致的讀取超時。

      官方給出的方向主要有兩個:

      • 通過上下文縮放,讓較小上下文模型在 Claude Code 里更容易觸發合適的自動壓縮時機

      • 通過 SSE keep-alive,降低長時間 prefill 時讀超時的風險

      它本身還支持:

      • OpenAI 兼容接口:http://localhost:8000/v1

      • Anthropic 兼容接口:POST /v1/messages

      • 工具調用

      • MCP 集成

      3. 多模型服務

      它在同一服務里支持:

      • 文本 LLM

      • VLM

      • OCR 模型

      • Embedding

      • Reranker

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      愛競彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說財經
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      簡史檔案館
      2026-04-02 11:05:03
      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      深析古今
      2026-04-01 21:52:44
      金價徹底爆了!

      金價徹底爆了!

      新浪財經
      2026-04-02 10:04:40
      現在教育最大的問題是:大多數學生根本就不想學習。

      現在教育最大的問題是:大多數學生根本就不想學習。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      新京報
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      混沌錄
      2026-04-01 20:37:15
      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      清風拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      蜉蝣說
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      房產
      手機
      數碼
      時尚
      公開課

      房產要聞

      大反轉!海口今年首宗重磅江景地塊,拍賣突然終止!

      手機要聞

      一加首發魔改版天璣9500:直接修改GPU底層調度 性能大爆發

      數碼要聞

      中國芯片廠商占領本土近半市場 NVIDIA領先優勢大幅縮減

      女人有沒有品位看看穿搭就知道,這些造型值得借鑒,溫柔高級

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版