<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Mac 用戶本地跑大模型,這可能是目前最能打的方案

      0
      分享至

      關于本地部署和量化,我之前寫過不少:

      今天聊一套讓我眼前一亮的東西——來自同一個團隊的三件套:JANG + vMLX + MLX Studio,這可能是目前最能打的方案

      它們仨是啥關系?

      先別被三個名字搞暈了

      如果你玩過 PC 端的 GGUF + llama.cpp + Open WebUI,這三個的關系你一眼就懂:

      層次

      PC 端類比

      Mac 端(這套)

      量化格式

      GGUF

      JANG

      推理引擎

      llama.cpp

      vMLX

      桌面應用

      Open WebUI

      MLX Studio

      簡單說:JANG 把大模型壓小,vMLX 把它跑快,MLX Studio 給你一個漂亮的界面。三件套,一條龍。

      JANG:MLX 的量化救星

      先聊最底層的 JANG,官方管自己叫"The GGUF for MLX"

      說白了,就是一種混合精度量化方案

      普通量化對所有參數一刀切,但模型里的 Attention 層對精度極其敏感,切太狠直接出 NaN(無效數值),模型就廢了

      JANG 的聰明之處在于:對不同層給不同精度

      • Attention 層:保留 5~8 bit(不敢動)

      • MLP 層:壓到 2~4 bit(這里水分多,使勁壓)

      • 平均額外開銷:只多 0.3 bit

      效果有多猛?看這組數據——230B 參數的 MiniMax M2.5 為例:

      量化方式

      大小

      MMLU(200 題)

      JANG_2L(2bit 混合)82.5 GB74%

      MLX 4-bit

      119.8 GB

      26.5%

      MLX 3-bit

      93 GB

      24.5%

      MLX 2-bit

      68 GB

      25%

      MLX 在各種 bit 下都只有 25% 左右——純隨機猜測水平,模型等于報廢了。JANG 的 2bit 混合版不但活得好好的,還拿了 74%,體積反而更小。

      這差距也太離譜了


      更夸張的是 397B 參數的 Qwen3.5:

      • JANG_1L:112 GB,塞進 128 GB MacBook Pro,MMLU 86.5%

      • MLX 2-bit / 3-bit:NaN,直接寄

      • MLX 4-bit:需要約 280 GB,地球上沒幾臺 Mac 裝得下

      397B 模型在筆記本上跑起來了——這句話放兩年前說出來怕是要被當成瘋子。


      所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上,下載即用。想自己量化的話,代碼在 github.com/jjang-ai/jangq,Apache 2.0 開源。

      vMLX:100K 上下文快 224 倍

      有了好的量化模型,還得有個快引擎

      vMLX 就是干這個的

      安裝極簡:

      pip install vmlx
      vmlx serve mlx-community/Qwen3-8B-4bit

      啟動后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API,Claude Code、Anthropic SDK 這些客戶端都能直接接


      vMLX 最硬核的賣點是它的五層緩存棧——其他 Mac 端引擎最多有一兩層,vMLX 全給你堆滿了:

      1. 前綴緩存:對話中重復的部分只算一次

      2. 分頁 KV 緩存:多個對話同時駐留,切換不驅逐

      3. KV 緩存量化:q4/q8 壓縮,節省 4~8 倍內存

      4. 持續批處理:最多 256 個并發序列

      5. 磁盤緩存:重啟后立即恢復,不用重新算

      五層疊加的結果就是,首個 Token 的響應速度碾壓同類:

      上下文長度

      vMLX

      其他引擎

      快多少

      2.5K

      0.05s

      0.49s

      9.7×

      10K

      0.08s

      6.12s

      76×

      100K

      0.65s

      131s

      224×

      100K 上下文,別的引擎要等兩分多鐘,vMLX 不到一秒。我第一反應是"不可能",但這是實測的 TTFT(Time to First Token),五層緩存疊加確實恐怖。

      除了緩存,還有幾個值得一提的特性:

      • 推測解碼:小模型打草稿 + 大模型驗證,提速 20~90%

      • Mamba / SSM 混合架構支持:Nemotron-H 這些奇葩架構只有 vMLX 能跑

      • 20+ 內置 Agent 工具:文件讀寫、代碼搜索、Shell 執行、Git 操作、網頁搜索——全部本地運行

      最后這點很有意思。vMLX 是目前唯一把 Agentic 工具內置到本地引擎里的方案,不用額外配 MCP 服務器,模型直接就能讀文件、執行命令、搜索代碼庫。這個思路比 Ollama、LM Studio 激進得多。


      項目地址:github.com/jjang-ai/vmlx,Apache 2.0 開源。

      MLX Studio:不碰命令行也能玩

      如果你覺得命令行太折騰,MLX Studio就是給你準備的——vMLX 引擎的完整 GUI 應用,永久免費。


      MLX Studio 主界面——聊天、Agent 工具、圖像生成一體化

      該有的全有了:

      對話:流式多輪對話、折疊式思維鏈展示(DeepSeek R1、Qwen3、GLM)、拖拽圖片做視覺分析、語音朗讀回復。

      圖像生成:5 個生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)+ 4 個編輯模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地跑,零 API 費用。

      模型管理:內置 HuggingFace 瀏覽器一鍵下載、GGUF → MLX 轉換器(支持 JANG 混合精度)、菜單欄快捷切換模型。

      API 集成:同時提供 OpenAI 和 Anthropic 端點,支持 Claude Code 等客戶端直接對接。原生 MCP 支持,可以掛外部工具。


      老實說,從功能完整度來看,MLX Studio 比之前我試過的 oMLX 豐富不少,尤其是圖像生成和 Agent 工具這塊,oMLX 是沒有的。不過 oMLX 勝在輕量簡潔,兩者定位不太一樣。

      官網:mlx.studio

      總結

      這三件套解決的核心問題就一個:在 Apple Silicon Mac 上把本地 AI 的體驗拉滿。

      • JANG解決"裝不下"——128GB Mac 跑 397B 模型,MLX 標準量化做不到

      • vMLX解決"跑不快"——五層緩存棧,100K 上下文快 224 倍

      • MLX Studio解決"用不了"——圖文生成、語音對話、Agent 編程,一個 App 搞定

      三個項目全部 Apache 2.0 開源,全部免費。

      有 Mac 跑本地模型需求的朋友,真的值得試試。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      國運來了擋不住!我國發現世界最大"超巨型金礦床"、價值6000億

      愛競彩的小周
      2026-04-02 12:32:25
      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      收到中方賀電,金正恩很高興,回電感謝并做出重要決定。

      張嘴說財經
      2026-04-01 22:24:17
      太突然!他倆宣布離婚

      太突然!他倆宣布離婚

      廣州生活美食圈
      2026-04-01 19:01:31
      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      今麥郎董事長回應“手打掛面的‘手打’是商標”:該商標已用了20年,4月2日凌晨起停產相關產品

      封面新聞
      2026-04-02 05:07:12
      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      中方奉陪到底!沒等來日本道歉,高市卻掀桌了,突然亮出獠牙!

      娛樂的宅急便
      2026-04-01 14:42:42
      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

      界面新聞
      2026-04-02 08:36:22
      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      66歲陳永貴,退休后對秘書發脾氣,李先念下令:不許再給他送文件

      簡史檔案館
      2026-04-02 11:05:03
      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

      深析古今
      2026-04-01 21:52:44
      金價徹底爆了!

      金價徹底爆了!

      新浪財經
      2026-04-02 10:04:40
      現在教育最大的問題是:大多數學生根本就不想學習。

      現在教育最大的問題是:大多數學生根本就不想學習。

      李老師講最真教育
      2026-04-01 22:07:16
      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      山西柳林一飯店發現3人死亡 疑似煤氣中毒

      新京報
      2026-04-02 12:21:11
      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      李榮浩抄襲案逆轉? 網揪「時間軸證據」質疑說謊:版權公司根本沒倒

      ETtoday星光云
      2026-04-02 16:50:10
      女生主動起來有多黏人?網友:這些女的太開放了

      女生主動起來有多黏人?網友:這些女的太開放了

      帶你感受人間冷暖
      2026-01-27 00:20:06
      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      鄭麗文強援已到!美國竄訪團抵臺當天,北京出手,大陸來撐腰了

      混沌錄
      2026-04-01 20:37:15
      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      不能錯過!4月2日下午14:00比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-04-02 13:52:19
      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      社交潛規則:沒有人有義務透過你邋遢的外表,去發現你優秀的內在

      清風拂心
      2026-03-18 10:08:19
      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      香港演員施明去世,終年74歲,曾出演《倚天屠龍記》紫衫龍王,精通武術曾做史泰龍保鏢

      大象新聞
      2026-03-31 14:49:05
      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      天氣轉暖,醫生提醒冠心病患者:寧可多看看電視,也別隨意做5事

      岐黃傳人孫大夫
      2026-03-30 23:30:03
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      可樂談情感
      2026-03-29 15:16:24
      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      蜉蝣說
      2026-02-03 15:00:19
      2026-04-02 17:28:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      教育
      親子
      游戲
      本地
      公開課

      教育要聞

      天府新區調整劃片后,利好不止這個片區

      親子要聞

      輔酶q10備孕怎么吃?高齡備孕吃什么提高卵泡數量?

      嫌PS5太丑!玩家爆改:圓潤曲線被徹底削平 更硬朗

      本地新聞

      從學徒到世界冠軍,為什么說張雪的底氣在重慶?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版