網易首頁 > 網易號 > 正文申請入駐

實測 Claude-Opus-4.6蒸餾版Qwen3.5，9B 已能打，用LM-Studio本地跑，對接 Claude Code

2026-03-16 20:27:47　來源: Ai學習的老章

北京舉報

分享至

Qwen3.5 系列繼續：

上篇文章介紹了 Jackrong 和 TeichAI 兩個團隊做的 Claude Opus 4.6 蒸餾版 Qwen3.5-27B，發完之后好多網友在評論區催我：光說不練假把式，能不能實際跑一下？

今天就拿 Jackrong 放出的GGUF 量化版，用 LM Studio 在本地實測一把，看看這個號稱"平替 Opus"的蒸餾模型到底幾斤幾兩。

我選擇 Jackrong 的版本，原因無他，開發者用腳投票，它曾經登錄過 Huggingface 熱榜第一

熱榜第一.png

2B、9B、27B、35B 都有，豐儉由人了可以說

其中 2B 版本模型文件只有 2GB

https://modelscope.cn/models/Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Q4_K_M 只有 1.2GB

這個大家別試了，很多任務都無法完成，給他現成的 Skills 也不行

接入到 Claude Code

它花了 8 分鐘才找全可用 skills，指定了也無法完全調用

一定要說優點：它是 256K 上下文，而且有 Vision 能力，生成速度 40+t/s

還有它翻譯還可以

也不精神錯亂

9B 版本 6GB

我是 16G 的 MacMini M4

所以本文只測試了 2B 和 9B

我建議大家能力尚可從 27B 開始，我的機器其實也可以上 27B Q3，但是下載，測試，太耗時了，我幾乎半天都耗在測試了，時長氣的腦仁疼

35-A3B 36GB，這也是為何它干不過 27B 的原因之一

為什么選 GGUF + LM Studio？

GGUF是目前本地部署大模型最主流的格式，基于 llama.cpp 生態，對 CPU 和消費級 GPU 都非常友好。相比原始的 safetensors 權重動輒 50+GB，GGUF 量化后最低 10GB 就能跑 27B 模型，這才是我們普通玩家的菜。

LM Studio就不用多介紹了吧，之前專門寫過一篇

一句話概括：圖形界面一鍵下載運行 + OpenAI/Anthropic 雙兼容 API + CLI 命令行 + 遠程 LM Link，從小白到開發者全覆蓋。

用它來測模型，門檻最低、體驗最好

模型概覽

Jackrong 在 HuggingFace 上放出了27B完整的 GGUF 量化家族：

量化版本

文件大小

顯存占用（估算）

推薦場景

Q2_K

10.1 GB

~12 GB

極致省內存，精度有損

Q3_K_S

12.1 GB

~14 GB

內存緊張時的折中選擇

Q3_K_M

13.3 GB

~15 GB

Q3 里精度最好的

Q4_K_S

15.6 GB

~17 GB

性價比之選

Q4_K_M

16.5 GB

~18 GB

精度與體積最佳平衡Q8_0

28.6 GB

~30 GB

追求精度，顯存充裕時用

社區大佬 @ 在單卡 RTX 3090（24GB 顯存）上實測 Q4_K_M 版本的數據：

顯存占用約 16.5 GB，3090/4090 毫無壓力
生成速度 29–35 tok/s，日常使用足夠絲滑
完整保留 262K 上下文窗口，沒有打折
修復了官方模型 Jinja 模板不支持developerrole 的崩潰問題

我的建議：閉眼選 Q4_K_M。24GB 顯存的卡（3090/4090）輕松裝下，精度損失可以忽略。如果你是 Mac 用戶，統一內存 32GB 以上也能跑。

本文測試 9B 實屬無奈

Jackrong 的蒸餾版有什么特別的？

回顧一下上篇文章講過的核心要點

這個模型的訓練方法很"暴力"：

數據來源：大約 3,280 條高質量的 Claude Opus 4.6 推理數據，外加 TeichAI 和 Jackrong 自己整理的補充數據集
訓練策略：train_on_responses_only——Loss 只在思考過程和最終答案上計算，逼模型去模仿 Claude 那種深度結構化思考
微調方式：Unsloth + LoRA（Rank=64），非常高效

蒸餾完的模型在推理時會主動展開思維鏈：

 

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...

和原版 Qwen3.5-27B 容易在簡單問題上"繞圈子"不同，這個蒸餾版學到了 Claude 的風格——先分析、再拆解、再執行，推理效率明顯更高。

而且社區測試發現，它在 AI 代碼智能體場景（Claude Code、OpenCode）中表現極其穩定：連續自主運行超過 9 分鐘不中斷，能自動讀報錯、改代碼、寫 README，中途不卡頓不死機。

這一點確實可以，2B/9B 版都能做到。

原版模型在這種場景下經常半途卡住，差距很明顯。

LM Studio 部署步驟

用 LM Studio 跑這個模型，總共就三步：

第一步：下載模型

打開 LM Studio，在搜索欄直接搜索Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF，或者在 Discover 頁面找到它。

如果你更喜歡命令行，也可以用lmsCLI：

lms get Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF --file Qwen3.5-9B.Q4_K_M.gguf

或者用 huggingface-cli 手動下載到 LM Studio 的模型目錄：

huggingface-cli download Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF \
  --include "Qwen3.5-9B.Q4_K_M.gguf" \
  --local-dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

網絡不通可以使用 modelscope

pip install modelcope
modelscope download --model Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-9B.Q4_K_M.gguf --local_dir  ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

第二步：加載模型

下載完成后，在 LM Studio 左側模型列表中找到它，點擊加載

加載時建議調整幾個參數：

GPU Offload：拉滿（如果你有獨立 GPU）
Context Length：先設 8192 或 16384 試試，夠用再加，我上 262144
Max Concurrent Predictions：保持默認 1 即可

第三步：開聊

加載完成后直接在 Chat 界面對話

模型會自動啟用思維鏈模式，你會看到...標簽包裹的推理過程。

我用看家測試題目，背影閱讀理解+svg 代碼生成+審美測試題測它

令我吃驚的是，它完全可以理解到

就是速度差點意思，13t/s

這是曾經一種旗艦模型都可能滑鐵盧的

生成的 svg 也只能說能看吧

進階：當 API 服務器用

LM Studio 加載模型后，點擊左側的Developer標簽，開啟本地服務器（默認端口 1234）。然后你就能用 OpenAI SDK 直接調用：

from openai import OpenAI

 client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lmstudio"
)

 response = client.chat.completions.create(
    model="Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF",
    messages=[
        {"role": "user", "content": "用Python寫一個LRU緩存，要求線程安全"}
    ],
    temperature=0.6,
    top_p=0.95,
    max_tokens=8192
)

 print(response.choices[0].message.content)

甚至可以直接對接 Claude Code：

    "ANTHROPIC_AUTH_TOKEN": "lm-studio-local",
    "ANTHROPIC_BASE_URL": "http://localhost:1234",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
    "ANTHROPIC_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled"

本地蒸餾模型驅動 Claude Code，白嫖到底，就問你香不香。

工具調用能力

請在當前目錄下創建一個名為 debug_test.py 的 Python 腳本，代碼內容是計算 1 到 10
的平均值，但請在代碼中故意留下一個邏輯錯誤（比如除以 或者變量名寫錯）。接著運行這個腳本，捕獲錯誤日志，分析原因并自動修復它，最后再次運行以確保輸出正確的平均值

結果write_file、run_shell_command、read_file、write_file、run_shell_command一路下來都是 ok 的

能不能干點稍微重點的活兒呢？

有點難，比如查找 skills 調用 skills

看起來是瞎編的

本地有的他也要 web search

除非你特殊強調

它很慢，又特別能思考，我實在沒有精力等下去了，一下午荒廢了。。。

算是幫大家踩過了，看的腦仁疼

總結

可以玩玩，但是能力有限，需要勞心費神

或許 27B 會好很多，至少評論區這么說

再挖個坑吧

-Opus .5

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.