Qwen3.5 系列繼續:
上篇文章介紹了 Jackrong 和 TeichAI 兩個團隊做的 Claude Opus 4.6 蒸餾版 Qwen3.5-27B,發完之后好多網友在評論區催我:光說不練假把式,能不能實際跑一下?
今天就拿 Jackrong 放出的GGUF 量化版,用 LM Studio 在本地實測一把,看看這個號稱"平替 Opus"的蒸餾模型到底幾斤幾兩。
![]()
我選擇 Jackrong 的版本,原因無他,開發者用腳投票,它曾經登錄過 Huggingface 熱榜第一
![]()
熱榜第一.png
2B、9B、27B、35B 都有,豐儉由人了可以說
其中 2B 版本模型文件只有 2GB
![]()
https://modelscope.cn/models/Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
Q4_K_M 只有 1.2GB
![]()
這個大家別試了,很多任務都無法完成,給他現成的 Skills 也不行
![]()
接入到 Claude Code
![]()
它花了 8 分鐘才找全可用 skills,指定了也無法完全調用
![]()
一定要說優點:它是 256K 上下文,而且有 Vision 能力,生成速度 40+t/s
![]()
還有它翻譯還可以
![]()
也不精神錯亂
![]()
9B 版本 6GB
我是 16G 的 MacMini M4
所以本文只測試了 2B 和 9B
我建議大家能力尚可 從 27B 開始,我的機器其實也可以上 27B Q3,但是下載,測試,太耗時了,我幾乎半天都耗在測試了,時長氣的腦仁疼
![]()
35-A3B 36GB,這也是為何它干不過 27B 的原因之一
![]()
為什么選 GGUF + LM Studio?
GGUF是目前本地部署大模型最主流的格式,基于 llama.cpp 生態,對 CPU 和消費級 GPU 都非常友好。相比原始的 safetensors 權重動輒 50+GB,GGUF 量化后最低 10GB 就能跑 27B 模型,這才是我們普通玩家的菜。
LM Studio就不用多介紹了吧,之前專門寫過一篇
一句話概括:圖形界面一鍵下載運行 + OpenAI/Anthropic 雙兼容 API + CLI 命令行 + 遠程 LM Link,從小白到開發者全覆蓋。
用它來測模型,門檻最低、體驗最好
模型概覽
Jackrong 在 HuggingFace 上放出了27B完整的 GGUF 量化家族:
量化版本
文件大小
顯存占用(估算)
推薦場景
Q2_K
10.1 GB
~12 GB
極致省內存,精度有損
Q3_K_S
12.1 GB
~14 GB
內存緊張時的折中選擇
Q3_K_M
13.3 GB
~15 GB
Q3 里精度最好的
Q4_K_S
15.6 GB
~17 GB
性價比之選
Q4_K_M
16.5 GB
~18 GB
精度與體積最佳平衡Q8_0
28.6 GB
~30 GB
追求精度,顯存充裕時用
社區大佬 @ 在單卡 RTX 3090(24GB 顯存)上實測 Q4_K_M 版本的數據:
顯存占用約 16.5 GB,3090/4090 毫無壓力
生成速度 29–35 tok/s,日常使用足夠絲滑
完整保留 262K 上下文窗口,沒有打折
修復了官方模型 Jinja 模板不支持
developerrole 的崩潰問題
我的建議:閉眼選 Q4_K_M。24GB 顯存的卡(3090/4090)輕松裝下,精度損失可以忽略。如果你是 Mac 用戶,統一內存 32GB 以上也能跑。
本文測試 9B 實屬無奈
Jackrong 的蒸餾版有什么特別的?
回顧一下上篇文章講過的核心要點
這個模型的訓練方法很"暴力":
數據來源:大約 3,280 條高質量的 Claude Opus 4.6 推理數據,外加 TeichAI 和 Jackrong 自己整理的補充數據集
訓練策略:
train_on_responses_only——Loss 只在思考過程和最終答案上計算,逼模型去模仿 Claude 那種深度結構化思考微調方式:Unsloth + LoRA(Rank=64),非常高效
蒸餾完的模型在推理時會主動展開思維鏈:
Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...
和原版 Qwen3.5-27B 容易在簡單問題上"繞圈子"不同,這個蒸餾版學到了 Claude 的風格——先分析、再拆解、再執行,推理效率明顯更高。
而且社區測試發現,它在 AI 代碼智能體場景(Claude Code、OpenCode)中表現極其穩定:連續自主運行超過 9 分鐘不中斷,能自動讀報錯、改代碼、寫 README,中途不卡頓不死機。
這一點確實可以,2B/9B 版都能做到。
原版模型在這種場景下經常半途卡住,差距很明顯。
LM Studio 部署步驟
用 LM Studio 跑這個模型,總共就三步:
第一步:下載模型
打開 LM Studio,在搜索欄直接搜索Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF,或者在 Discover 頁面找到它。
![]()
如果你更喜歡命令行,也可以用lmsCLI:
lms get Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF --file Qwen3.5-9B.Q4_K_M.gguf
或者用 huggingface-cli 手動下載到 LM Studio 的模型目錄:
huggingface-cli download Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF \
--include "Qwen3.5-9B.Q4_K_M.gguf" \
--local-dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
網絡不通可以使用 modelscope
第二步:加載模型pip install modelcope
modelscope download --model Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-9B.Q4_K_M.gguf --local_dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
下載完成后,在 LM Studio 左側模型列表中找到它,點擊加載
加載時建議調整幾個參數:
GPU Offload:拉滿(如果你有獨立 GPU)
Context Length:先設 8192 或 16384 試試,夠用再加,我上 262144
Max Concurrent Predictions:保持默認 1 即可
加載完成后直接在 Chat 界面對話
模型會自動啟用思維鏈模式,你會看到
...
標簽包裹的推理過程。
我用看家測試題目,背影閱讀理解+svg 代碼生成+審美測試題測它
令我吃驚的是,它完全可以理解到
![]()
就是速度差點意思,13t/s
這是曾經一種旗艦模型都可能滑鐵盧的
![]()
生成的 svg 也只能說能看吧
![]()
進階:當 API 服務器用
LM Studio 加載模型后,點擊左側的Developer標簽,開啟本地服務器(默認端口 1234)。然后你就能用 OpenAI SDK 直接調用:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lmstudio"
)
response = client.chat.completions.create(
model="Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF",
messages=[
{"role": "user", "content": "用Python寫一個LRU緩存,要求線程安全"}
],
temperature=0.6,
top_p=0.95,
max_tokens=8192
)print(response.choices[0].message.content)
甚至可以直接對接 Claude Code:
"ANTHROPIC_AUTH_TOKEN": "lm-studio-local",
"ANTHROPIC_BASE_URL": "http://localhost:1234",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled"
本地蒸餾模型驅動 Claude Code,白嫖到底,就問你香不香。
![]()
工具調用能力
請在當前目錄下創建一個名為 debug_test.py 的 Python 腳本,代碼內容是計算 1 到 10
的平均值,但請在代碼中故意留下一個邏輯錯誤(比如除以 或者變量名寫錯)。接著運行這個腳本,捕獲錯誤日志,分析原因并自動修復它,最后再次運行以確保輸出正確的平均值
結果write_file、run_shell_command、read_file、write_file、run_shell_command一路下來都是 ok 的
![]()
能不能干點稍微重點的活兒呢?
有點難,比如查找 skills 調用 skills
看起來是瞎編的
![]()
本地有的 他也要 web search
![]()
除非你特殊強調
![]()
它很慢,又特別能思考,我實在沒有精力等下去了,一下午荒廢了。。。
算是幫大家踩過了,看的腦仁疼
總結
可以玩玩,但是能力有限,需要勞心費神
或許 27B 會好很多,至少評論區這么說
再挖個坑吧
![]()
-Opus .5
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.