網易首頁 > 網易號 > 正文申請入駐

神操作再現，單卡3090 起跑！Claude-4.6-Opus蒸餾Qwen3.5-27B

2026-03-12 22:32:11　來源: Ai學習的老章

北京舉報

分享至

，介紹了 TeichAI 將 Claude 的高階推理能力蒸餾進大模型的操作。今天再來介紹兩個最新的硬核蒸餾模型，這次的主角換成了Qwen3.5-27B加上地表最強邏輯王之一的 Claude Opus 4.6

核心就是用 Claude Opus 4.6 的“思維鏈”（Chain-of-Thought, CoT）高質量數據，去重新訓練（蒸餾） Qwen3.5-27B 這個 270 億參數的中等體量開源模型。不僅推理能力有了質的飛躍，最關鍵的是：單張 RTX 3090 或 4090 就能輕松跑起來！

1. Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

首先是 HuggingFace 用戶 Jackrong 做的開源版本，短短幾天已經在社區狂攬數萬次下載量。

它的訓練理念極其純粹：利用 Unsloth 框架，配合 LoRA（Rank=64），使用大概 3,280 條極高質量的 Claude Opus 4.6 推理數據進行監督微調（SFT）。有趣的是，作者使用了train_on_responses_only策略——強迫模型的 Loss 函數只在思考過程和最終答案上計算，完全屏蔽了中間的任務要求。借此逼著模型去死磕和模仿 Claude 那種深度結構化思考模式。

https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

模型在推理時，會主動開啟思維鏈：

 

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...

實測怎么跑最省錢？社區大佬分享，使用Q4_K_M量化版本：

顯存占用只有約 16.5 GB，手捏 24G 顯存的 3090 老玩家毫無壓力！
生成速度 29–35 tok/s，足夠絲滑。
保留完整長上下文，沒有像早前一些劣質微調那樣把注意力窗口閹割到 8k，它宣稱跑滿 262K 上下文沒有打折。
修復了官方模型在 Jinja 模板里不支持developerrole 導致的崩潰

而且這模型跟 AI 代碼智能體框架（如 Claude Code、OpenCode）天生一對，支持原生developer角色。實測中，它可以全自動在后臺跑上 9 分鐘，看報錯、修代碼、寫 README 一氣呵成，連中途死機卡頓的幾率都大幅降低。

2. TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill

上次我們提過的“模型煉丹師” TeichAI 也沒有閑著，幾乎同時發布了同系列的高質量底模。他們同樣基于unsloth/Qwen3.5-27B為基座，配合自己的過濾版數據集進行調教。

https://huggingface.co/TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill

相比其他的傻瓜包，TeichAI 非常貼心地給出了實戰跑模型的超參保姆級指南：

普通任務（思考模式）：溫度調滿 1.0，Top_P 0.95，Min_P 0.0，可以極大限度激發 AI 創意推理。
寫代碼/Web 開發（高精度防胡說模式）：溫度降到 0.6，同時存在懲罰（presence_penalty）設為 0.0，讓它死死咬住你的邏輯不跑偏。
輸出長度建議：普通對話放開到 32,768 tokens，如果是高難度編程競賽題，直接拉滿到 81,920 tokens，給思維鏈留下足夠揮灑的空間。

下圖就是模型卡里的對比圖：

TeichAI Benchmark

從模型卡里的表格看，TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill相比unsloth/Qwen3.5-27B，至少在下面這些指標上是有提升的：

蒸餾的得與失

所以你會發現，這條線其實已經不是單點開花了，而是在慢慢形成一個“Claude reasoning distill 數據集 + Qwen 底座 + Unsloth 微調”的公開玩法。

萬事皆有代價，享受了極強的單體思維能力，也要承受某些缺失。原版 Qwen3.5-27B 的多模態技能在這些微調版上蕩然無存，這類蒸餾版目前專攻純代碼、純數學計算和重度邏輯推理場景。再加上由于是早期發布，相關的 prompt 模板生態還不算完美，偶爾可能會有些排版錯位的外殼 bug。

感興趣可以去弄個 GGUF 跑跑，看它是不是真的能平替掉某些時候昂貴的云端 API。

-Opus

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.