,介紹了 TeichAI 將 Claude 的高階推理能力蒸餾進大模型的操作。今天再來介紹兩個最新的硬核蒸餾模型,這次的主角換成了Qwen3.5-27B加上地表最強邏輯王之一的 Claude Opus 4.6
核心就是用 Claude Opus 4.6 的“思維鏈”(Chain-of-Thought, CoT)高質量數據,去重新訓練(蒸餾) Qwen3.5-27B 這個 270 億參數的中等體量開源模型。不僅推理能力有了質的飛躍,最關鍵的是:單張 RTX 3090 或 4090 就能輕松跑起來!
1. Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
首先是 HuggingFace 用戶 Jackrong 做的開源版本,短短幾天已經在社區狂攬數萬次下載量。
它的訓練理念極其純粹:利用 Unsloth 框架,配合 LoRA(Rank=64),使用大概 3,280 條極高質量的 Claude Opus 4.6 推理數據進行監督微調(SFT)。有趣的是,作者使用了train_on_responses_only策略——強迫模型的 Loss 函數只在
思考過程和最終答案上計算,完全屏蔽了中間的任務要求。借此逼著模型去死磕和模仿 Claude 那種深度結構化思考模式。
![]()
https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
模型在推理時,會主動開啟思維鏈:
Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...
實測怎么跑最省錢?社區大佬分享,使用Q4_K_M量化版本:
顯存占用只有約 16.5 GB,手捏 24G 顯存的 3090 老玩家毫無壓力!
生成速度 29–35 tok/s,足夠絲滑。
保留完整長上下文,沒有像早前一些劣質微調那樣把注意力窗口閹割到 8k,它宣稱跑滿 262K 上下文沒有打折。
修復了官方模型在 Jinja 模板里不支持
developerrole 導致的崩潰
而且這模型跟 AI 代碼智能體框架(如 Claude Code、OpenCode)天生一對,支持原生developer角色。實測中,它可以全自動在后臺跑上 9 分鐘,看報錯、修代碼、寫 README 一氣呵成,連中途死機卡頓的幾率都大幅降低。
2. TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill
上次我們提過的“模型煉丹師” TeichAI 也沒有閑著,幾乎同時發布了同系列的高質量底模。他們同樣基于unsloth/Qwen3.5-27B為基座,配合自己的過濾版數據集進行調教。
![]()
https://huggingface.co/TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill
相比其他的傻瓜包,TeichAI 非常貼心地給出了實戰跑模型的超參保姆級指南:
普通任務(思考模式):溫度調滿 1.0,Top_P 0.95,Min_P 0.0,可以極大限度激發 AI 創意推理。
寫代碼/Web 開發(高精度防胡說模式):溫度降到 0.6,同時存在懲罰(presence_penalty)設為 0.0,讓它死死咬住你的邏輯不跑偏。
輸出長度建議:普通對話放開到 32,768 tokens,如果是高難度編程競賽題,直接拉滿到 81,920 tokens,給思維鏈留下足夠揮灑的空間。
下圖就是模型卡里的對比圖:
![]()
TeichAI Benchmark
從模型卡里的表格看,TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill相比unsloth/Qwen3.5-27B,至少在下面這些指標上是有提升的:
![]()
蒸餾的得與失
所以你會發現,這條線其實已經不是單點開花了,而是在慢慢形成一個“Claude reasoning distill 數據集 + Qwen 底座 + Unsloth 微調”的公開玩法。
萬事皆有代價,享受了極強的單體思維能力,也要承受某些缺失。原版 Qwen3.5-27B 的多模態技能在這些微調版上蕩然無存,這類蒸餾版目前專攻純代碼、純數學計算和重度邏輯推理場景。再加上由于是早期發布,相關的 prompt 模板生態還不算完美,偶爾可能會有些排版錯位的外殼 bug。
感興趣可以去弄個 GGUF 跑跑,看它是不是真的能平替掉某些時候昂貴的云端 API。
-Opus
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.