大家好,我是 AI 學習的老章
本公眾號介紹過多次:
Unsloth 出圈是 DeepSeek-R1 爆火的時候,它發布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 這個非常大的模型(它有 6710 億個參數,也就是 671B)通過“量化”把原本 720GB 的模型壓縮到只有 131GB 的大小。![]()
Unsloth 秘密武器是動態量化,核心思路是:對模型的少數關鍵層進行高質量的 4-6bit 量化,而對大部分相對沒那么關鍵的混合專家層(MoE)進行大刀闊斧的 1-2bit 量化。
動態 GGUF 量化技術
通過動態 GGUF 量化技術,像 DeepSeek-V3.1 (671B) 這樣的巨型語言模型(LLMs)可以被量化到僅1-bit或3-bit,但在 Aider Polyglot 等高難度基準測試中,其性能甚至能擊敗像 Claude-4-Opus 這樣的頂尖(SOTA)模型。
這標志著模型量化技術的一個重要突破:極低的比特數不再意味著性能的大幅犧牲。
![]()
Aider Polyglot Benchmarks
Aider Polyglot 是一個衡量 LLMs 在無需人工干預的情況下,進行寫作、編碼、遵循指令和應用變更能力的綜合性指標。它被認為是現實世界應用中最具挑戰性和價值的基準之一,因為它評估的是模型在復雜任務中的自主能力。關鍵成果速覽
Unsloth 團隊在對 DeepSeek-V3.1 進行動態量化后,得出了以下令人振奮的結果:
1-bit Unsloth 動態 GGUF:
體積: 將 DeepSeek-V3.1 從 671GB 壓縮至 192GB(**體積減少 75%**)。
性能: 在無思考模式下,性能超越了 GPT-4.1(2025 年 4 月版)、GPT-4.5 和 DeepSeek-V3-0324。
3-bit Unsloth 動態 GGUF:
性能: 在“思考模式”下,性能超越了 Claude-4-Opus。
5-bit Unsloth 動態 GGUF:
性能: 與 Claude-4-Opus(非思考模式)的性能相當。
普遍優勢: Unsloth 的動態 GGUF 在所有測試中,其表現始終優于其他非 Unsloth 的 imatrix GGUF 模型。
值得注意的是,其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么無法加載,要么產生亂碼,這凸顯了 Unsloth 動態量化方法的穩定性和有效性。
Aider 基準測試圖表
思考模式 (Thinking Mode)![]()
非思考模式 (Non-Thinking Mode)![]()
Unsloth 動態量化技術揭秘
Unsloth 動態量化的核心思想是“選擇性量化”:
將重要的層保留為 8 或 16-bit,非重要層則壓縮至 1、2、3、4、5 或 6-bit。
這種方法并非對模型的所有層“一視同仁”地進行壓縮。通過研究,Unsloth 發現模型中的某些張量(如attn_k_b)對量化操作極為敏感。將這些關鍵層保持在較高精度,同時將其他非關鍵層壓縮到極低位,可以在最小化性能損失的同時,最大化壓縮率。
例如,在 Qwen2-VL-2B-Instruct 案例中,簡單將所有層量化為 4 位會導致模型將下圖的火車誤認為海岸場景:
![]()
![]()
這種策略尤其對 MoE(Mixture of Experts)模型有效,現已成為 MoE 量化的事實標準。
結論
Unsloth 的動態量化技術證明,通過智能的、非均勻的量化策略,我們可以在大幅壓縮模型體積的同時,保持甚至超越 SOTA 模型的性能。這使得在本地消費級硬件上運行高性能的巨型模型成為可能,為 AI 社區和開發者帶來了巨大的價值。對于追求本地化、低成本部署高性能模型的用戶來說,Unsloth 的動態量化模型無疑是當前最值得關注的方案之一。
更多圖表
Gemma 3 & Llama 4 動態基準測試![]()
![]()
與其他量化方法的對比![]()
動態量化消融實驗![]()
Pass Rate 1 (非思考模式)![]()
參考:https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot
文末老章薦書
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.