大家好,我是 AI 學(xué)習(xí)的老章
本公眾號(hào)介紹過(guò)多次:
Unsloth 出圈是 DeepSeek-R1 爆火的時(shí)候,它發(fā)布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 這個(gè)非常大的模型(它有 6710 億個(gè)參數(shù),也就是 671B)通過(guò)“量化”把原本 720GB 的模型壓縮到只有 131GB 的大小。![]()
Unsloth 秘密武器是動(dòng)態(tài)量化,核心思路是:對(duì)模型的少數(shù)關(guān)鍵層進(jìn)行高質(zhì)量的 4-6bit 量化,而對(duì)大部分相對(duì)沒(méi)那么關(guān)鍵的混合專(zhuān)家層(MoE)進(jìn)行大刀闊斧的 1-2bit 量化。
動(dòng)態(tài) GGUF 量化技術(shù)
通過(guò)動(dòng)態(tài) GGUF 量化技術(shù),像 DeepSeek-V3.1 (671B) 這樣的巨型語(yǔ)言模型(LLMs)可以被量化到僅1-bit或3-bit,但在 Aider Polyglot 等高難度基準(zhǔn)測(cè)試中,其性能甚至能擊敗像 Claude-4-Opus 這樣的頂尖(SOTA)模型。
這標(biāo)志著模型量化技術(shù)的一個(gè)重要突破:極低的比特?cái)?shù)不再意味著性能的大幅犧牲。
![]()
Aider Polyglot Benchmarks
Aider Polyglot 是一個(gè)衡量 LLMs 在無(wú)需人工干預(yù)的情況下,進(jìn)行寫(xiě)作、編碼、遵循指令和應(yīng)用變更能力的綜合性指標(biāo)。它被認(rèn)為是現(xiàn)實(shí)世界應(yīng)用中最具挑戰(zhàn)性和價(jià)值的基準(zhǔn)之一,因?yàn)樗u(píng)估的是模型在復(fù)雜任務(wù)中的自主能力。關(guān)鍵成果速覽
Unsloth 團(tuán)隊(duì)在對(duì) DeepSeek-V3.1 進(jìn)行動(dòng)態(tài)量化后,得出了以下令人振奮的結(jié)果:
1-bit Unsloth 動(dòng)態(tài) GGUF:
體積: 將 DeepSeek-V3.1 從 671GB 壓縮至 192GB(**體積減少 75%**)。
性能: 在無(wú)思考模式下,性能超越了 GPT-4.1(2025 年 4 月版)、GPT-4.5 和 DeepSeek-V3-0324。
3-bit Unsloth 動(dòng)態(tài) GGUF:
性能: 在“思考模式”下,性能超越了 Claude-4-Opus。
5-bit Unsloth 動(dòng)態(tài) GGUF:
性能: 與 Claude-4-Opus(非思考模式)的性能相當(dāng)。
普遍優(yōu)勢(shì): Unsloth 的動(dòng)態(tài) GGUF 在所有測(cè)試中,其表現(xiàn)始終優(yōu)于其他非 Unsloth 的 imatrix GGUF 模型。
值得注意的是,其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么無(wú)法加載,要么產(chǎn)生亂碼,這凸顯了 Unsloth 動(dòng)態(tài)量化方法的穩(wěn)定性和有效性。
Aider 基準(zhǔn)測(cè)試圖表
思考模式 (Thinking Mode)![]()
非思考模式 (Non-Thinking Mode)![]()
Unsloth 動(dòng)態(tài)量化技術(shù)揭秘
Unsloth 動(dòng)態(tài)量化的核心思想是“選擇性量化”:
將重要的層保留為 8 或 16-bit,非重要層則壓縮至 1、2、3、4、5 或 6-bit。
這種方法并非對(duì)模型的所有層“一視同仁”地進(jìn)行壓縮。通過(guò)研究,Unsloth 發(fā)現(xiàn)模型中的某些張量(如attn_k_b)對(duì)量化操作極為敏感。將這些關(guān)鍵層保持在較高精度,同時(shí)將其他非關(guān)鍵層壓縮到極低位,可以在最小化性能損失的同時(shí),最大化壓縮率。
例如,在 Qwen2-VL-2B-Instruct 案例中,簡(jiǎn)單將所有層量化為 4 位會(huì)導(dǎo)致模型將下圖的火車(chē)誤認(rèn)為海岸場(chǎng)景:
![]()
![]()
這種策略尤其對(duì) MoE(Mixture of Experts)模型有效,現(xiàn)已成為 MoE 量化的事實(shí)標(biāo)準(zhǔn)。
結(jié)論
Unsloth 的動(dòng)態(tài)量化技術(shù)證明,通過(guò)智能的、非均勻的量化策略,我們可以在大幅壓縮模型體積的同時(shí),保持甚至超越 SOTA 模型的性能。這使得在本地消費(fèi)級(jí)硬件上運(yùn)行高性能的巨型模型成為可能,為 AI 社區(qū)和開(kāi)發(fā)者帶來(lái)了巨大的價(jià)值。對(duì)于追求本地化、低成本部署高性能模型的用戶來(lái)說(shuō),Unsloth 的動(dòng)態(tài)量化模型無(wú)疑是當(dāng)前最值得關(guān)注的方案之一。
更多圖表
Gemma 3 & Llama 4 動(dòng)態(tài)基準(zhǔn)測(cè)試![]()
![]()
與其他量化方法的對(duì)比![]()
動(dòng)態(tài)量化消融實(shí)驗(yàn)![]()
Pass Rate 1 (非思考模式)![]()
參考:https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot
文末老章薦書(shū)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.