網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

量化大模型，本地部署，效果不打折

2025-11-21 13:53:32　來(lái)源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

大家好，我是 AI 學(xué)習(xí)的老章

本公眾號(hào)介紹過(guò)多次：

Unsloth 出圈是 DeepSeek-R1 爆火的時(shí)候，它發(fā)布了最小 1.58 位量化版本的 R1，把 DeepSeek-R1 這個(gè)非常大的模型（它有 6710 億個(gè)參數(shù)，也就是 671B）通過(guò)“量化”把原本 720GB 的模型壓縮到只有 131GB 的大小。

Unsloth 秘密武器是動(dòng)態(tài)量化，核心思路是：對(duì)模型的少數(shù)關(guān)鍵層進(jìn)行高質(zhì)量的 4-6bit 量化，而對(duì)大部分相對(duì)沒(méi)那么關(guān)鍵的混合專(zhuān)家層（MoE）進(jìn)行大刀闊斧的 1-2bit 量化。

動(dòng)態(tài) GGUF 量化技術(shù)

通過(guò)動(dòng)態(tài) GGUF 量化技術(shù)，像 DeepSeek-V3.1 (671B) 這樣的巨型語(yǔ)言模型（LLMs）可以被量化到僅1-bit或3-bit，但在 Aider Polyglot 等高難度基準(zhǔn)測(cè)試中，其性能甚至能擊敗像 Claude-4-Opus 這樣的頂尖（SOTA）模型。

這標(biāo)志著模型量化技術(shù)的一個(gè)重要突破：極低的比特?cái)?shù)不再意味著性能的大幅犧牲。

Aider Polyglot Benchmarks

Aider Polyglot 是一個(gè)衡量 LLMs 在無(wú)需人工干預(yù)的情況下，進(jìn)行寫(xiě)作、編碼、遵循指令和應(yīng)用變更能力的綜合性指標(biāo)。它被認(rèn)為是現(xiàn)實(shí)世界應(yīng)用中最具挑戰(zhàn)性和價(jià)值的基準(zhǔn)之一，因?yàn)樗u(píng)估的是模型在復(fù)雜任務(wù)中的自主能力。

關(guān)鍵成果速覽

Unsloth 團(tuán)隊(duì)在對(duì) DeepSeek-V3.1 進(jìn)行動(dòng)態(tài)量化后，得出了以下令人振奮的結(jié)果：

1-bit Unsloth 動(dòng)態(tài) GGUF:
- 體積: 將 DeepSeek-V3.1 從 671GB 壓縮至 192GB（**體積減少 75%**）。
- 性能: 在無(wú)思考模式下，性能超越了 GPT-4.1（2025 年 4 月版）、GPT-4.5 和 DeepSeek-V3-0324。
3-bit Unsloth 動(dòng)態(tài) GGUF:
- 性能: 在“思考模式”下，性能超越了 Claude-4-Opus。
5-bit Unsloth 動(dòng)態(tài) GGUF:
- 性能: 與 Claude-4-Opus（非思考模式）的性能相當(dāng)。
普遍優(yōu)勢(shì): Unsloth 的動(dòng)態(tài) GGUF 在所有測(cè)試中，其表現(xiàn)始終優(yōu)于其他非 Unsloth 的 imatrix GGUF 模型。

值得注意的是，其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么無(wú)法加載，要么產(chǎn)生亂碼，這凸顯了 Unsloth 動(dòng)態(tài)量化方法的穩(wěn)定性和有效性。

Aider 基準(zhǔn)測(cè)試圖表

思考模式 (Thinking Mode)

非思考模式 (Non-Thinking Mode)

Unsloth 動(dòng)態(tài)量化技術(shù)揭秘

Unsloth 動(dòng)態(tài)量化的核心思想是“選擇性量化”：

將重要的層保留為 8 或 16-bit，非重要層則壓縮至 1、2、3、4、5 或 6-bit。

這種方法并非對(duì)模型的所有層“一視同仁”地進(jìn)行壓縮。通過(guò)研究，Unsloth 發(fā)現(xiàn)模型中的某些張量（如attn_k_b）對(duì)量化操作極為敏感。將這些關(guān)鍵層保持在較高精度，同時(shí)將其他非關(guān)鍵層壓縮到極低位，可以在最小化性能損失的同時(shí)，最大化壓縮率。

例如，在 Qwen2-VL-2B-Instruct 案例中，簡(jiǎn)單將所有層量化為 4 位會(huì)導(dǎo)致模型將下圖的火車(chē)誤認(rèn)為海岸場(chǎng)景：

這種策略尤其對(duì) MoE（Mixture of Experts）模型有效，現(xiàn)已成為 MoE 量化的事實(shí)標(biāo)準(zhǔn)。

結(jié)論

Unsloth 的動(dòng)態(tài)量化技術(shù)證明，通過(guò)智能的、非均勻的量化策略，我們可以在大幅壓縮模型體積的同時(shí)，保持甚至超越 SOTA 模型的性能。這使得在本地消費(fèi)級(jí)硬件上運(yùn)行高性能的巨型模型成為可能，為 AI 社區(qū)和開(kāi)發(fā)者帶來(lái)了巨大的價(jià)值。對(duì)于追求本地化、低成本部署高性能模型的用戶來(lái)說(shuō)，Unsloth 的動(dòng)態(tài)量化模型無(wú)疑是當(dāng)前最值得關(guān)注的方案之一。

更多圖表

Gemma 3 & Llama 4 動(dòng)態(tài)基準(zhǔn)測(cè)試

與其他量化方法的對(duì)比

動(dòng)態(tài)量化消融實(shí)驗(yàn)

Pass Rate 1 (非思考模式)

參考：https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot

文末老章薦書(shū)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.