網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Kimi K2 Thinking 量化之后再量化，模型文件縮水60%，準(zhǔn)確率85%，部署教程來了

2025-11-10 17:56:41　來源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

Kimi K2 Thinking

大家好，我是Ai學(xué)習(xí)的老章

Kimi K2 Thinking 原生 INT4 量化實(shí)現(xiàn)了2 倍快速推理，1TB參數(shù)的大模型模型文件只有594GB，但即便如此要啟動(dòng) Kimi-K2-Thinking 需要 8 個(gè) 141GB 的 H200/H20，成本還是蠻高的。前文我就提到：即便再量化，估計(jì)向下空間也不大了。已經(jīng) int4 了，還能怎樣？

這不又來整活兒了，，直接迎來了1-bit版，最低僅需247GB 內(nèi)存！！！

https://huggingface.co/unsloth/Kimi-K2-Thinking-GGUF

運(yùn)行模型需：磁盤空間 + 內(nèi)存(RAM) + 顯存(VRAM) ≥ 量化模型大小

以 1.8-bit 的UD-TQ1_0量化版本（約247GB）為例：

最低要求：你的磁盤、內(nèi)存和顯存總和需要大于 247GB。llama.cpp支持磁盤卸載（mmap），所以即使內(nèi)存+顯存不足，模型也能運(yùn)行，只是速度會(huì)很慢（可能低于 1 token/s）。
推薦配置：為了獲得流暢體驗(yàn)（例如 5+ tokens/s），建議內(nèi)存+顯存總和約等于模型大小。
GPU 玩家示例：擁有一張 24GB 顯存的 GPU（如 RTX 3090/4090），配合足夠大的內(nèi)存（如 256GB RAM），通過 MoE 卸載技術(shù)，可以實(shí)現(xiàn)約1-2 tokens/s的推理速度。

Unsloth 官方建議使用UD-Q2_K_XL（約360GB）版本，以在模型大小和準(zhǔn)確性之間取得最佳平衡。

有條件還是更多地上GPU吧，上面方案也僅僅是提供了可能性，幾乎不可用啊。越多顯存，才能實(shí)現(xiàn)越快的生成速度，從594到360，也大幅降低成本了。

部署教程：一共三步第一步：編譯最新的llama.cpp

首先，需要一個(gè)支持 Kimi-K2 的最新版llama.cpp。

# 更新并安裝依賴
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

 # 克隆 llama.cpp 倉庫
git clone https://github.com/ggml-org/llama.cpp

 # 編譯（根據(jù)你的硬件選擇）
# 如果有 NVIDIA GPU
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
# 如果沒有 GPU，純 CPU 運(yùn)行
# cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=OFF -DLLAMA_CURL=ON

 cmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/llama-* llama.cpp

第二步：下載 Unsloth 量化模型

使用huggingface_hub腳本（推薦）這種方式更靈活，可以選擇下載特定版本。

# 安裝依賴
# pip install huggingface_hub hf_transfer

 import os
# 如果下載速度慢或卡住，可以禁用 hf_transfer
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0"
from huggingface_hub import snapshot_download

 # 下載模型文件
snapshot_download(
    repo_id = "unsloth/Kimi-K2-Thinking-GGUF",
    local_dir = "unsloth/Kimi-K2-Thinking-GGUF",
    # UD-TQ1_0 是 1.8-bit (247GB) 版本
    # UD-Q2_K_XL 是 2.7-bit (381GB) 版本，官方推薦
    allow_patterns = ["*UD-Q2_K_XL*"],
)

第三步：運(yùn)行模型與高級(jí)技巧：MoE 卸載

這是在有限硬件上成功運(yùn)行 Kimi 的關(guān)鍵！Kimi 是一個(gè)混合專家模型（MoE），我們可以將部分的“專家層”卸載到 CPU 和內(nèi)存中，只在 GPU 中保留核心部分，從而大幅降低顯存占用。

這是通過-ot或--offload-tensor參數(shù)實(shí)現(xiàn)的。

./llama.cpp/llama-cli \
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-Q2_K_XL/Kimi-K2-Thinking-UD-Q2_K_XL-00001-of-00008.gguf \
    --n-gpu-layers 99 \
    --temp 1.0 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"

MoE 卸載技巧詳解：

-ot ".ffn_.*_exps.=CPU"：卸載所有 MoE 層。這是最節(jié)省顯存的模式，大約只占用 8GB VRAM。
-ot ".ffn_(up|down)_exps.=CPU"：卸載 MoE 的 up 和 down projection 層，需要稍多一些顯存。
-ot ".ffn_(up)_exps.=CPU"：只卸載 up projection 層，需要更多顯存。
**不使用-ot**：如果你有足夠的顯存（例如 360GB+），去掉此參數(shù)，將所有層加載到 GPU 以獲得最快速度。

可以用正則表達(dá)式進(jìn)行更精細(xì)的控制，例如只卸載第6層之后的 MoE 層。

還可以使用llama-server將本地模型封裝成一個(gè)與 OpenAI API 兼容的服務(wù)。

啟動(dòng)服務(wù)：

./llama.cpp/llama-server \
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-Q2_K_XL/Kimi-K2-Thinking-UD-Q2_K_XL-00001-of-00008.gguf \
    --alias "unsloth/Kimi-K2-Thinking" \
    --threads -1 \
    -fa on \
    --n-gpu-layers 999 \
    -ot ".ffn_.*_exps.=CPU" \
    --min_p 0.01 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

使用 Python 調(diào)用：

# pip install openai
from openai import OpenAI

 client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)

 completion = client.chat.completions.create(
    model = "unsloth/Kimi-K2-Thinking",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

其他細(xì)節(jié)

Thinking 模型參數(shù)：官方建議temperature設(shè)置為1.0，min_p設(shè)置為0.01，以減少重復(fù)并抑制低概率 token 的出現(xiàn)。
看見模型的“思考”：Kimi-Thinking 模型有一項(xiàng)特殊能力，會(huì)生成標(biāo)簽來展示其“思考過程”。在llama.cpp中，你需要在命令末尾添加--special標(biāo)志才能看到這些標(biāo)簽。
<|im_end|>結(jié)束符：你可能會(huì)在輸出末尾看到這個(gè)特殊 token，這是正常的。可以在你的應(yīng)用中將其設(shè)置為 stop string 來隱藏它。

最后推薦一個(gè)我正在學(xué)習(xí)的課程

作為一個(gè)內(nèi)容創(chuàng)作者，我對(duì)課程是很挑的。

但這門《強(qiáng)化學(xué)習(xí)快速入門與實(shí)戰(zhàn)》，我真心推。

從理論基礎(chǔ)講到代碼實(shí)戰(zhàn)，還覆蓋 OpenAI Gym/Play，緊跟技術(shù)最前沿。

內(nèi)容延展 130%，六大行業(yè)實(shí)戰(zhàn)，雙師帶學(xué)——你能感受到制作團(tuán)隊(duì)的用心。

現(xiàn)在雙十一活動(dòng)入手立省 70，說是馬上漲價(jià)，趁早入手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.