Kimi K2 Thinking
大家好,我是Ai學(xué)習(xí)的老章
Kimi K2 Thinking 原生 INT4 量化實(shí)現(xiàn)了2 倍快速推理,1TB參數(shù)的大模型模型文件只有594GB,但即便如此要啟動(dòng) Kimi-K2-Thinking 需要 8 個(gè) 141GB 的 H200/H20,成本還是蠻高的。前文我就提到:即便再量化,估計(jì)向下空間也不大了。已經(jīng) int4 了,還能怎樣?
這不又來整活兒了,,直接迎來了1-bit版,最低僅需247GB 內(nèi)存!!!
![]()
https://huggingface.co/unsloth/Kimi-K2-Thinking-GGUF
運(yùn)行模型需:磁盤空間 + 內(nèi)存(RAM) + 顯存(VRAM) ≥ 量化模型大小
以 1.8-bit 的UD-TQ1_0量化版本(約247GB)為例:
最低要求:你的磁盤、內(nèi)存和顯存總和需要大于 247GB。
llama.cpp支持磁盤卸載(mmap),所以即使內(nèi)存+顯存不足,模型也能運(yùn)行,只是速度會(huì)很慢(可能低于 1 token/s)。推薦配置:為了獲得流暢體驗(yàn)(例如 5+ tokens/s),建議內(nèi)存+顯存總和約等于模型大小。
GPU 玩家示例:擁有一張 24GB 顯存的 GPU(如 RTX 3090/4090),配合足夠大的內(nèi)存(如 256GB RAM),通過 MoE 卸載技術(shù),可以實(shí)現(xiàn)約1-2 tokens/s的推理速度。
Unsloth 官方建議使用UD-Q2_K_XL(約360GB)版本,以在模型大小和準(zhǔn)確性之間取得最佳平衡。
有條件還是更多地上GPU吧,上面方案也僅僅是提供了可能性,幾乎不可用啊。越多顯存,才能實(shí)現(xiàn)越快的生成速度,從594到360,也大幅降低成本了。
部署教程:一共三步 第一步:編譯最新的llama.cpp
首先,需要一個(gè)支持 Kimi-K2 的最新版llama.cpp。
第二步:下載 Unsloth 量化模型# 更新并安裝依賴
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
# 克隆 llama.cpp 倉庫
git clone https://github.com/ggml-org/llama.cpp
# 編譯(根據(jù)你的硬件選擇)
# 如果有 NVIDIA GPU
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
# 如果沒有 GPU,純 CPU 運(yùn)行
# cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=OFF -DLLAMA_CURL=ONcmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/llama-* llama.cpp
使用huggingface_hub腳本(推薦)這種方式更靈活,可以選擇下載特定版本。
第三步:運(yùn)行模型與高級(jí)技巧:MoE 卸載# 安裝依賴
# pip install huggingface_hub hf_transfer
import os
# 如果下載速度慢或卡住,可以禁用 hf_transfer
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0"
from huggingface_hub import snapshot_download# 下載模型文件
snapshot_download(
repo_id = "unsloth/Kimi-K2-Thinking-GGUF",
local_dir = "unsloth/Kimi-K2-Thinking-GGUF",
# UD-TQ1_0 是 1.8-bit (247GB) 版本
# UD-Q2_K_XL 是 2.7-bit (381GB) 版本,官方推薦
allow_patterns = ["*UD-Q2_K_XL*"],
)
這是在有限硬件上成功運(yùn)行 Kimi 的關(guān)鍵!Kimi 是一個(gè)混合專家模型(MoE),我們可以將部分的“專家層”卸載到 CPU 和內(nèi)存中,只在 GPU 中保留核心部分,從而大幅降低顯存占用。
這是通過-ot或--offload-tensor參數(shù)實(shí)現(xiàn)的。
./llama.cpp/llama-cli \
--model unsloth/Kimi-K2-Thinking-GGUF/UD-Q2_K_XL/Kimi-K2-Thinking-UD-Q2_K_XL-00001-of-00008.gguf \
--n-gpu-layers 99 \
--temp 1.0 \
--min-p 0.01 \
--ctx-size 16384 \
--seed 3407 \
-ot ".ffn_.*_exps.=CPU"
MoE 卸載技巧詳解:
-ot ".ffn_.*_exps.=CPU":卸載所有 MoE 層。這是最節(jié)省顯存的模式,大約只占用 8GB VRAM。-ot ".ffn_(up|down)_exps.=CPU":卸載 MoE 的 up 和 down projection 層,需要稍多一些顯存。-ot ".ffn_(up)_exps.=CPU":只卸載 up projection 層,需要更多顯存。**不使用
-ot**:如果你有足夠的顯存(例如 360GB+),去掉此參數(shù),將所有層加載到 GPU 以獲得最快速度。
可以用正則表達(dá)式進(jìn)行更精細(xì)的控制,例如只卸載第6層之后的 MoE 層。
還可以使用llama-server將本地模型封裝成一個(gè)與 OpenAI API 兼容的服務(wù)。
啟動(dòng)服務(wù):
./llama.cpp/llama-server \
--model unsloth/Kimi-K2-Thinking-GGUF/UD-Q2_K_XL/Kimi-K2-Thinking-UD-Q2_K_XL-00001-of-00008.gguf \
--alias "unsloth/Kimi-K2-Thinking" \
--threads -1 \
-fa on \
--n-gpu-layers 999 \
-ot ".ffn_.*_exps.=CPU" \
--min_p 0.01 \
--ctx-size 16384 \
--port 8001 \
--jinja使用 Python 調(diào)用:
# pip install openai
from openai import OpenAI
client = OpenAI(
base_url = "http://127.0.0.1:8001/v1",
api_key = "sk-no-key-required",
)completion = client.chat.completions.create(
model = "unsloth/Kimi-K2-Thinking",
messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)
Thinking 模型參數(shù):官方建議
temperature設(shè)置為1.0,min_p設(shè)置為0.01,以減少重復(fù)并抑制低概率 token 的出現(xiàn)。看見模型的“思考”:Kimi-Thinking 模型有一項(xiàng)特殊能力,會(huì)生成
標(biāo)簽來展示其“思考過程”。在llama.cpp中,你需要在命令末尾添加--special標(biāo)志才能看到這些標(biāo)簽。<|im_end|>結(jié)束符:你可能會(huì)在輸出末尾看到這個(gè)特殊 token,這是正常的。可以在你的應(yīng)用中將其設(shè)置為 stop string 來隱藏它。
最后推薦一個(gè)我正在學(xué)習(xí)的課程
作為一個(gè)內(nèi)容創(chuàng)作者,我對(duì)課程是很挑的。
但這門《強(qiáng)化學(xué)習(xí)快速入門與實(shí)戰(zhàn)》,我真心推。
從理論基礎(chǔ)講到代碼實(shí)戰(zhàn),還覆蓋 OpenAI Gym/Play,緊跟技術(shù)最前沿。
內(nèi)容延展 130%,六大行業(yè)實(shí)戰(zhàn),雙師帶學(xué)——你能感受到制作團(tuán)隊(duì)的用心。
![]()
![]()
現(xiàn)在雙十一活動(dòng)入手立省 70,說是馬上漲價(jià),趁早入手。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.