<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Kimi K2 Thinking 量化之后再量化,模型文件縮水60%,準(zhǔn)確率85%,部署教程來了

      0
      分享至


      Kimi K2 Thinking

      大家好,我是Ai學(xué)習(xí)的老章

      Kimi K2 Thinking 原生 INT4 量化實(shí)現(xiàn)了2 倍快速推理,1TB參數(shù)的大模型模型文件只有594GB,但即便如此要啟動(dòng) Kimi-K2-Thinking 需要 8 個(gè) 141GB 的 H200/H20,成本還是蠻高的。前文我就提到:即便再量化,估計(jì)向下空間也不大了。已經(jīng) int4 了,還能怎樣?

      這不又來整活兒了,,直接迎來了1-bit版,最低僅需247GB 內(nèi)存!!!


      https://huggingface.co/unsloth/Kimi-K2-Thinking-GGUF

      運(yùn)行模型需:磁盤空間 + 內(nèi)存(RAM) + 顯存(VRAM) ≥ 量化模型大小

      以 1.8-bit 的UD-TQ1_0量化版本(約247GB)為例:

      • 最低要求:你的磁盤、內(nèi)存和顯存總和需要大于 247GB。llama.cpp支持磁盤卸載(mmap),所以即使內(nèi)存+顯存不足,模型也能運(yùn)行,只是速度會(huì)很慢(可能低于 1 token/s)。

      • 推薦配置:為了獲得流暢體驗(yàn)(例如 5+ tokens/s),建議內(nèi)存+顯存總和約等于模型大小。

      • GPU 玩家示例:擁有一張 24GB 顯存的 GPU(如 RTX 3090/4090),配合足夠大的內(nèi)存(如 256GB RAM),通過 MoE 卸載技術(shù),可以實(shí)現(xiàn)約1-2 tokens/s的推理速度。

      Unsloth 官方建議使用UD-Q2_K_XL(約360GB)版本,以在模型大小和準(zhǔn)確性之間取得最佳平衡。

      有條件還是更多地上GPU吧,上面方案也僅僅是提供了可能性,幾乎不可用啊。越多顯存,才能實(shí)現(xiàn)越快的生成速度,從594到360,也大幅降低成本了。

      部署教程:一共三步 第一步:編譯最新的llama.cpp

      首先,需要一個(gè)支持 Kimi-K2 的最新版llama.cpp

      # 更新并安裝依賴
      apt-get update
      apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

      # 克隆 llama.cpp 倉庫
      git clone https://github.com/ggml-org/llama.cpp

      # 編譯(根據(jù)你的硬件選擇)
      # 如果有 NVIDIA GPU
      cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
      # 如果沒有 GPU,純 CPU 運(yùn)行
      # cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=OFF -DLLAMA_CURL=ON

      cmake --build llama.cpp/build --config Release -j --clean-first
      cp llama.cpp/build/bin/llama-* llama.cpp
      第二步:下載 Unsloth 量化模型

      使用huggingface_hub腳本(推薦)這種方式更靈活,可以選擇下載特定版本。

      # 安裝依賴
      # pip install huggingface_hub hf_transfer

      import os
      # 如果下載速度慢或卡住,可以禁用 hf_transfer
      os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0"
      from huggingface_hub import snapshot_download

      # 下載模型文件
      snapshot_download(
      repo_id = "unsloth/Kimi-K2-Thinking-GGUF",
      local_dir = "unsloth/Kimi-K2-Thinking-GGUF",
      # UD-TQ1_0 是 1.8-bit (247GB) 版本
      # UD-Q2_K_XL 是 2.7-bit (381GB) 版本,官方推薦
      allow_patterns = ["*UD-Q2_K_XL*"],
      )
      第三步:運(yùn)行模型與高級(jí)技巧:MoE 卸載

      這是在有限硬件上成功運(yùn)行 Kimi 的關(guān)鍵!Kimi 是一個(gè)混合專家模型(MoE),我們可以將部分的“專家層”卸載到 CPU 和內(nèi)存中,只在 GPU 中保留核心部分,從而大幅降低顯存占用。

      這是通過-ot--offload-tensor參數(shù)實(shí)現(xiàn)的。

      ./llama.cpp/llama-cli \
      --model unsloth/Kimi-K2-Thinking-GGUF/UD-Q2_K_XL/Kimi-K2-Thinking-UD-Q2_K_XL-00001-of-00008.gguf \
      --n-gpu-layers 99 \
      --temp 1.0 \
      --min-p 0.01 \
      --ctx-size 16384 \
      --seed 3407 \
      -ot ".ffn_.*_exps.=CPU"

      MoE 卸載技巧詳解

      • -ot ".ffn_.*_exps.=CPU"卸載所有 MoE 層。這是最節(jié)省顯存的模式,大約只占用 8GB VRAM。

      • -ot ".ffn_(up|down)_exps.=CPU":卸載 MoE 的 up 和 down projection 層,需要稍多一些顯存。

      • -ot ".ffn_(up)_exps.=CPU":只卸載 up projection 層,需要更多顯存。

      • **不使用-ot**:如果你有足夠的顯存(例如 360GB+),去掉此參數(shù),將所有層加載到 GPU 以獲得最快速度。

      可以用正則表達(dá)式進(jìn)行更精細(xì)的控制,例如只卸載第6層之后的 MoE 層。

      還可以使用llama-server將本地模型封裝成一個(gè)與 OpenAI API 兼容的服務(wù)。

      1. 啟動(dòng)服務(wù)

        ./llama.cpp/llama-server \
        --model unsloth/Kimi-K2-Thinking-GGUF/UD-Q2_K_XL/Kimi-K2-Thinking-UD-Q2_K_XL-00001-of-00008.gguf \
        --alias "unsloth/Kimi-K2-Thinking" \
        --threads -1 \
        -fa on \
        --n-gpu-layers 999 \
        -ot ".ffn_.*_exps.=CPU" \
        --min_p 0.01 \
        --ctx-size 16384 \
        --port 8001 \
        --jinja
      2. 使用 Python 調(diào)用

        # pip install openai
        from openai import OpenAI

        client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
        )

        completion = client.chat.completions.create(
        model = "unsloth/Kimi-K2-Thinking",
        messages = [{"role": "user", "content": "What is 2+2?"},],
        )
        print(completion.choices[0].message.content)
      其他細(xì)節(jié)
      • Thinking 模型參數(shù):官方建議temperature設(shè)置為1.0min_p設(shè)置為0.01,以減少重復(fù)并抑制低概率 token 的出現(xiàn)。

      • 看見模型的“思考”:Kimi-Thinking 模型有一項(xiàng)特殊能力,會(huì)生成 標(biāo)簽來展示其“思考過程”。在llama.cpp中,你需要在命令末尾添加--special標(biāo)志才能看到這些標(biāo)簽。

      • <|im_end|>結(jié)束符:你可能會(huì)在輸出末尾看到這個(gè)特殊 token,這是正常的。可以在你的應(yīng)用中將其設(shè)置為 stop string 來隱藏它。

      最后推薦一個(gè)我正在學(xué)習(xí)的課程

      作為一個(gè)內(nèi)容創(chuàng)作者,我對(duì)課程是很挑的。

      但這門《強(qiáng)化學(xué)習(xí)快速入門與實(shí)戰(zhàn)》,我真心推。

      從理論基礎(chǔ)講到代碼實(shí)戰(zhàn),還覆蓋 OpenAI Gym/Play,緊跟技術(shù)最前沿。

      內(nèi)容延展 130%,六大行業(yè)實(shí)戰(zhàn),雙師帶學(xué)——你能感受到制作團(tuán)隊(duì)的用心。



      現(xiàn)在雙十一活動(dòng)入手立省 70,說是馬上漲價(jià),趁早入手。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中國批準(zhǔn)稀土出口,日媒歡呼:對(duì)華反制措施見效,下一秒遭打臉

      中國批準(zhǔn)稀土出口,日媒歡呼:對(duì)華反制措施見效,下一秒遭打臉

      書紀(jì)文譚
      2026-02-10 18:32:15
      上海洗浴中心成新頂流,俄羅斯美女博主被圈粉,還有海外游客專門飛來打卡

      上海洗浴中心成新頂流,俄羅斯美女博主被圈粉,還有海外游客專門飛來打卡

      界面新聞
      2026-02-11 18:31:08
      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      喜歡歷史的阿繁
      2026-02-07 14:21:17
      退伍回村救了個(gè)落水女人,2天后縣長突然來電:明天來我辦公室

      退伍回村救了個(gè)落水女人,2天后縣長突然來電:明天來我辦公室

      秋風(fēng)專欄
      2025-08-13 15:54:55
      頭部朝下落地!中國33歲冬奧老將出意外:被抬出雪場 目前意識(shí)清醒

      頭部朝下落地!中國33歲冬奧老將出意外:被抬出雪場 目前意識(shí)清醒

      風(fēng)過鄉(xiāng)
      2026-02-11 20:52:27
      女子8年拒絕8次男友求婚,男友無奈另娶她人,女友:憑什么?

      女子8年拒絕8次男友求婚,男友無奈另娶她人,女友:憑什么?

      小蔣愛嘮嗑
      2026-02-11 05:33:41
      特朗普下達(dá)最后通牒,要求臺(tái)當(dāng)局立即付款,否則將取消對(duì)臺(tái)軍售

      特朗普下達(dá)最后通牒,要求臺(tái)當(dāng)局立即付款,否則將取消對(duì)臺(tái)軍售

      東極妙嚴(yán)
      2026-02-11 12:54:31
      亞馬爾連續(xù)5場破門+西甲24球,打破梅西和姆巴佩兩項(xiàng)紀(jì)錄

      亞馬爾連續(xù)5場破門+西甲24球,打破梅西和姆巴佩兩項(xiàng)紀(jì)錄

      晚霧空青
      2026-02-11 08:41:59
      從一晚三千到無人接盤,五星級(jí)酒店集體被甩賣,這場泡沫該誰買單

      從一晚三千到無人接盤,五星級(jí)酒店集體被甩賣,這場泡沫該誰買單

      青眼財(cái)經(jīng)
      2026-01-19 23:37:28
      萬斯:伊朗人民想推翻政權(quán),那得靠他們自己

      萬斯:伊朗人民想推翻政權(quán),那得靠他們自己

      桂系007
      2026-02-11 23:38:09
      笑麻了!以為兩人相伴了一輩子,其實(shí)厭煩了幾十年!

      笑麻了!以為兩人相伴了一輩子,其實(shí)厭煩了幾十年!

      墻頭草
      2026-02-09 16:37:03
      生圖能打!孟子義青島逛街被偶遇,路人驚呼:白到發(fā)光比精修還美

      生圖能打!孟子義青島逛街被偶遇,路人驚呼:白到發(fā)光比精修還美

      心靈得以滋養(yǎng)
      2026-02-11 21:50:42
      女演員千萬別整容!看《夜色正濃》里40歲江疏影和36歲藍(lán)盈瑩

      女演員千萬別整容!看《夜色正濃》里40歲江疏影和36歲藍(lán)盈瑩

      章眽八卦
      2026-02-11 12:40:57
      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      就一點(diǎn)
      2025-11-22 10:36:39
      我去!塔圖姆被下放了!!

      我去!塔圖姆被下放了!!

      柚子說球
      2026-02-11 17:20:08
      利物浦遭重創(chuàng)!后場萬金油被擔(dān)架抬下 面臨長期傷停

      利物浦遭重創(chuàng)!后場萬金油被擔(dān)架抬下 面臨長期傷停

      球事百科吖
      2026-02-12 07:23:26
      3人共禁賽13場!這大概是年度最兇沖突了!

      3人共禁賽13場!這大概是年度最兇沖突了!

      柚子說球
      2026-02-12 07:52:13
      這跟不穿有什么區(qū)別?王楚然裙子太短露膚度極高,胡意旋身材曼妙

      這跟不穿有什么區(qū)別?王楚然裙子太短露膚度極高,胡意旋身材曼妙

      樂悠悠娛樂
      2026-02-10 12:44:32
      比賭博還狠的“隱形毒藥”,正慢慢掏空中國家庭,無數(shù)人被它拖垮

      比賭博還狠的“隱形毒藥”,正慢慢掏空中國家庭,無數(shù)人被它拖垮

      千秋文化
      2026-02-10 20:55:47
      梁朝偉過安檢可憐眼神向劉嘉玲求救前所未見 老婆搞笑反應(yīng)曝光

      梁朝偉過安檢可憐眼神向劉嘉玲求救前所未見 老婆搞笑反應(yīng)曝光

      達(dá)達(dá)哥
      2026-02-10 21:52:25
      2026-02-12 08:35:00
      機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
      機(jī)器學(xué)習(xí)與Python社區(qū)
      機(jī)器學(xué)習(xí)算法與Python
      3247文章數(shù) 11085關(guān)注度
      往期回顧 全部

      科技要聞

      Meta將斥資超100億美元建設(shè)數(shù)據(jù)中心

      頭條要聞

      環(huán)球:高市"豪賭"大勝 軍工業(yè)恐成日本經(jīng)濟(jì)"搖錢樹"

      頭條要聞

      環(huán)球:高市"豪賭"大勝 軍工業(yè)恐成日本經(jīng)濟(jì)"搖錢樹"

      體育要聞

      搞垮一個(gè)冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風(fēng)波愈演愈烈 超50位明星扎堆

      財(cái)經(jīng)要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級(jí)SUV? 宋Ultra這腰線美翻了

      態(tài)度原創(chuàng)

      手機(jī)
      教育
      親子
      本地
      游戲

      手機(jī)要聞

      消息稱蘋果新版Siri開發(fā)遇阻,新功能可能跳票至iOS 26.5和iOS 27

      教育要聞

      高考地理中的木本植物擴(kuò)張

      親子要聞

      寒假在家卷運(yùn)動(dòng),手眼協(xié)調(diào)練一練

      本地新聞

      下一站是嘉禾望崗,請(qǐng)各位乘客做好哭泣準(zhǔn)備

      《英雄無敵5:重生》開發(fā)者將推出新地圖生成器

      無障礙瀏覽 進(jìn)入關(guān)懷版