<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Google 新算法,Mac Mini 也能跑 Qwen3.5

      0
      分享至

      RESEARCH

      3 月 24 日,Google Research 發(fā)布了一套量化壓縮算法,叫 TurboQuant。核心能力一句話講完:把 LLM 推理時(shí)最吃內(nèi)存的 KV cache 壓到極低的 bit 寬度,3.5 bit 精度零損失,2.5 bit 僅有極微小的質(zhì)量下降,內(nèi)存縮小至少 6 倍,attention 計(jì)算在 H100 上最高快 8 倍

      整個(gè)過(guò)程免訓(xùn)練、免微調(diào)、免校準(zhǔn),純軟件方案,拿來(lái)就能用

      32 bit per channel 幾十 GB 內(nèi)存 → TurboQuant → 3.5 bit per channel 零精度損失 內(nèi)存 ÷6 速度 ×8 3.5 bit 零損失

      有多直接呢,發(fā)布不到 24 小時(shí),已經(jīng)有人在一臺(tái)幾千塊的 Mac Mini 上用它跑通了 Qwen3.5-35B-A3B 的 64K token 長(zhǎng)對(duì)話,回答質(zhì)量跟不壓縮的時(shí)候完全一樣

      論文下個(gè)月在 ICLR 2026 主會(huì)上發(fā)表。作者來(lái)自 Google Research、Google DeepMind 和紐約大學(xué)

      6 倍壓縮,什么概念

      先把這個(gè)數(shù)字翻譯成大家能摸到的東西

      一個(gè) 8B 參數(shù)的模型跑長(zhǎng)對(duì)話推理的時(shí)候,KV cache 可以吃掉幾十 GB 內(nèi)存。一張 80GB 的 H100 顯卡,光 KV cache 就能占掉一大半。壓縮 6 倍 之后,這部分從幾十 GB 降到幾個(gè) GB

      直接的效果:同一張顯卡能跑更長(zhǎng)的對(duì)話,或者同時(shí)服務(wù)更多用戶

      再換一個(gè)更直覺的場(chǎng)景。一臺(tái) Mac Mini M4 Pro,24GB 統(tǒng)一內(nèi)存。之前跑 Qwen3.5-35B 做長(zhǎng)對(duì)話,KV cache 膨脹到一定程度就撐不住了。TurboQuant 把 KV cache 壓下來(lái)之后,這個(gè)上限往后推了很多

      Mac Mini 上跑 Qwen3.5-35B 的 6 萬(wàn)字長(zhǎng)對(duì)話,needle-in-a-haystack 測(cè)試全部命中

      發(fā)布不到 24 小時(shí),Twitter @Prince_Canuma 已經(jīng)把 TurboQuant 移植到了 Apple Silicon 的 MLX 框架上,用 Qwen3.5-35B 做了驗(yàn)證。從 8.5K 到 64K token 上下文,2.5 bit 量化,KV cache 縮小近 5 倍,needle-in-a-haystack 測(cè)試 6/6 精確命中

      第三方模型,第三方硬件,跟 Google 自己的 benchmark 結(jié)果吻合


      https://x.com/Prince_Canuma/status/2036611007523512397

      KV cache 為什么是瓶頸

      你跟 AI 聊天的時(shí)候,對(duì)話越長(zhǎng),AI 需要記住的「前文」就越多,內(nèi)存占用就越大。這部分專門用來(lái)存「前文」的內(nèi)存,叫 KV cache

      技術(shù)上:LLM 生成文本的時(shí)候,每讀到一個(gè) token,都會(huì)算出一組 key 和 value 向量存起來(lái)。后面生成新 token 時(shí),模型要回頭查這些 key-value 對(duì),來(lái)決定該關(guān)注之前哪些內(nèi)容

      對(duì)話越長(zhǎng),存的越多,內(nèi)存線性增長(zhǎng)。上下文到了 32K、64K、128K token 的時(shí)候,KV cache 的內(nèi)存開銷經(jīng)常比模型權(quán)重還大

      壓縮 KV cache 是自然的方向。把 32 bit 浮點(diǎn)數(shù)量化成更少的 bit,內(nèi)存就省下來(lái)了。但傳統(tǒng)的量化方法有一個(gè)很煩的問(wèn)題

      傳統(tǒng)方法在壓縮的同時(shí),需要額外存儲(chǔ)一堆歸一化常數(shù)。這些常數(shù)要用高精度來(lái)存(比如 16 bit),每個(gè)數(shù)據(jù)塊都配一組。算下來(lái),額外開銷大概 1-2 bit

      壓縮省了 3 bit,歸一化常數(shù)吃回去 1-2 bit,凈收益就打折了

      TurboQuant 要解決的就是這個(gè)問(wèn)題

      TurboQuant 怎么做的

      兩步壓縮。第一步把數(shù)據(jù)壓小,第二步把壓縮帶來(lái)的誤差修掉。最終效果:32 bit 的數(shù)據(jù)變成 3 bit 多一點(diǎn),模型該記住的東西一個(gè)都沒丟

      TurboQuant 兩步壓縮 32 bit 原始向量 Step 1 · PolarQuant 隨機(jī)旋轉(zhuǎn) → 極坐標(biāo)變換 歸一化開銷 → 0 消耗 b-1 bit · 捕獲主體信息 微小殘差 ↓ Step 2 · QJL JL 變換 → 符號(hào)位 (+1/-1) 消耗 1 bit · 消除內(nèi)積偏差 b bit · 零偏差 · 零額外開銷

      第一步:PolarQuant

      傳統(tǒng)壓縮方法在壓數(shù)據(jù)的同時(shí),要額外存一堆「輔助參數(shù)」保證精度。這些參數(shù)本身也占內(nèi)存,相當(dāng)于壓縮打了折。PolarQuant 通過(guò)一個(gè)數(shù)學(xué)技巧,讓這些輔助參數(shù)變得不再需要

      具體做法:先對(duì)輸入向量施加一個(gè)隨機(jī)旋轉(zhuǎn)矩陣。旋轉(zhuǎn)之后,每個(gè)維度上的數(shù)值分布變得非常集中、非常規(guī)律,跟原始數(shù)據(jù)長(zhǎng)什么樣無(wú)關(guān)。分布規(guī)律了,就可以用一套事先算好的固定量化表來(lái)處理所有數(shù)據(jù)

      數(shù)學(xué)上:把向量從笛卡爾坐標(biāo)系轉(zhuǎn)成極坐標(biāo)系。笛卡爾坐標(biāo)是「沿 X 軸走多少、Y 軸走多少」,極坐標(biāo)是「總距離多少、角度多少」。角度的分布在高維空間中是已知的、高度集中的 Beta 分布

      歸一化開銷,消掉了

      隨機(jī)旋轉(zhuǎn)還帶來(lái)一個(gè)額外好處:高維空間中,旋轉(zhuǎn)后的各個(gè)坐標(biāo)之間近似獨(dú)立同分布(i.i.d.)。獨(dú)立了,就可以把多維的量化問(wèn)題拆成一堆一維的標(biāo)量量化問(wèn)題(Max-Lloyd 問(wèn)題),每個(gè)維度單獨(dú)求最優(yōu)解。算一次,存好 codebook,之后在線推理直接查表

      PolarQuant 單獨(dú)作為一篇論文,將在 AISTATS 2026 上發(fā)表

      第二步:QJL

      第一步壓完之后,數(shù)據(jù)體積大幅縮小了,但會(huì)帶一點(diǎn)微小的誤差。這個(gè)誤差如果不管,模型在判斷「這段對(duì)話里哪些內(nèi)容更重要」的時(shí)候會(huì)出現(xiàn)系統(tǒng)性偏差。聊幾千字可能看不出來(lái),聊幾萬(wàn)字就會(huì)累積

      給一個(gè)數(shù)學(xué)直覺:一個(gè) 1-bit 的 MSE 最優(yōu)量化器在高維空間中,會(huì)引入一個(gè) 2/π 的乘性偏差。這個(gè)偏差聽起來(lái)不大,但在 attention 計(jì)算中會(huì)被放大

      QJL 的做法是:對(duì)第一步的殘差向量施加 Johnson-Lindenstrauss 變換,把每個(gè)數(shù)值壓成 1 bit 的符號(hào)位(+1 或 -1)。然后用一個(gè)特殊的估計(jì)器,在數(shù)學(xué)上保證內(nèi)積估計(jì)無(wú)偏

      E[?y, Q?1(Q(x))?] = ?y, x?

      壓縮后的內(nèi)積期望值,嚴(yán)格等于真實(shí)內(nèi)積。偏差消除了,額外開銷只有 1 bit

      QJL 這篇論文已經(jīng)在 AAAI 2025 上發(fā)表

      合起來(lái)

      兩步加在一起:b-1 bit 給 PolarQuant 做主體壓縮,1 bit 給 QJL 做殘差糾錯(cuò)。總位寬 b bit

      論文證明,TurboQuant 的 MSE 失真率距離信息論的理論下界只差大約 2.7 倍 的常數(shù)因子。在低 bit 寬度下這個(gè)差距更小

      3.5 bit,零損失,免重訓(xùn)

      傳統(tǒng)方法用 3 bit 壓縮,1-2 bit 被歸一化開銷吃掉,實(shí)際有效壓縮可能只有 1-2 bit。TurboQuant 的每一個(gè) bit 都是有效壓縮

      Benchmark 數(shù)據(jù)

      說(shuō)了這么多原理,回到大家最關(guān)心的問(wèn)題:壓完之后模型到底還好不好用

      Google 在五個(gè)長(zhǎng)上下文 benchmark 上做了測(cè)試:LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval。測(cè)試模型用的是開源的 Gemma、Mistral 和 Llama-3.1-8B-Instruct

      KV cache 壓縮

      論文里的精確表述:3.5 bit 達(dá)到「absolute quality neutrality」(絕對(duì)質(zhì)量中性),2.5 bit 只有「marginal quality degradation」

      →內(nèi)存縮小至少 6 倍

      →LongBench 的 QA、代碼生成、摘要任務(wù)上,匹配或超過(guò) KIVI baseline

      →Needle-in-a-Haystack(在海量文本里精確找到一條特定信息):滿分

      →PolarQuant 單獨(dú)用,這個(gè)任務(wù)也近乎無(wú)損


      論文中 LongBench 各任務(wù)得分對(duì)比

      速度

      壓縮不只省內(nèi)存,還能加速。要讀取和計(jì)算的數(shù)據(jù)量變少了,速度自然就快了

      在 NVIDIA H100 上,4 bit 模式的 attention logits 計(jì)算,比 32 bit 未量化版本最高快 8 倍。測(cè)量基線是高度優(yōu)化過(guò)的 JAX 實(shí)現(xiàn)


      論文中 H100 不同 bit 寬度速度對(duì)比

      向量搜索

      TurboQuant 不只能壓 KV cache,在向量搜索場(chǎng)景也好用。向量搜索就是搜索引擎和 RAG 背后的技術(shù):你輸入一個(gè)問(wèn)題,系統(tǒng)要在幾十億條數(shù)據(jù)里找到最相關(guān)的那幾條

      Google 在 GloVe 數(shù)據(jù)集(200 維)上跟 Product Quantization 和 RabitQ 做了對(duì)比。TurboQuant 的 recall 全面領(lǐng)先,對(duì)方用了大 codebook 和數(shù)據(jù)集特定調(diào)優(yōu),TurboQuant 什么都沒調(diào)

      索引構(gòu)建時(shí)間幾乎為零(1536 維向量只需 0.0013 秒)


      論文中 GloVe 數(shù)據(jù)集 recall 對(duì)比

      四個(gè)工程屬性

      對(duì)部署 LLM 的團(tuán)隊(duì)來(lái)說(shuō),下面四個(gè)屬性可能比壓縮率本身更重要。它們決定了這個(gè)東西能不能真的用起來(lái)

      Training-free 量化表預(yù)先算好,拿到模型直接用
      Data-oblivious 數(shù)據(jù)進(jìn)來(lái)直接壓,省掉了校準(zhǔn)步驟
      加速器友好 用 GPU 擅長(zhǎng)的批量向量化運(yùn)算
      純軟件 H100、A100 直接跑,零硬件改造

      四個(gè)屬性合起來(lái):拿到一個(gè)新模型,零準(zhǔn)備,直接壓,直接部署

      外部反應(yīng)

      這個(gè)算法發(fā)出來(lái)之后,技術(shù)圈和資本市場(chǎng)同時(shí)給了很大的反應(yīng)

      Google Research 的官方推文獲得了超過(guò) 770 萬(wàn) 次瀏覽

      Twitter @eastdakota 的評(píng)價(jià)是「Google 的 DeepSeek 時(shí)刻」

      Matthew Prince,Cloudflare CEO

      社區(qū) 24 小時(shí)內(nèi)開始移植到 MLX 和 llama.cpp。前面提到的 Qwen3.5-35B 實(shí)測(cè)就是這么來(lái)的

      美股內(nèi)存板塊當(dāng)天下跌:SanDisk -5.7%,Micron -3%,Western Digital -4.7%,同期納斯達(dá)克 100 是漲的。市場(chǎng)在擔(dān)心軟件壓縮效率的提升會(huì)減少對(duì) HBM 芯片的需求。評(píng)論區(qū)也有人搬出 Jevons Paradox 來(lái)反駁:效率越高,總消耗可能反而增加,歷史上這種事發(fā)生過(guò)很多次

      論文和資源

      TurboQuant 主論文(ICLR 2026)

      arxiv.org/abs/2504.19874

      PolarQuant(AISTATS 2026)

      arxiv.org/abs/2502.02617

      QJL(AAAI 2025)

      arxiv.org/abs/2406.03482

      Google Research 官方博客

      research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      不服開干?比利時(shí)打響反華第一槍,通告全球,斷的就是中國(guó)退路

      不服開干?比利時(shí)打響反華第一槍,通告全球,斷的就是中國(guó)退路

      愛史紀(jì)
      2026-03-28 13:35:34
      全美50州數(shù)百萬(wàn)人游行,要求特朗普下臺(tái)

      全美50州數(shù)百萬(wàn)人游行,要求特朗普下臺(tái)

      飄逸語(yǔ)人
      2026-03-28 21:48:51
      萬(wàn)科創(chuàng)始人妻子解除邊控

      萬(wàn)科創(chuàng)始人妻子解除邊控

      新浪財(cái)經(jīng)
      2026-03-26 19:55:01
      1943年毛澤民被盛世才殺害,盛世才逃到臺(tái)灣后,岳父一家慘遭滅門

      1943年毛澤民被盛世才殺害,盛世才逃到臺(tái)灣后,岳父一家慘遭滅門

      磊子講史
      2026-03-27 16:51:45
      女子吐槽老公養(yǎng)的盆栽:巨丑像大蟲子!網(wǎng)友怒懟:不識(shí)貨,別說(shuō)話

      女子吐槽老公養(yǎng)的盆栽:巨丑像大蟲子!網(wǎng)友怒懟:不識(shí)貨,別說(shuō)話

      三農(nóng)老歷
      2026-03-27 11:32:51
      美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

      美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

      夜深愛雜談
      2026-03-08 21:28:24
      綠聯(lián)把充電寶壓到13.9mm,iPhone用戶卻買不到

      綠聯(lián)把充電寶壓到13.9mm,iPhone用戶卻買不到

      賽博蘭博
      2026-03-28 14:15:12
      張雪峰二婚妻子付幸:幾個(gè)月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

      張雪峰二婚妻子付幸:幾個(gè)月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

      眼光很亮
      2026-03-27 16:04:09
      趙櫻子自爆相親翻車!6億豪宅香港富商摘了眼鏡帽子后:下不去嘴

      趙櫻子自爆相親翻車!6億豪宅香港富商摘了眼鏡帽子后:下不去嘴

      觀魚聽雨
      2026-03-27 17:30:53
      張雪峰員工回應(yīng)其二婚爆料,稱遺產(chǎn)不會(huì)被瓜分,11歲女兒流淚發(fā)聲

      張雪峰員工回應(yīng)其二婚爆料,稱遺產(chǎn)不會(huì)被瓜分,11歲女兒流淚發(fā)聲

      叨嘮
      2026-03-28 02:08:59
      關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

      關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

      楓嶺社
      2026-03-27 10:49:09
      特斯拉全新SUV曝光!

      特斯拉全新SUV曝光!

      電動(dòng)知家
      2026-03-28 18:35:20
      “霍爾木茲決戰(zhàn)”,攤牌了

      “霍爾木茲決戰(zhàn)”,攤牌了

      中國(guó)新聞周刊
      2026-03-27 20:31:04
      致560戶停氣48小時(shí)!海淀一居民擅改管線,賠了10萬(wàn)

      致560戶停氣48小時(shí)!海淀一居民擅改管線,賠了10萬(wàn)

      極目新聞
      2026-03-28 19:33:49
      妹子遭輪X后一心求死,大家卻只想讓她活。跟親爹打一年官司,她終于合法去死了...

      妹子遭輪X后一心求死,大家卻只想讓她活。跟親爹打一年官司,她終于合法去死了...

      英國(guó)那些事兒
      2026-03-27 23:27:25
      這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個(gè)又一個(gè)“無(wú)敵”武器神話

      這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個(gè)又一個(gè)“無(wú)敵”武器神話

      策略述
      2025-11-12 18:42:46
      李梓萌,私生活傳聞太荒唐

      李梓萌,私生活傳聞太荒唐

      做一個(gè)合格的吃瓜群眾
      2026-03-21 19:20:55
      別不信,78歲想活過(guò)98歲,關(guān)鍵在兩性關(guān)系!這六句長(zhǎng)壽密碼要牢記

      別不信,78歲想活過(guò)98歲,關(guān)鍵在兩性關(guān)系!這六句長(zhǎng)壽密碼要牢記

      牛鍋巴小釩
      2026-03-26 13:23:25
      最高院:只有微信昵稱沒有實(shí)名被拉黑不能起訴?能,手機(jī)就搞定!

      最高院:只有微信昵稱沒有實(shí)名被拉黑不能起訴?能,手機(jī)就搞定!

      周軍律師聊案子
      2026-03-28 09:49:03
      調(diào)查發(fā)現(xiàn):每天都曬太陽(yáng)的人,大多到了75歲后,身體或有5種變化

      調(diào)查發(fā)現(xiàn):每天都曬太陽(yáng)的人,大多到了75歲后,身體或有5種變化

      醫(yī)學(xué)原創(chuàng)故事會(huì)
      2026-03-27 23:42:03
      2026-03-29 05:51:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      348文章數(shù) 50關(guān)注度
      往期回顧 全部

      科技要聞

      華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

      頭條要聞

      伊朗:擊中美軍F-16戰(zhàn)機(jī) 強(qiáng)力反擊加速以政權(quán)崩潰

      頭條要聞

      伊朗:擊中美軍F-16戰(zhàn)機(jī) 強(qiáng)力反擊加速以政權(quán)崩潰

      體育要聞

      “我是全家最差勁的運(yùn)動(dòng)員”

      娛樂(lè)要聞

      陳牧馳陳冰官宣得子 曬一家三口握拳照

      財(cái)經(jīng)要聞

      臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

      汽車要聞

      置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

      態(tài)度原創(chuàng)

      數(shù)碼
      健康
      教育
      本地
      公開課

      數(shù)碼要聞

      蘋果或重啟與長(zhǎng)江存儲(chǔ)合作 國(guó)行機(jī)型擬采用國(guó)產(chǎn)NAND

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      教育要聞

      著名大學(xué)校長(zhǎng)去世!他把這所學(xué)校,重新帶回世界高教的中心…

      本地新聞

      在濰坊待了三天,沒遇到一個(gè)“濰坊人”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版