網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌TurboQuant會(huì)繞過(guò)“內(nèi)存墻”？這個(gè)判斷有點(diǎn)過(guò)了｜甲子光年

2026-03-26 22:58:43　來(lái)源: 甲子光年

北京舉報(bào)

分享至

在大模型時(shí)代，資源瓶頸不只是硬件問(wèn)題，更是數(shù)學(xué)問(wèn)題。

作者｜王藝

3月25日美股開(kāi)盤(pán)，存儲(chǔ)芯片板塊集體遭遇“黑色時(shí)刻”。

美光科技收跌4％，西部數(shù)據(jù)下跌4.4％，SK海力士跌去5.6％，閃迪更是重挫6.5％。一夜之間，HBM（高帶寬內(nèi)存）概念股蒸發(fā)數(shù)百億美元市值。

一些外媒推測(cè)，這與谷歌最新發(fā)布的一篇論文和一段技術(shù)博客有關(guān)。

論文名叫《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》（下文簡(jiǎn)稱TurboQuant）。

具體而言，TurboQuant通過(guò)一套全新的向量量化算法，將大語(yǔ)言模型推理過(guò)程中的KV緩存（Key-Value Cache）從16bit壓縮到3bit左右，實(shí)現(xiàn)了至少6倍的內(nèi)存壓縮和最高8倍的注意力計(jì)算加速——而模型輸出質(zhì)量幾乎不受影響。

消息傳開(kāi)后，Cloudflare CEO Matthew Prince在社交媒體上將其形容為“谷歌的DeepSeek時(shí)刻”。一位獨(dú)立開(kāi)發(fā)者也在Reddit上曬出了復(fù)現(xiàn)結(jié)果：基于PyTorch和自定義Triton kernel，在RTX 4090上用2bit精度跑Gemma 34B，輸出與未壓縮版本的模型逐字符一致。

“這就是谷歌的DeepSeek時(shí)刻，它在優(yōu)化人工智能推理的運(yùn)行速度、內(nèi)存使用量、能耗以及多租戶利用率方面提供了更大的空間，Cloudflare 多個(gè)團(tuán)隊(duì)都在致力于這些方面的工作。”圖源：X @Mattew Prince

TurboQuant算法無(wú)需硬件改動(dòng)，可與現(xiàn)有的推理協(xié)議棧兼容——在H100處理器上，4bit注意力機(jī)制的內(nèi)存壓縮率提高了5倍以上，速度提升高達(dá)8倍。圖源：Reddit @NoShowJobsHQ

可以說(shuō)，論文寫(xiě)得“零損耗”，社區(qū)用代碼投了票。

但市場(chǎng)的過(guò)激反應(yīng)和社區(qū)的狂熱背后，我們要問(wèn)的是：這篇論文到底做了什么？它真的能撼動(dòng)AI基礎(chǔ)設(shè)施的底層邏輯嗎？

1.KV Cache瓶頸與“內(nèi)存墻”

要理解TurboQuant為何引發(fā)如此大的市場(chǎng)震動(dòng)，必須先理解一個(gè)被越來(lái)越多人討論、卻仍然沒(méi)有被大眾真正看透的結(jié)構(gòu)性矛盾：大模型推理階段的核心瓶頸，不是算力，而是內(nèi)存。

當(dāng)你和一個(gè)AI進(jìn)行長(zhǎng)對(duì)話時(shí)，模型并不會(huì)每說(shuō)一個(gè)字都把之前所有上下文重新計(jì)算一遍。Transformer架構(gòu)的做法是將之前已經(jīng)計(jì)算過(guò)的Key和Value向量緩存起來(lái)，也就是所謂的KV Cache。它的作用類似于人類“邊說(shuō)邊回顧”時(shí)的短期記憶。

問(wèn)題在于，這份記憶會(huì)隨著對(duì)話長(zhǎng)度線性膨脹。

以一個(gè)13B參數(shù)的模型為例，在NVIDIA A100 40GB顯卡上，模型權(quán)重本身大約占65％的顯存，而KV Cache可以輕松吃掉剩余30％以上的空間。當(dāng)上下文長(zhǎng)度從4K擴(kuò)展到128K甚至百萬(wàn)級(jí)別時(shí)，KV緩存所消耗的顯存往往會(huì)反超模型參數(shù)本身，成為推理階段最大的內(nèi)存瓶頸。

更棘手的是，這個(gè)瓶頸不僅僅是“存不下”的問(wèn)題，更是“搬不動(dòng)”的問(wèn)題。

大模型的推理過(guò)程，尤其是自回歸生成階段（即逐token生成文本的過(guò)程），本質(zhì)上是內(nèi)存受限（memory-bound）的工作負(fù)載。GPU的Tensor Core算力嚴(yán)重過(guò)剩，但數(shù)據(jù)從HBM搬運(yùn)到SRAM的速度，也就是所謂的“內(nèi)存帶寬”成為了真正的卡脖子因素。即便從A100升級(jí)到H100，F(xiàn)LOPS提升了超過(guò)2倍，但HBM帶寬和容量的增速遠(yuǎn)遠(yuǎn)跟不上。

這就是業(yè)界反復(fù)提及的“內(nèi)存墻（Memory Wall）”。

過(guò)去幾年，行業(yè)解決內(nèi)存問(wèn)題的方案主要沿著三個(gè)方向展開(kāi)：

第一是從“長(zhǎng)度”上壓縮——滑動(dòng)窗口注意力（Sliding Window Attention），只保留最近固定長(zhǎng)度的記憶，扔掉太遠(yuǎn)的上下文。這相當(dāng)于給緩存的“長(zhǎng)”設(shè)了上限。Kimi前段時(shí)間提出的Attention Residuals（注意力殘差），就是在用這個(gè)方法解決大模型注意力的問(wèn)題。（詳見(jiàn)）

注意力殘差概述。（a）標(biāo)準(zhǔn)殘差：采用統(tǒng)一加法累加的方式進(jìn)行的標(biāo)準(zhǔn)殘差連接；（b）全注意力殘差：每個(gè)層通過(guò)學(xué)習(xí)到的注意力權(quán)重有選擇地整合所有前一層的輸出；（c）塊注意力殘差：將層分組成塊，從而將內(nèi)存消耗從 O(Ld) 減少到 O(Nd)。圖源：《Attention Residuals》

第二是從“高度”上壓縮——GQA（Grouped-Query Attention）、MQA（Multi-Query Attention）等架構(gòu)改進(jìn)，減少Key/Value頭的數(shù)量，降低每一層需要緩存的數(shù)據(jù)量。

MQA通過(guò)在多個(gè)注意力頭之間共享同一組鍵和值，同時(shí)為每個(gè)注意力頭維護(hù)不同的查詢，降低了計(jì)算復(fù)雜度和內(nèi)存使用量；GQA是對(duì)MQA的一種優(yōu)化，不是為每個(gè)查詢單獨(dú)計(jì)算鍵值表示，而是為每個(gè)組計(jì)算共享的鍵值表示。圖源：VerticalServe Blogs 《Attention Variations — MQA vs GQA vs MHA vs MLA》

第三是從“精度”上壓縮——量化。把原本用16bit浮點(diǎn)數(shù)存儲(chǔ)的KV向量，壓縮到8bit、4bit甚至更低的整數(shù)表示。

量化就像把人工智能模型中使用的非常大的數(shù)字縮小成更小的數(shù)字，從而節(jié)省空間并提高運(yùn)行速度，譬如不再使用超高精度的數(shù)字（浮點(diǎn)數(shù)），而是使用更簡(jiǎn)單的數(shù)字（整數(shù)）。圖源：CloudThrill

量化看似是最直接的方案，但傳統(tǒng)量化方法有一個(gè)致命的隱形成本：元數(shù)據(jù)開(kāi)銷。

幾乎所有傳統(tǒng)量化方法都需要為每一小塊數(shù)據(jù)額外存儲(chǔ)一組全精度的“縮放因子”（scale）和“零點(diǎn)偏移量”（zero-point），用于將低精度整數(shù)還原回近似的浮點(diǎn)值。在位寬較高（比如8bit）時(shí)，這些元數(shù)據(jù)占比很小，可以忽略。但當(dāng)壓縮到4bit甚至更低時(shí)，這些“手續(xù)費(fèi)”占總存儲(chǔ)的比例急劇攀升——標(biāo)稱4bit，實(shí)際可能是5到6bit，壓縮效率被自己的開(kāi)銷蠶食了一大截。

量化前后的模型權(quán)重分布，INT8精度下有256條網(wǎng)格線，INT4精度下卻只有16條網(wǎng)格線。圖源：Toutube @Tales Of Tensors 《LLM Quantization Explained: GPTQ, AWQ, QLoRA, GGUF and More》

更深層的問(wèn)題是，很多量化方法是離線的——它們需要拿一批校準(zhǔn)數(shù)據(jù)跑一遍，學(xué)習(xí)出最優(yōu)的量化參數(shù)。但KV Cache是推理時(shí)實(shí)時(shí)生成的，每個(gè)用戶的對(duì)話內(nèi)容都不一樣，根本沒(méi)有辦法提前做離線校準(zhǔn)。

這就是TurboQuant真正要解決的問(wèn)題。它要做的是從根本上消滅傳統(tǒng)量化的這些隱形稅，做一個(gè)真正適合在線、實(shí)時(shí)、零預(yù)處理場(chǎng)景的“向量壓縮器”。

2.TurboQuant到底做了什么？

TurboQuant的設(shè)計(jì)哲學(xué)，用一句話概括就是：結(jié)構(gòu)優(yōu)化＞暴力壓縮。其核心思路可以用一個(gè)生活中的類比來(lái)理解：

想象你要把一堆形狀各異的衣服塞進(jìn)行李箱。傳統(tǒng)方法是直接硬塞，塞不下就用力壓，還得在每個(gè)角落墊上填充物（元數(shù)據(jù)開(kāi)銷）來(lái)保持形狀。而TurboQuant的做法是：先把所有衣服用同一種方式折疊整齊（隨機(jī)旋轉(zhuǎn)），然后按照統(tǒng)一的尺寸標(biāo)準(zhǔn)打包（最優(yōu)標(biāo)量量化），最后檢查一下有沒(méi)有折痕沒(méi)整理好，用一張薄紙墊一下（QJL殘差糾偏）。

具體來(lái)說(shuō)，TurboQuant分為兩個(gè)階段：

第一階段：隨機(jī)旋轉(zhuǎn)＋MSE最優(yōu)量化

TurboQuant首先對(duì)輸入的高維向量做一次隨機(jī)旋轉(zhuǎn)變換。

在高維空間中，一個(gè)單位向量經(jīng)過(guò)隨機(jī)旋轉(zhuǎn)后，其每個(gè)坐標(biāo)分量的數(shù)值都會(huì)收斂到一個(gè)已知的概率分布——Beta分布（在高維下近似為正態(tài)分布）。更關(guān)鍵的是，不同坐標(biāo)之間近似相互獨(dú)立。

這意味著，無(wú)論原始數(shù)據(jù)長(zhǎng)什么樣，經(jīng)過(guò)旋轉(zhuǎn)后，所有向量的所有坐標(biāo)都服從同一個(gè)已知的分布。

既然分布已知且統(tǒng)一，就可以針對(duì)這個(gè)分布預(yù)先計(jì)算出數(shù)學(xué)上最優(yōu)的量化方案——通過(guò)求解經(jīng)典的Lloyd-Max量化器（本質(zhì)是一維連續(xù)空間上的k-means問(wèn)題），找到每個(gè)位寬下誤差最小的量化碼本。這些碼本可以提前算好、永久存儲(chǔ)，推理時(shí)只需查表，完全不需要針對(duì)具體數(shù)據(jù)做任何調(diào)整。

這就是TurboQuant消滅傳統(tǒng)量化“隱形開(kāi)銷”的關(guān)鍵：不需要存儲(chǔ)任何scale、zero-point等元數(shù)據(jù)，因?yàn)榉植急旧硎峭ㄟ^(guò)數(shù)學(xué)變換被“鎖定”的。每一個(gè)bit都被用于存儲(chǔ)真正的信息，沒(méi)有一絲浪費(fèi)。

第二階段：QJL殘差糾偏

到這里，第一階段的壓縮已經(jīng)非常高效了——如果我們只關(guān)心"還原出來(lái)的向量和原來(lái)像不像"，它幾乎是最優(yōu)解。但大模型在實(shí)際運(yùn)算時(shí)，并不是把向量還原出來(lái)看看就完事了，而是要拿壓縮后的向量去做“內(nèi)積運(yùn)算”（可以粗略理解為“比較兩個(gè)向量有多相似”），這才是注意力機(jī)制的核心操作。而恰恰在這一步，問(wèn)題出現(xiàn)了。

為什么內(nèi)積很重要？因?yàn)門ransformer的注意力機(jī)制的核心運(yùn)算就是Query向量和Key向量的內(nèi)積。如果量化后的內(nèi)積估計(jì)有偏差，注意力分?jǐn)?shù)就會(huì)系統(tǒng)性地偏移，最終導(dǎo)致模型輸出質(zhì)量下降。

論文中給出了一個(gè)精確的例子：在1bit量化時(shí)，MSE最優(yōu)量化器會(huì)給內(nèi)積引入2/π≈0.637的乘性偏差——也就是說(shuō)，所有內(nèi)積都會(huì)被系統(tǒng)性地縮小約36％。這在高位寬時(shí)偏差會(huì)減小，但在極低位寬下是不可忽視的。

TurboQuant的解決方案極為巧妙：在總位寬預(yù)算b中，先用b-1位做MSE最優(yōu)量化（把“主體信息”裝進(jìn)去），然后對(duì)殘差（原始向量與量化重建之間的差）施加一個(gè)1bit的QJL（Quantized Johnson-Lindenstrauss）變換。QJL是同一團(tuán)隊(duì)此前提出的一種基于隨機(jī)投影的1bit量化方法，其核心性質(zhì)是：對(duì)內(nèi)積估計(jì)是無(wú)偏的。

兩步疊加后，整個(gè)系統(tǒng)的內(nèi)積估計(jì)就變成了無(wú)偏的，同時(shí)方差（誤差的隨機(jī)波動(dòng)）也被控制在接近信息論極限的水平。

在TurboQuant的發(fā)布博客上，谷歌官方用幾個(gè)數(shù)據(jù)描述了這個(gè)新算法的有效性——“3bit無(wú)損”、“8×加速”、“6×壓縮”、“零預(yù)處理”。

TurboQuant 在計(jì)算鍵值緩存中的注意力邏輯值方面表現(xiàn)出顯著的性能提升，在各種位寬級(jí)別上均優(yōu)于高度優(yōu)化的JAX基線。圖源：Google Research Blog《TurboQuant: Redefining AI efficiency with extreme compression》

TurboQuant之所以在學(xué)術(shù)界引起巨大震動(dòng)，不僅因?yàn)閷?shí)驗(yàn)結(jié)果好看，更因?yàn)?strong>它有嚴(yán)格的理論依據(jù)。

論文利用香農(nóng)信息論中的失真率函數(shù)（distortion-rate function）和Yao’s minimax原理，證明了一個(gè)下界：對(duì)于任何量化算法，bbit量化的MSE不可能低于1/4^b。

而TurboQuant的MSE上界是（√3π/2）×（1/4^b）≈2.7×（1/4^b）。

也就是說(shuō)，TurboQuant的失真率只比“宇宙中任何算法都不可能突破的理論極限”大約2.7倍。在低位寬下這個(gè)差距更小——1bit時(shí)僅為1.45倍。

TurboQuant的 MSE 失真率被證明最多不超過(guò)信息論下界 2/√3π ≈2.7，在比特寬度b=1時(shí)，TurboQuant的失真率僅比最優(yōu)值低約1.45倍。圖源：《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》

這類向量壓縮問(wèn)題本身就證明了很高質(zhì)量的低比特解法是存在的。一旦市場(chǎng)意識(shí)到“KV Cache不是只能靠更大HBM暴力解決，而是存在接近理論極限的壓縮路線”，那么純粹依賴內(nèi)存稀缺敘事抬估值的那部分溢價(jià)，就會(huì)更容易被壓縮。

3.“內(nèi)存墻”被繞過(guò)了嗎？

TurboQuant論文發(fā)布后，市場(chǎng)給出了非常迅速的反應(yīng)——前段時(shí)間因?yàn)镠BM而大幅上漲的存儲(chǔ)芯片股（詳見(jiàn)《》）在今天應(yīng)聲下跌。很多人認(rèn)為AI芯片將不再需要那么大的內(nèi)存了，HBM的敘事將走弱，AI芯片的“內(nèi)存墻”也將被繞過(guò)。

存儲(chǔ)芯片三大原廠今日股價(jià) 圖源：Yahoo Finance

但是，「甲子光年」認(rèn)為，將TurboQuant理解為“HBM需求將被大幅削弱”、自此就認(rèn)為“內(nèi)存墻將會(huì)被繞過(guò)”的判斷有點(diǎn)過(guò)了，這是一種過(guò)度線性的思考。

TurboQuant本質(zhì)上解決的是：在既定顯存容量下，如何提升單位字節(jié)的有效信息密度。

它并不會(huì)減少訓(xùn)練所需的HBM容量——訓(xùn)練階段仍然需要高精度參數(shù)、梯度和優(yōu)化器狀態(tài)；它主要優(yōu)化的是推理階段的KV Cache開(kāi)銷。而當(dāng)模型規(guī)模繼續(xù)擴(kuò)大、上下文長(zhǎng)度繼續(xù)拉長(zhǎng)時(shí)，總內(nèi)存需求仍然會(huì)上升。

換句話說(shuō)，TurboQuant更像是把“內(nèi)存墻”向外推遠(yuǎn)了一段距離，而不是把墻推倒。

真正被改變的，是邊際需求曲線。

過(guò)去幾年，HBM的投資邏輯建立在一個(gè)樸素假設(shè)上：模型越大、上下文越長(zhǎng)、并發(fā)越高＝顯存需求線性爆炸。

如果KV Cache可以在近理論極限的條件下壓縮到3-4bit，那么推理階段對(duì)HBM容量的敏感度就會(huì)顯著下降。需求曲線從“線性放大”變成“被壓縮后的線性放大”。

這會(huì)帶來(lái)兩個(gè)變化：

第一，單卡利用率提升。相同硬件可以服務(wù)更多請(qǐng)求，云廠商的推理成本下降，算力供給側(cè)的議價(jià)能力被削弱。

第二，容量升級(jí)節(jié)奏放緩。如果原本需要從80GB升級(jí)到120GB才能支持某種超長(zhǎng)上下文，現(xiàn)在通過(guò)量化就能實(shí)現(xiàn)，那么硬件升級(jí)的迫切性會(huì)降低。

這并不是說(shuō)大模型對(duì)內(nèi)存的需求消失了，而是說(shuō)單位算力對(duì)應(yīng)的營(yíng)收能力提高了。對(duì)于云廠商是利好，對(duì)于單純賣“更大容量”的供應(yīng)鏈企業(yè)，則是估值體系的重估。

此外，「甲子光年」在多位技術(shù)專家交流后得到的信息是，大家一致認(rèn)為，工程優(yōu)化逐步吞噬硬件溢價(jià)將會(huì)是AI產(chǎn)業(yè)的一個(gè)長(zhǎng)期趨勢(shì)。

早期大家拼模型規(guī)模，中期拼數(shù)據(jù)質(zhì)量，現(xiàn)在越來(lái)越多的競(jìng)爭(zhēng)發(fā)生在系統(tǒng)層和算法層——FlashAttention、PagedAttention、GQA、MoE、推理調(diào)度優(yōu)化、算子融合……每一次看似微小的改進(jìn)，都在降低對(duì)“暴力堆料”的依賴。

可以說(shuō)，TurboQuant如果被大規(guī)模工程化落地，那么它代表的是一種范式轉(zhuǎn)移——從“用更貴的內(nèi)存解決問(wèn)題”轉(zhuǎn)向“用更聰明的數(shù)學(xué)解決問(wèn)題”。

整個(gè)AI基礎(chǔ)設(shè)施鏈條，它也意味著軟件層的價(jià)值占比提升。

當(dāng)壓縮算法接近信息論極限時(shí)，硬件差異化的空間被部分侵蝕。真正的競(jìng)爭(zhēng)點(diǎn)可能從“誰(shuí)的HBM更大”轉(zhuǎn)向“誰(shuí)的系統(tǒng)棧整合得更好、調(diào)度更智能、算法更先進(jìn)”。

這也是為什么這篇論文被一些人稱為“DeepSeek時(shí)刻”——它像DeepSeek對(duì)模型訓(xùn)練成本的沖擊一樣，對(duì)推理階段的資源結(jié)構(gòu)提出了挑戰(zhàn)。

TurboQuant未必會(huì)讓HBM失去價(jià)值，也不會(huì)讓GPU需求崩塌。但它釋放了一個(gè)強(qiáng)烈信號(hào)——在大模型時(shí)代，資源瓶頸不只是硬件問(wèn)題，更是數(shù)學(xué)問(wèn)題。當(dāng)壓縮效率逼近信息論極限時(shí)，我們看到的不是“更少的算力”，而是“更高的單位算力產(chǎn)出”。

對(duì)于投資者而言，這意味著必須重新評(píng)估產(chǎn)業(yè)鏈中“誰(shuí)在賣稀缺性，誰(shuí)在賣效率”；對(duì)于工程師而言，這意味著一個(gè)更具挑戰(zhàn)性的時(shí)代：優(yōu)化空間正在從參數(shù)規(guī)模，轉(zhuǎn)向結(jié)構(gòu)設(shè)計(jì)與信息表達(dá)。

而對(duì)于整個(gè)AI行業(yè)而言，這或許只是一個(gè)開(kāi)始。

（封面圖來(lái)源：Google Research）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.