![]()
![]()
在大模型時(shí)代,資源瓶頸不只是硬件問(wèn)題,更是數(shù)學(xué)問(wèn)題。
作者|王藝
3月25日美股開(kāi)盤(pán),存儲(chǔ)芯片板塊集體遭遇“黑色時(shí)刻”。
美光科技收跌4%,西部數(shù)據(jù)下跌4.4%,SK海力士跌去5.6%,閃迪更是重挫6.5%。一夜之間,HBM(高帶寬內(nèi)存)概念股蒸發(fā)數(shù)百億美元市值。
一些外媒推測(cè),這與谷歌最新發(fā)布的一篇論文和一段技術(shù)博客有關(guān)。
論文名叫《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》(下文簡(jiǎn)稱TurboQuant)。
![]()
具體而言,TurboQuant通過(guò)一套全新的向量量化算法,將大語(yǔ)言模型推理過(guò)程中的KV緩存(Key-Value Cache)從16bit壓縮到3bit左右,實(shí)現(xiàn)了至少6倍的內(nèi)存壓縮和最高8倍的注意力計(jì)算加速——而模型輸出質(zhì)量幾乎不受影響。
消息傳開(kāi)后,Cloudflare CEO Matthew Prince在社交媒體上將其形容為“谷歌的DeepSeek時(shí)刻”。一位獨(dú)立開(kāi)發(fā)者也在Reddit上曬出了復(fù)現(xiàn)結(jié)果:基于PyTorch和自定義Triton kernel,在RTX 4090上用2bit精度跑Gemma 34B,輸出與未壓縮版本的模型逐字符一致。
![]()
“這就是谷歌的DeepSeek時(shí)刻,它在優(yōu)化人工智能推理的運(yùn)行速度、內(nèi)存使用量、能耗以及多租戶利用率方面提供了更大的空間,Cloudflare 多個(gè)團(tuán)隊(duì)都在致力于這些方面的工作。”圖源:X @Mattew Prince
![]()
TurboQuant算法無(wú)需硬件改動(dòng),可與現(xiàn)有的推理協(xié)議棧兼容——在H100處理器上,4bit注意力機(jī)制的內(nèi)存壓縮率提高了5倍以上,速度提升高達(dá)8倍。 圖源:Reddit @NoShowJobsHQ
可以說(shuō),論文寫(xiě)得“零損耗”,社區(qū)用代碼投了票。
但市場(chǎng)的過(guò)激反應(yīng)和社區(qū)的狂熱背后,我們要問(wèn)的是:這篇論文到底做了什么?它真的能撼動(dòng)AI基礎(chǔ)設(shè)施的底層邏輯嗎?
1.KV Cache瓶頸與“內(nèi)存墻”
要理解TurboQuant為何引發(fā)如此大的市場(chǎng)震動(dòng),必須先理解一個(gè)被越來(lái)越多人討論、卻仍然沒(méi)有被大眾真正看透的結(jié)構(gòu)性矛盾:大模型推理階段的核心瓶頸,不是算力,而是內(nèi)存。
當(dāng)你和一個(gè)AI進(jìn)行長(zhǎng)對(duì)話時(shí),模型并不會(huì)每說(shuō)一個(gè)字都把之前所有上下文重新計(jì)算一遍。Transformer架構(gòu)的做法是將之前已經(jīng)計(jì)算過(guò)的Key和Value向量緩存起來(lái),也就是所謂的KV Cache。它的作用類似于人類“邊說(shuō)邊回顧”時(shí)的短期記憶。
問(wèn)題在于,這份記憶會(huì)隨著對(duì)話長(zhǎng)度線性膨脹。
以一個(gè)13B參數(shù)的模型為例,在NVIDIA A100 40GB顯卡上,模型權(quán)重本身大約占65%的顯存,而KV Cache可以輕松吃掉剩余30%以上的空間。當(dāng)上下文長(zhǎng)度從4K擴(kuò)展到128K甚至百萬(wàn)級(jí)別時(shí),KV緩存所消耗的顯存往往會(huì)反超模型參數(shù)本身,成為推理階段最大的內(nèi)存瓶頸。
更棘手的是,這個(gè)瓶頸不僅僅是“存不下”的問(wèn)題,更是“搬不動(dòng)”的問(wèn)題。
大模型的推理過(guò)程,尤其是自回歸生成階段(即逐token生成文本的過(guò)程),本質(zhì)上是內(nèi)存受限(memory-bound)的工作負(fù)載。GPU的Tensor Core算力嚴(yán)重過(guò)剩,但數(shù)據(jù)從HBM搬運(yùn)到SRAM的速度,也就是所謂的“內(nèi)存帶寬”成為了真正的卡脖子因素。即便從A100升級(jí)到H100,F(xiàn)LOPS提升了超過(guò)2倍,但HBM帶寬和容量的增速遠(yuǎn)遠(yuǎn)跟不上。
這就是業(yè)界反復(fù)提及的“內(nèi)存墻(Memory Wall)”。
過(guò)去幾年,行業(yè)解決內(nèi)存問(wèn)題的方案主要沿著三個(gè)方向展開(kāi):
第一是從“長(zhǎng)度”上壓縮——滑動(dòng)窗口注意力(Sliding Window Attention),只保留最近固定長(zhǎng)度的記憶,扔掉太遠(yuǎn)的上下文。這相當(dāng)于給緩存的“長(zhǎng)”設(shè)了上限。Kimi前段時(shí)間提出的Attention Residuals(注意力殘差),就是在用這個(gè)方法解決大模型注意力的問(wèn)題。(詳見(jiàn))
![]()
注意力殘差概述。(a)標(biāo)準(zhǔn)殘差:采用統(tǒng)一加法累加的方式進(jìn)行的標(biāo)準(zhǔn)殘差連接;(b)全注意力殘差:每個(gè)層通過(guò)學(xué)習(xí)到的注意力權(quán)重有選擇地整合所有前一層的輸出;(c)塊注意力殘差:將層分組成塊,從而將內(nèi)存消耗從 O(Ld) 減少到 O(Nd)。圖源:《Attention Residuals》
第二是從“高度”上壓縮——GQA(Grouped-Query Attention)、MQA(Multi-Query Attention)等架構(gòu)改進(jìn),減少Key/Value頭的數(shù)量,降低每一層需要緩存的數(shù)據(jù)量。
![]()
MQA通過(guò)在多個(gè)注意力頭之間共享同一組鍵和值,同時(shí)為每個(gè)注意力頭維護(hù)不同的查詢,降低了計(jì)算復(fù)雜度和內(nèi)存使用量;GQA是對(duì)MQA的一種優(yōu)化,不是為每個(gè)查詢單獨(dú)計(jì)算鍵值表示,而是為每個(gè)組計(jì)算共享的鍵值表示。 圖源:VerticalServe Blogs 《Attention Variations — MQA vs GQA vs MHA vs MLA》
第三是從“精度”上壓縮——量化。把原本用16bit浮點(diǎn)數(shù)存儲(chǔ)的KV向量,壓縮到8bit、4bit甚至更低的整數(shù)表示。
![]()
量化就像把人工智能模型中使用的非常大的數(shù)字縮小成更小的數(shù)字,從而節(jié)省空間并提高運(yùn)行速度,譬如不再使用超高精度的數(shù)字(浮點(diǎn)數(shù)),而是使用更簡(jiǎn)單的數(shù)字(整數(shù))。圖源:CloudThrill
量化看似是最直接的方案,但傳統(tǒng)量化方法有一個(gè)致命的隱形成本:元數(shù)據(jù)開(kāi)銷。
幾乎所有傳統(tǒng)量化方法都需要為每一小塊數(shù)據(jù)額外存儲(chǔ)一組全精度的“縮放因子”(scale)和“零點(diǎn)偏移量”(zero-point),用于將低精度整數(shù)還原回近似的浮點(diǎn)值。在位寬較高(比如8bit)時(shí),這些元數(shù)據(jù)占比很小,可以忽略。但當(dāng)壓縮到4bit甚至更低時(shí),這些“手續(xù)費(fèi)”占總存儲(chǔ)的比例急劇攀升——標(biāo)稱4bit,實(shí)際可能是5到6bit,壓縮效率被自己的開(kāi)銷蠶食了一大截。
![]()
量化前后的模型權(quán)重分布,INT8精度下有256條網(wǎng)格線,INT4精度下卻只有16條網(wǎng)格線。圖源:Toutube @Tales Of Tensors 《LLM Quantization Explained: GPTQ, AWQ, QLoRA, GGUF and More》
更深層的問(wèn)題是,很多量化方法是離線的——它們需要拿一批校準(zhǔn)數(shù)據(jù)跑一遍,學(xué)習(xí)出最優(yōu)的量化參數(shù)。但KV Cache是推理時(shí)實(shí)時(shí)生成的,每個(gè)用戶的對(duì)話內(nèi)容都不一樣,根本沒(méi)有辦法提前做離線校準(zhǔn)。
這就是TurboQuant真正要解決的問(wèn)題。它要做的是從根本上消滅傳統(tǒng)量化的這些隱形稅,做一個(gè)真正適合在線、實(shí)時(shí)、零預(yù)處理場(chǎng)景的“向量壓縮器”。
2.TurboQuant到底做了什么?
TurboQuant的設(shè)計(jì)哲學(xué),用一句話概括就是:結(jié)構(gòu)優(yōu)化>暴力壓縮。其核心思路可以用一個(gè)生活中的類比來(lái)理解:
想象你要把一堆形狀各異的衣服塞進(jìn)行李箱。傳統(tǒng)方法是直接硬塞,塞不下就用力壓,還得在每個(gè)角落墊上填充物(元數(shù)據(jù)開(kāi)銷)來(lái)保持形狀。而TurboQuant的做法是:先把所有衣服用同一種方式折疊整齊(隨機(jī)旋轉(zhuǎn)),然后按照統(tǒng)一的尺寸標(biāo)準(zhǔn)打包(最優(yōu)標(biāo)量量化),最后檢查一下有沒(méi)有折痕沒(méi)整理好,用一張薄紙墊一下(QJL殘差糾偏)。
具體來(lái)說(shuō),TurboQuant分為兩個(gè)階段:
第一階段:隨機(jī)旋轉(zhuǎn)+MSE最優(yōu)量化
TurboQuant首先對(duì)輸入的高維向量做一次隨機(jī)旋轉(zhuǎn)變換。
在高維空間中,一個(gè)單位向量經(jīng)過(guò)隨機(jī)旋轉(zhuǎn)后,其每個(gè)坐標(biāo)分量的數(shù)值都會(huì)收斂到一個(gè)已知的概率分布——Beta分布(在高維下近似為正態(tài)分布)。更關(guān)鍵的是,不同坐標(biāo)之間近似相互獨(dú)立。
這意味著,無(wú)論原始數(shù)據(jù)長(zhǎng)什么樣,經(jīng)過(guò)旋轉(zhuǎn)后,所有向量的所有坐標(biāo)都服從同一個(gè)已知的分布。
既然分布已知且統(tǒng)一,就可以針對(duì)這個(gè)分布預(yù)先計(jì)算出數(shù)學(xué)上最優(yōu)的量化方案——通過(guò)求解經(jīng)典的Lloyd-Max量化器(本質(zhì)是一維連續(xù)空間上的k-means問(wèn)題),找到每個(gè)位寬下誤差最小的量化碼本。這些碼本可以提前算好、永久存儲(chǔ),推理時(shí)只需查表,完全不需要針對(duì)具體數(shù)據(jù)做任何調(diào)整。
這就是TurboQuant消滅傳統(tǒng)量化“隱形開(kāi)銷”的關(guān)鍵:不需要存儲(chǔ)任何scale、zero-point等元數(shù)據(jù),因?yàn)榉植急旧硎峭ㄟ^(guò)數(shù)學(xué)變換被“鎖定”的。每一個(gè)bit都被用于存儲(chǔ)真正的信息,沒(méi)有一絲浪費(fèi)。
第二階段:QJL殘差糾偏
到這里,第一階段的壓縮已經(jīng)非常高效了——如果我們只關(guān)心"還原出來(lái)的向量和原來(lái)像不像",它幾乎是最優(yōu)解。但大模型在實(shí)際運(yùn)算時(shí),并不是把向量還原出來(lái)看看就完事了,而是要拿壓縮后的向量去做“內(nèi)積運(yùn)算”(可以粗略理解為“比較兩個(gè)向量有多相似”),這才是注意力機(jī)制的核心操作。而恰恰在這一步,問(wèn)題出現(xiàn)了。
為什么內(nèi)積很重要?因?yàn)門ransformer的注意力機(jī)制的核心運(yùn)算就是Query向量和Key向量的內(nèi)積。如果量化后的內(nèi)積估計(jì)有偏差,注意力分?jǐn)?shù)就會(huì)系統(tǒng)性地偏移,最終導(dǎo)致模型輸出質(zhì)量下降。
論文中給出了一個(gè)精確的例子:在1bit量化時(shí),MSE最優(yōu)量化器會(huì)給內(nèi)積引入2/π≈0.637的乘性偏差——也就是說(shuō),所有內(nèi)積都會(huì)被系統(tǒng)性地縮小約36%。這在高位寬時(shí)偏差會(huì)減小,但在極低位寬下是不可忽視的。
TurboQuant的解決方案極為巧妙:在總位寬預(yù)算b中,先用b-1位做MSE最優(yōu)量化(把“主體信息”裝進(jìn)去),然后對(duì)殘差(原始向量與量化重建之間的差)施加一個(gè)1bit的QJL(Quantized Johnson-Lindenstrauss)變換。QJL是同一團(tuán)隊(duì)此前提出的一種基于隨機(jī)投影的1bit量化方法,其核心性質(zhì)是:對(duì)內(nèi)積估計(jì)是無(wú)偏的。
兩步疊加后,整個(gè)系統(tǒng)的內(nèi)積估計(jì)就變成了無(wú)偏的,同時(shí)方差(誤差的隨機(jī)波動(dòng))也被控制在接近信息論極限的水平。
在TurboQuant的發(fā)布博客上,谷歌官方用幾個(gè)數(shù)據(jù)描述了這個(gè)新算法的有效性——“3bit無(wú)損”、“8×加速”、“6×壓縮”、“零預(yù)處理”。
![]()
TurboQuant 在計(jì)算鍵值緩存中的注意力邏輯值方面表現(xiàn)出顯著的性能提升,在各種位寬級(jí)別上均優(yōu)于高度優(yōu)化的JAX基線。圖源:Google Research Blog《TurboQuant: Redefining AI efficiency with extreme compression》
TurboQuant之所以在學(xué)術(shù)界引起巨大震動(dòng),不僅因?yàn)閷?shí)驗(yàn)結(jié)果好看,更因?yàn)?strong>它有嚴(yán)格的理論依據(jù)。
論文利用香農(nóng)信息論中的失真率函數(shù)(distortion-rate function)和Yao’s minimax原理,證明了一個(gè)下界:對(duì)于任何量化算法,bbit量化的MSE不可能低于1/4^b。
而TurboQuant的MSE上界是(√3π/2)×(1/4^b)≈2.7×(1/4^b)。
也就是說(shuō),TurboQuant的失真率只比“宇宙中任何算法都不可能突破的理論極限”大約2.7倍。在低位寬下這個(gè)差距更小——1bit時(shí)僅為1.45倍。
![]()
TurboQuant的 MSE 失真率被證明最多不超過(guò)信息論下界 2/√3π ≈2.7,在比特寬度b=1時(shí),TurboQuant的失真率僅比最優(yōu)值低約1.45倍。圖源:《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》
這類向量壓縮問(wèn)題本身就證明了很高質(zhì)量的低比特解法是存在的。一旦市場(chǎng)意識(shí)到“KV Cache不是只能靠更大HBM暴力解決,而是存在接近理論極限的壓縮路線”,那么純粹依賴內(nèi)存稀缺敘事抬估值的那部分溢價(jià),就會(huì)更容易被壓縮。
3.“內(nèi)存墻”被繞過(guò)了嗎?
TurboQuant論文發(fā)布后,市場(chǎng)給出了非常迅速的反應(yīng)——前段時(shí)間因?yàn)镠BM而大幅上漲的存儲(chǔ)芯片股(詳見(jiàn)《》)在今天應(yīng)聲下跌。很多人認(rèn)為AI芯片將不再需要那么大的內(nèi)存了,HBM的敘事將走弱,AI芯片的“內(nèi)存墻”也將被繞過(guò)。
![]()
存儲(chǔ)芯片三大原廠今日股價(jià) 圖源:Yahoo Finance
但是,「甲子光年」認(rèn)為,將TurboQuant理解為“HBM需求將被大幅削弱”、自此就認(rèn)為“內(nèi)存墻將會(huì)被繞過(guò)”的判斷有點(diǎn)過(guò)了,這是一種過(guò)度線性的思考。
TurboQuant本質(zhì)上解決的是:在既定顯存容量下,如何提升單位字節(jié)的有效信息密度。
它并不會(huì)減少訓(xùn)練所需的HBM容量——訓(xùn)練階段仍然需要高精度參數(shù)、梯度和優(yōu)化器狀態(tài);它主要優(yōu)化的是推理階段的KV Cache開(kāi)銷。而當(dāng)模型規(guī)模繼續(xù)擴(kuò)大、上下文長(zhǎng)度繼續(xù)拉長(zhǎng)時(shí),總內(nèi)存需求仍然會(huì)上升。
換句話說(shuō),TurboQuant更像是把“內(nèi)存墻”向外推遠(yuǎn)了一段距離,而不是把墻推倒。
真正被改變的,是邊際需求曲線。
過(guò)去幾年,HBM的投資邏輯建立在一個(gè)樸素假設(shè)上:模型越大、上下文越長(zhǎng)、并發(fā)越高=顯存需求線性爆炸。
如果KV Cache可以在近理論極限的條件下壓縮到3-4bit,那么推理階段對(duì)HBM容量的敏感度就會(huì)顯著下降。需求曲線從“線性放大”變成“被壓縮后的線性放大”。
這會(huì)帶來(lái)兩個(gè)變化:
第一,單卡利用率提升。相同硬件可以服務(wù)更多請(qǐng)求,云廠商的推理成本下降,算力供給側(cè)的議價(jià)能力被削弱。
第二,容量升級(jí)節(jié)奏放緩。如果原本需要從80GB升級(jí)到120GB才能支持某種超長(zhǎng)上下文,現(xiàn)在通過(guò)量化就能實(shí)現(xiàn),那么硬件升級(jí)的迫切性會(huì)降低。
這并不是說(shuō)大模型對(duì)內(nèi)存的需求消失了,而是說(shuō)單位算力對(duì)應(yīng)的營(yíng)收能力提高了。對(duì)于云廠商是利好,對(duì)于單純賣“更大容量”的供應(yīng)鏈企業(yè),則是估值體系的重估。
此外,「甲子光年」在多位技術(shù)專家交流后得到的信息是,大家一致認(rèn)為,工程優(yōu)化逐步吞噬硬件溢價(jià)將會(huì)是AI產(chǎn)業(yè)的一個(gè)長(zhǎng)期趨勢(shì)。
早期大家拼模型規(guī)模,中期拼數(shù)據(jù)質(zhì)量,現(xiàn)在越來(lái)越多的競(jìng)爭(zhēng)發(fā)生在系統(tǒng)層和算法層——FlashAttention、PagedAttention、GQA、MoE、推理調(diào)度優(yōu)化、算子融合……每一次看似微小的改進(jìn),都在降低對(duì)“暴力堆料”的依賴。
可以說(shuō),TurboQuant如果被大規(guī)模工程化落地,那么它代表的是一種范式轉(zhuǎn)移——從“用更貴的內(nèi)存解決問(wèn)題”轉(zhuǎn)向“用更聰明的數(shù)學(xué)解決問(wèn)題”。
整個(gè)AI基礎(chǔ)設(shè)施鏈條,它也意味著軟件層的價(jià)值占比提升。
當(dāng)壓縮算法接近信息論極限時(shí),硬件差異化的空間被部分侵蝕。真正的競(jìng)爭(zhēng)點(diǎn)可能從“誰(shuí)的HBM更大”轉(zhuǎn)向“誰(shuí)的系統(tǒng)棧整合得更好、調(diào)度更智能、算法更先進(jìn)”。
這也是為什么這篇論文被一些人稱為“DeepSeek時(shí)刻”——它像DeepSeek對(duì)模型訓(xùn)練成本的沖擊一樣,對(duì)推理階段的資源結(jié)構(gòu)提出了挑戰(zhàn)。
TurboQuant未必會(huì)讓HBM失去價(jià)值,也不會(huì)讓GPU需求崩塌。但它釋放了一個(gè)強(qiáng)烈信號(hào)——在大模型時(shí)代,資源瓶頸不只是硬件問(wèn)題,更是數(shù)學(xué)問(wèn)題。當(dāng)壓縮效率逼近信息論極限時(shí),我們看到的不是“更少的算力”,而是“更高的單位算力產(chǎn)出”。
對(duì)于投資者而言,這意味著必須重新評(píng)估產(chǎn)業(yè)鏈中“誰(shuí)在賣稀缺性,誰(shuí)在賣效率”;對(duì)于工程師而言,這意味著一個(gè)更具挑戰(zhàn)性的時(shí)代:優(yōu)化空間正在從參數(shù)規(guī)模,轉(zhuǎn)向結(jié)構(gòu)設(shè)計(jì)與信息表達(dá)。
而對(duì)于整個(gè)AI行業(yè)而言,這或許只是一個(gè)開(kāi)始。
(封面圖來(lái)源:Google Research)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.