谷歌迎來“DeepSeek時刻”！TurboQuant引爆AI圈、全球開發(fā)者瘋狂復(fù)現(xiàn)：6倍無損壓縮，內(nèi)存股集體暴跌

2026-03-26 13:18:50　來源: AI前線

北京舉報(bào)

分享至

整理 | 華衛(wèi)

即使你對生成式 AI 模型的內(nèi)部運(yùn)作了解不多，也大概率知道它們極其吃內(nèi)存。正因如此，如今想買一根普通內(nèi)存條都免不了被狠狠加價(jià)。

最近，谷歌研究院發(fā)布了 TurboQuant 壓縮算法，能夠在提升運(yùn)行速度并保持準(zhǔn)確性不變的前提下，降低大語言模型（LLM）的內(nèi)存占用。如果 TurboQuant 成功落地，可將 AI 運(yùn)行時的 “工作內(nèi)存”，也就是鍵值緩存（KV cache）壓縮至少 6 倍，并在 H100 顯卡上實(shí)現(xiàn)最高 8 倍的速度提升，從而大幅降低 AI 運(yùn)行成本。

Cloudflare 的 CEO Matthew Prince 等人甚至稱，這是谷歌的 “DeepSeek 時刻”。此前，中國 AI 模型 DeepSeek 實(shí)現(xiàn)這樣的效率飛躍：該模型在性能保持競爭力的情況下，訓(xùn)練成本僅為對手的零頭，且使用的芯片性能較差。

而 TurboQuant 最關(guān)鍵的亮點(diǎn)是：精度零損失。無需微調(diào)，無需訓(xùn)練數(shù)據(jù)。直接接入任意 Transformer 模型，即可讓鍵值緩存壓縮至原體積的一小部分，同時輸出結(jié)果完全一致。如果這一效果能在實(shí)際生產(chǎn)環(huán)境中成立，將一夜之間改變長上下文推理的成本格局。

此外，TurboQuant 發(fā)布短短數(shù)小時內(nèi)，內(nèi)存類股票應(yīng)聲下跌：美光科技跌 3%，西部數(shù)據(jù)跌 4.7%，閃迪跌 5.7%。原因是投資者開始重新估算，AI 行業(yè)未來實(shí)際需要的物理內(nèi)存可能會大幅減少。

極致無損壓縮 AI 效率，

還革新了向量檢索

在博客中，谷歌研究院將這項(xiàng)技術(shù)描述為一種在不影響性能的前提下縮減 AI 運(yùn)行內(nèi)存的全新方法。研究人員表示，該壓縮技術(shù)采用一種矢量量化方式，解決 AI 處理中的緩存瓶頸問題，本質(zhì)上能讓 AI 在占用更少空間、保持精度的同時記住更多信息。

TurboQuant 的優(yōu)化目標(biāo)是縮減鍵值緩存的體積，谷歌將其比作一張 “數(shù)字備忘單”，用于存儲關(guān)鍵信息，避免重復(fù)計(jì)算。這張備忘單必不可少，因?yàn)檎缥覀兂Ｕf的，大語言模型本身并不 “懂” 任何東西，它們只是通過向量模擬出理解的效果，向量會映射分詞后文本的語義信息。兩個向量相近，就代表它們在概念上相似。高維向量可能包含成百上千個嵌入維度，能夠描述圖像像素、大型數(shù)據(jù)集等復(fù)雜信息，但同時也會占用大量內(nèi)存，讓鍵值緩存體積暴漲，成為性能瓶頸。

為了讓模型更小、更高效，開發(fā)者通常會使用量化技術(shù)以更低精度運(yùn)行模型，缺點(diǎn)則是生成效果會變差，分詞預(yù)測的質(zhì)量下降。而谷歌的早期測試結(jié)果顯示，使用 TurboQuant 后，部分場景下性能提升 8 倍、內(nèi)存占用減少 6 倍，且精度毫無損失。

谷歌表示，他們在 Gemma 和 Mistral 兩款開源模型上，用一系列長上下文基準(zhǔn)測試了這套新壓縮算法。結(jié)果顯示，TurboQuant 在所有測試中下游任務(wù)表現(xiàn)完美，同時將鍵值緩存內(nèi)存占用降低 6 倍。該算法無需額外訓(xùn)練，就能將緩存量化至僅 3 比特，可直接應(yīng)用于現(xiàn)有模型。在英偉達(dá) H100 加速器上，使用 4 比特 TurboQuant 計(jì)算注意力分?jǐn)?shù)，速度比 32 比特未量化鍵值快 8 倍。

不過值得注意的是，TurboQuant 目前尚未大規(guī)模部署，現(xiàn)階段仍只是實(shí)驗(yàn)室層面的突破。如果正式落地，TurboQuant 有望降低 AI 模型的運(yùn)行成本，減少內(nèi)存消耗。研發(fā)這類技術(shù)的公司也可能利用釋放出的內(nèi)存運(yùn)行更復(fù)雜的模型。未來大概率會兩種方向并存，而移動端 AI 受益可能最為明顯。受限于手機(jī)硬件條件，TurboQuant 這類壓縮技術(shù)可以在不上傳數(shù)據(jù)至云端的前提下，提升本地 AI 的生成質(zhì)量。

除大語言模型推理外，TurboQuant 也適用于向量檢索場景，在檢索增強(qiáng)生成（RAG）與相似度搜索中，高維向量同樣面臨內(nèi)存壓力。使用 TurboQuant 后，索引構(gòu)建時間幾乎降至零（1536 維向量僅需 0.0013 秒，而乘積量化需 239.75 秒）；在 GloVe 數(shù)據(jù)集上的召回率也優(yōu)于乘積量化與 RabbiQ 基準(zhǔn)模型。

技術(shù)邏輯大公開：

應(yīng)用到 AI 模型只需兩步

將 TurboQuant 應(yīng)用到 AI 模型分為兩個階段，背后是兩項(xiàng)關(guān)鍵技術(shù)：量化方法 PolarQuant 以及名為 QJL 的訓(xùn)練與優(yōu)化方法。

為實(shí)現(xiàn)高質(zhì)量壓縮，谷歌設(shè)計(jì)了一套名為 PolarQuant 的系統(tǒng)，以一種截然不同的思路解決內(nèi)存開銷問題。AI 模型中的向量通常采用標(biāo)準(zhǔn) XYZ 坐標(biāo)編碼，而 PolarQuant 會將向量轉(zhuǎn)換為笛卡爾坐標(biāo)系下的極坐標(biāo)。在這個環(huán)形網(wǎng)格中，向量被簡化為兩項(xiàng)信息：半徑（核心數(shù)據(jù)強(qiáng)度）和方向（數(shù)據(jù)的語義含義）。

谷歌用一個很形象的現(xiàn)實(shí)例子來解釋：傳統(tǒng)編碼就像是 “向東走 3 個街區(qū)，再向北走 4 個街區(qū)”；而用極坐標(biāo)則可以簡化為 “沿 37 度方向走 5 個街區(qū)”。這樣不僅占用空間更少，還省去了系統(tǒng)開銷巨大的數(shù)據(jù)歸一化步驟。PolarQuant 承擔(dān)了主要的壓縮工作，盡管效果顯著，但會產(chǎn)生殘留誤差。

第二步則用于修復(fù)瑕疵。對此，谷歌提出用量化約翰遜 - 林登斯特勞斯變換（QJL）進(jìn)行平滑處理，在壓縮復(fù)雜高維數(shù)據(jù)的同時，保留數(shù)據(jù)點(diǎn)之間關(guān)鍵的距離與關(guān)聯(lián)信息。該技術(shù)會為模型添加一層 1 比特誤差校正層，將每個向量壓縮至單個比特（+1 或 - 1），本質(zhì)上構(gòu)建了一套高速簡寫形式，且不會產(chǎn)生任何內(nèi)存開銷。同時為保證精度，QJL 采用一種特殊估算器，對高精度查詢與低精度簡化數(shù)據(jù)進(jìn)行合理平衡，使模型能夠精準(zhǔn)計(jì)算注意力分?jǐn)?shù)，這也是神經(jīng)網(wǎng)絡(luò)判斷數(shù)據(jù)重要性的核心機(jī)制。

二者組合起來的效果就是，PolarQuant 實(shí)現(xiàn)極致壓縮，QJL 以近乎可忽略的成本修正誤差。據(jù)悉，谷歌計(jì)劃在下個月的 ICLR 2026 會議上展示他們的研究成果，并展示這兩種優(yōu)化方法。

代碼未公布，

開發(fā)者單靠論文復(fù)現(xiàn)可用版

盡管谷歌尚未發(fā)布任何官方代碼或集成庫，獨(dú)立開發(fā)者們已經(jīng)僅憑論文就開始構(gòu)建可運(yùn)行的實(shí)現(xiàn)版本。

有開發(fā)者在 PyTorch 中自定義了 Triton 內(nèi)核，在 RTX 4090 顯卡上對 Gemma 3 4B 模型進(jìn)行測試，結(jié)果顯示：在 2 比特精度下，模型輸出與未壓縮基準(zhǔn)版逐字符完全一致。僅用 2 比特存儲每個數(shù)值，量化后的模型就能與全精度版本實(shí)現(xiàn)逐字節(jié)完全相同的回復(fù)，這表明 TurboQuant 的理論保證在較小模型上切實(shí)有效。

另有開發(fā)者通過 MLX 框架在蘋果芯片上運(yùn)行 35B 參數(shù)模型并搭載 TurboQuant，在各量化等級下的 “大海撈針” 測試中均取得 6 項(xiàng)滿分。在 llama.cpp 社區(qū)，已有三名開發(fā)者著手開發(fā) C 語言與 CUDA 版本，其中一人表示 18 項(xiàng)測試全部通過，壓縮比也與論文數(shù)據(jù)完全吻合。

一項(xiàng)研究論文在官方發(fā)布前就以如此速度被廣泛復(fù)現(xiàn)，實(shí)屬罕見。覆蓋 Triton、MLX、llama.cpp 等平臺的實(shí)現(xiàn)案例，既體現(xiàn)了 TurboQuant 數(shù)學(xué)設(shè)計(jì)的清晰性，也反映出 KV 緩存優(yōu)化作為部署瓶頸的迫切需求。

不過，復(fù)現(xiàn)該算法并非易事。一名早期開發(fā)者表示，QJL 誤差校正模塊很難準(zhǔn)確實(shí)現(xiàn)，簡單粗暴的實(shí)現(xiàn)方式只會輸出亂碼。如果不能正確實(shí)現(xiàn) QJL 對內(nèi)積估算的偏差校正，量化誤差會不斷累積，導(dǎo)致輸出結(jié)果完全不可用。目前谷歌仍未發(fā)布 TurboQuant 官方代碼，vLLM、llama.cpp、Ollama 等主流推理框架也均未集成該技術(shù)。

內(nèi)存股全跌了，

英偉達(dá)也在推同款算法

市場反應(yīng)十分迅速。內(nèi)存類股票紛紛下跌，美光科技股價(jià)下跌 3%，西部數(shù)據(jù)下跌 4.7%，閃迪下跌 5.7%。A 股市場存儲芯片股也集體下挫，其中，兆易創(chuàng)新、佰維存儲、恒爍股份跌超 5%，江波龍、朗科科技、北京君正、太極實(shí)業(yè)、中電港跌超 4%，普冉股份、同有科技、萬潤科技、科翔股份、精智達(dá)、云漢芯城、聯(lián)蕓科技跌超 3%。

而在多位分析師看來，這種波動有些反應(yīng)過度。富國銀行分析師 Andrew Rocha 指出，TurboQuant 直接沖擊了 AI 系統(tǒng)的內(nèi)存成本曲線。他表示，如果該技術(shù)被廣泛采用，很快就會引發(fā)一個問題：整個行業(yè)實(shí)際需要的內(nèi)存容量究竟有多大。但 Rocha 與其他分析師也同時提醒，AI 內(nèi)存的需求整體依然強(qiáng)勁，而且壓縮算法已存在多年，并未從根本上改變硬件采購規(guī)模。

不過，市場的擔(dān)憂并非毫無根據(jù)。AI 基礎(chǔ)設(shè)施支出正以驚人速度增長：僅 Meta 一家，近期就與 Nebius 達(dá)成協(xié)議，投入高達(dá) 270 億美元用于專屬算力；谷歌、微軟、亞馬遜也共同計(jì)劃在 2026 年前投入數(shù)千億美元用于數(shù)據(jù)中心資本支出。一項(xiàng)能將內(nèi)存需求降低 6 倍的技術(shù)，并不會讓支出同步減少 6 倍，因?yàn)閮?nèi)存只是數(shù)據(jù)中心成本的一部分。但它會改變成本結(jié)構(gòu)比例，而在如此大規(guī)模的投入下，即便只是小幅效率提升，帶來的影響也會快速放大。

TurboQuant 并非唯一一篇將在 ICLR 2026 發(fā)表的 KV 緩存壓縮方法。據(jù)了解，英偉達(dá)推出的 KVTC 可實(shí)現(xiàn) 20 倍壓縮，且精度損失不到 1 個百分點(diǎn)。該算法在 15 億至 700 億參數(shù)的模型上完成了測試，覆蓋范圍比 TurboQuant 約 80 億參數(shù)上限的基準(zhǔn)測試更廣。KVTC 采用了截然不同的底層思路，使用基于主成分分析（PCA）的去相關(guān)方法與熵編碼，部分思路借鑒自 JPEG 壓縮。與 TurboQuant 與數(shù)據(jù)無關(guān)的設(shè)計(jì)不同，KVTC 需要針對每個模型執(zhí)行一次性校準(zhǔn)步驟，離線計(jì)算 PCA 對齊矩陣。作為回報(bào)，它在 8000 token 的長提示詞下，可將首 token 延遲最高降低 8 倍：在 H100 上從約 3 秒縮短至 380 毫秒。

英偉達(dá)研究員 Adrian Lancucki 表示，“高效的 KV 緩存管理正變得至關(guān)重要，閑置緩存必須迅速從 GPU 顯存移出，為其他用戶騰出空間，并在對話恢復(fù)時快速加載。這些基礎(chǔ)設(shè)施成本如今已體現(xiàn)在商用定價(jià)中，例如‘提示詞緩存’，并會收取額外費(fèi)用。”

兩種相互競爭的壓縮標(biāo)準(zhǔn)在同一場會議同期亮相，標(biāo)志著 KV 緩存優(yōu)化正從純研究課題，逐漸成熟為生產(chǎn)級基礎(chǔ)設(shè)施層。

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

https://winbuzzer.com/2026/03/26/googles-turboquant-reduces-ai-llm-cache-memory-xcxwbn/

https://thenextweb.com/news/google-turboquant-ai-compression-memory-stocks

聲明：本文為 AI 前線整理，不代表平臺觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

OpenClaw 出圈，“養(yǎng)蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態(tài)迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強(qiáng)大生產(chǎn)力。但這背后也暴露了工程化落地的真實(shí)難題——權(quán)限邊界與隔離運(yùn)行、Skills 供應(yīng)鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團(tuán)隊(duì)研發(fā) / 運(yùn)維流程并形成穩(wěn)定收益。

針對這一系列挑戰(zhàn)，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態(tài)實(shí)踐」專題，將聚焦一線實(shí)踐與踩坑復(fù)盤，分享企業(yè)如何構(gòu)建私有 Skills、制定安全護(hù)欄、搭建審計(jì)與回放機(jī)制、建立質(zhì)量 / 效率指標(biāo)體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產(chǎn)系統(tǒng)。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.