<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌新論文證明LLM可以少吃80%內存,閃迪盤中跌去50億美元

      0
      分享至

      3 月 24 日,Google Research 發布了一套名為 TurboQuant 的向量量化壓縮算法,宣稱能將大語言模型的 KV 緩存(Key-Value Cache)壓縮至僅 3 比特,同時實現零精度損失。

      在 NVIDIA H100 GPU 上的測試中,4 比特精度的 TurboQuant 在計算注意力 logits 時取得了相比 32 位未量化基線高達 8 倍的性能提升。這篇論文將于下月在 ICLR 2026 上正式發表,第一作者 Amir Zandieh 是 Google Research 的研究科學家,通訊作者 Vahab Mirrokni 是 Google Research 副總裁兼 Google Fellow。


      圖丨相關論文(來源:arXiv)

      消息發布當天,資本市場給出了自己的解讀。內存芯片廠商 SanDisk(SNDK)股價在周三交易時段下跌約 5%,收于 677.86 美元。分析師指出,TurboQuant 所代表的極端壓縮技術路線,對于一家憑借 AI 驅動的內存需求在 2025 年股價飆漲近 196% 的芯片公司而言,構成了直接的敘事威脅。這個市場反應或許有些過度,但華爾街的焦慮也不無道理,畢竟 KV 緩存的內存開銷,確實已經是 LLM 運營者賬單上最大的單項成本之一。

      大語言模型在生成文本時,每處理一個 token 都需要計算并存儲一組 key 和 value 向量,以便后續生成時不必從頭重算。這些向量逐 token 累積,內存占用隨上下文長度線性增長。

      以 Llama 3 70B 參數模型為例,當并發服務 512 個請求、每個請求的 prompt 長度為 2,048 個 token 時,僅 KV 緩存就需要大約 512GB 的存儲空間,幾乎是模型權重本身所需內存的四倍。上下文窗口越長,這個數字就越夸張。對于任何在生產環境中運行 LLM 的團隊來說,KV 緩存的內存開銷早已從技術細節升級為成本核心。

      傳統的向量量化方法確實可以壓縮 KV 緩存,把浮點數映射到低比特的整數表示,但大多數方案都面臨一個共同的尷尬:為了保證量化精度,每個數據塊都需要額外存儲一組全精度的量化常數(比如縮放因子和零點),這些常數本身會增加 1 到 2 個比特的額外開銷,相當于一邊壓縮一邊又把空間還回去。TurboQuant 瞄準的正是這個問題。

      TurboQuant 本質上是三篇論文的組合成果。第一個組件叫 PolarQuant,將在 AISTATS 2026 上發表。它的核心思路是對輸入向量做一次隨機旋轉,將數據從標準的笛卡爾坐標系轉換到極坐標系。傳統量化方法在笛卡爾坐標下工作,需要為每個數據塊單獨計算歸一化參數,而極坐標變換后,向量被分解為一個半徑(代表信號強度)和一組角度(代表方向信息)。

      關鍵在于,旋轉后每個坐標的分布會收斂到一個已知的 Beta 分布(高維下近似高斯分布),且不同坐標之間近似獨立。這意味著可以對每個坐標獨立地使用最優的標量量化器(通過經典的 Lloyd-Max 算法求解連續一維 k-means 問題),不再需要存儲逐塊的量化常數,從根本上消除了傳統方法的內存開銷。

      第二個組件是 QJL(Quantized Johnson-Lindenstrauss,量化 JL 變換),已于 AAAI 2025 發表。QJL 利用經典的 Johnson-Lindenstrauss 變換將高維數據降維,同時把每個結果值壓到只剩一個符號位(+1 或 -1),整個過程零額外內存開銷。它的價值在于提供無偏的內積估計,這對注意力計算至關重要。

      TurboQuant 將兩者組合成一個兩階段流水線:先用 PolarQuant 以 b-1 比特的精度完成主體壓縮,吃掉絕大部分誤差;再對殘差(主體壓縮后剩余的微小誤差)施加 1 比特的 QJL 變換,消除內積估計中的偏差。論文從信息論角度證明,這種組合方案的失真率與 Shannon 下界之間只差一個約 2.7 的常數因子。換句話說,TurboQuant 在理論上已經非常接近任何壓縮算法所能達到的最優邊界。

      實驗結果的亮點集中在幾個方面。在“大海撈針”(Needle-in-a-Haystack)測試中,TurboQuant 在將 KV 緩存壓縮至少 6 倍的情況下,取得了與未壓縮基線完全一致的 0.997 分,而此前廣泛使用的 KIVI 方法在同等壓縮條件下得分為 0.981,SnapKV 和 PyramidKV 等 token 級剪枝方案的表現則更弱。

      在 LongBench 基準上,覆蓋問答、摘要、代碼補全和 few-shot 學習等任務,3.5 比特的 TurboQuant 在 Llama-3.1-8B-Instruct 上取得了 50.06 的平均分,與 16 比特全精度緩存的 50.06 持平;即便壓到 2.5 比特,平均分也只微降至 49.44。


      圖丨大海撈針基準測試結果(來源:arXiv)

      在向量搜索場景中,TurboQuant 同樣表現突出。研究團隊在 GloVe(200 維)和 OpenAI 嵌入(1536 維、3072 維)數據集上將其與 Product Quantization(PQ)和 RabitQ 做了對比。TurboQuant 在各個維度和比特精度下的 1@k 召回率均優于兩個基線,且完全不需要離線構建碼本,PQ 需要 37 秒的碼本構建時間(200 維、4 比特),RabitQ 需要 597 秒,TurboQuant 只需 0.0007 秒,幾乎可以忽略。這意味著它天然適合數據持續更新的在線索引場景。


      圖丨GloVe 數據集(d=200)基準測試結果(來源:Google Researc)

      值得一提的是,近期英偉達發布的 KVTC(KV Cache Transform Coding)也致力于這一方向(同樣被 ICLR 2026 接收),且宣稱可達 20 倍壓縮,精度損失控制在 1 個百分點以內。不過兩者嚴格來說解決的是不同環節的問題。

      TurboQuant 是向量量化路線,目標是在推理過程中即時把 KV cache 壓到低比特,然后直接用量化后的數據計算注意力,同時還兼顧向量搜索場景。 KVTC 走的是變換編碼路線,借鑒 JPEG 圖像壓縮的思路:先用 PCA 去相關,再做自適應量化,最后用 DEFLATE 熵編碼進一步壓縮。它更側重于 KV cache 的緊湊存儲與傳輸,典型場景是多輪對話之間把 cache 卸載到 CPU 或 SSD 再恢復,或者跨請求復用 cache。

      NVIDIA 研究員 Adrian Lancucki 在接受 VentureBeat 采訪時也明確表示,KVTC 針對的是長上下文、多輪對話場景。相比較而言,TurboQuant則針對的是推理計算路徑上的實時壓縮。

      在此之前,KV 緩存量化領域的標準基線是 2024 年發表于 ICML 的 KIVI,它引入了非對稱 2 比特量化方案,實現了約 2.6 倍的內存壓縮。KIVI 已經集成進了 HuggingFace Transformers,是目前部署最廣泛的方案之一。TurboQuant 在同類向量量化路線上直接把壓縮比從 2.6 倍拉到 6 倍以上,且不需要任何校準數據,進步幅度相當明顯。

      需要指出的是,TurboQuant 論文中的實驗模型規模止步于 8B 參數左右(Llama-3.1-8B-Instruct、Ministral-7B-Instruct),尚未在 70B 或更大規模的模型上驗證。而恰恰是在這些大模型上,KV 緩存的壓縮才最迫切、收益也最大。

      另外,這篇論文最早于 2025 年 4 月就出現在 arXiv 上,到現在快一年了,谷歌也沒有公布官方的代碼實現或與現有推理框架(如 vLLM、TensorRT-LLM)的集成計劃,雖然社區已經出現了基于 Triton、MLX 和 llama.cpp 的第三方實現嘗試。

      Mirrokni 團隊此前的 Titans 架構和 Nested Learning 范式也是類似情況,論文效果亮眼,學術社區討論熱烈,但官方代碼始終沒有釋出,落地全靠第三方復現。TurboQuant 是否會重復這個模式,目前還不好說。

      從這一點上來說,內存股價跌得可能有點太早了,更何況,AI 模型對內存的胃口,總是會迅速膨脹到填滿所有可用空間。SemiAnalysis 此前在分析 HBM 發展路線時提過一個觀察,可以叫“內存帕金森定律”:每一輪硬件升級或軟件優化釋放出來的余量,很快就會被更長的上下文窗口、更大的批處理規模、更復雜的推理管線吞掉。

      所以,TurboQuant 省下來的那 5 倍內存,大概率不會讓 GPU 閑著,它會被用來服務更多并發請求、處理更長的文檔,或者跑原本塞不下的大模型。壓縮技術擴大的是推理效率的供給側,不是在縮減內存的需求總量。

      參考資料:

      1.https://arxiv.org/pdf/2504.19874

      2.https://arxiv.org/pdf/2511.01815

      3.https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中日破裂,這是53年來對日最強硬的外交表態!

      中日破裂,這是53年來對日最強硬的外交表態!

      見聞致
      2025-11-15 21:21:56
      女孩當小姐,一晚要提供4到5次上門服務,被親人點到不赴約

      女孩當小姐,一晚要提供4到5次上門服務,被親人點到不赴約

      情感藝術家
      2026-02-26 10:48:00
      2026動作片《導火線》全員炸場!

      2026動作片《導火線》全員炸場!

      小椰的奶奶
      2026-03-24 13:25:22
      張雪峰說得對!深圳社保就是淘汰本末倒置的!直接封神!

      張雪峰說得對!深圳社保就是淘汰本末倒置的!直接封神!

      煙潯渺渺
      2026-03-26 17:07:45
      防空被打穿,命脈被掐斷,以色列活成加沙模樣,因果報應輪到誰?

      防空被打穿,命脈被掐斷,以色列活成加沙模樣,因果報應輪到誰?

      坦蕩的雪莉
      2026-03-25 18:47:31
      曼城對羅德里示好皇馬不意外 已考察三大候選人 均是英超悍將

      曼城對羅德里示好皇馬不意外 已考察三大候選人 均是英超悍將

      智道足球
      2026-03-26 20:38:26
      一家四口都是演員,媽媽演過《紅樓夢》,大兒子是國家一級演員

      一家四口都是演員,媽媽演過《紅樓夢》,大兒子是國家一級演員

      白面書誏
      2026-03-24 14:40:27
      福氣追著跑!三大生肖命中帶財,2026一路順遂財運旺到年底!

      福氣追著跑!三大生肖命中帶財,2026一路順遂財運旺到年底!

      毅談生肖
      2026-03-26 11:31:20
      戰爭太殘酷,3天死一個加強旅

      戰爭太殘酷,3天死一個加強旅

      北京作家編劇肥豬滿圈
      2026-03-24 19:08:36
      美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

      美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

      夜深愛雜談
      2026-03-08 21:28:24
      舒淇在節目里第一次承認,她和馮德倫為了要孩子已經折騰了九年。

      舒淇在節目里第一次承認,她和馮德倫為了要孩子已經折騰了九年。

      歲月有情1314
      2025-11-29 15:40:25
      何超瓊不愧是豐腴美人,穿白色低胸連衣裙凹凸有致,老了更撩人!

      何超瓊不愧是豐腴美人,穿白色低胸連衣裙凹凸有致,老了更撩人!

      蓓小西
      2026-03-17 08:39:55
      葉劍英向毛主席匯報,主席突然問他:想衣錦還鄉嗎?你的感受如何

      葉劍英向毛主席匯報,主席突然問他:想衣錦還鄉嗎?你的感受如何

      阿器談史
      2026-03-25 15:36:30
      李連杰當面一句“我剛換了心臟”,謝苗臉唰一下白了,氣都不敢喘

      李連杰當面一句“我剛換了心臟”,謝苗臉唰一下白了,氣都不敢喘

      西樓知趣雜談
      2026-02-28 21:36:48
      全球同步收到消息,冕寧縣探明世界級稀土巨礦,美地質調查局緊盯

      全球同步收到消息,冕寧縣探明世界級稀土巨礦,美地質調查局緊盯

      影孖看世界
      2026-03-25 22:53:40
      浙江男子馬達加斯加開“手機網吧”爆火:全天候營業,收費1.5元/小時,每天約200人次來玩

      浙江男子馬達加斯加開“手機網吧”爆火:全天候營業,收費1.5元/小時,每天約200人次來玩

      極目新聞
      2026-03-26 19:21:35
      伊朗格斗冠軍被捕!或被截肢+判處死刑 曾來中國參賽 擊敗5大高手

      伊朗格斗冠軍被捕!或被截肢+判處死刑 曾來中國參賽 擊敗5大高手

      念洲
      2026-03-25 17:59:21
      浙江金華一校花好漂亮, 國色天姿,眉眼帶笑 美的讓人移不開眼

      浙江金華一校花好漂亮, 國色天姿,眉眼帶笑 美的讓人移不開眼

      情感大頭說說
      2026-03-26 13:20:25
      53歲女子假扮33歲老師相親,常年攜帶保鏢、雇人拉車門裝富婆!一句“我幫你生兒子”釣走上海老人16萬

      53歲女子假扮33歲老師相親,常年攜帶保鏢、雇人拉車門裝富婆!一句“我幫你生兒子”釣走上海老人16萬

      大象新聞
      2026-03-26 20:45:04
      中方是否了解美伊磋商情況?外交部:支持一切有利緩局降溫的努力

      中方是否了解美伊磋商情況?外交部:支持一切有利緩局降溫的努力

      澎湃新聞
      2026-03-26 15:32:26
      2026-03-26 21:19:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16491文章數 514797關注度
      往期回顧 全部

      科技要聞

      Meta高管狂分百億期權,700名員工卻下崗

      頭條要聞

      張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

      頭條要聞

      張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

      體育要聞

      申京努力了,然而杜蘭特啊

      娛樂要聞

      劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

      財經要聞

      油價"馴服"特朗普?一到100美元就TACO

      汽車要聞

      一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

      態度原創

      數碼
      家居
      健康
      時尚
      公開課

      數碼要聞

      小米Book Pro 14超薄設計引爆市場!這家國產廠商立功了

      家居要聞

      傍海而居 靜觀蝴蝶海

      轉頭就暈的耳石癥,能開車上班嗎?

      上新|| 她們說,找到了自己的人生裙子!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版