<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      谷歌沖破內(nèi)存墻!新算法內(nèi)存占用暴砍83%,速度提升8倍!

      0
      分享至


      智東西
      編譯 劉煜
      編輯 陳駿達(dá)

      智東西3月26日?qǐng)?bào)道,昨天,谷歌于發(fā)布了一款針對(duì)大語言模型鍵值緩存(KV Cache)的無損極限壓縮算法TurboQuant,它能夠從根本上解決向量量化中內(nèi)存開銷問題。谷歌稱,TurboQuant可將大語言模型鍵值緩存內(nèi)存占用至少降至原來的1/6,推理速度最高提升8倍,同時(shí)保持100%精確程度。

      Cloudflare的聯(lián)合創(chuàng)始人、CEO兼執(zhí)行主席Matthew Prince稱,谷歌推出TurboQuant堪稱“谷歌的DeepSeek時(shí)刻”。


      ▲Matthew Prince的推文(圖源:X)

      向量量化一直是企業(yè)為AI數(shù)據(jù) “瘦身” 的主流技術(shù),主要用于壓縮高維向量、節(jié)省內(nèi)存、提升檢索與推理效率。但傳統(tǒng)壓縮方法通常會(huì)引入額外的內(nèi)存開銷(每一小塊數(shù)據(jù)都要單獨(dú)算、單獨(dú)存一套完整的“壓縮參數(shù)”),這些參數(shù)很占內(nèi)存,每個(gè)數(shù)字都要多占1-2 bit,這樣反而會(huì)影響向量量化的效果。

      谷歌稱,此次推出的TurboQuant借助了谷歌提出的1 bit無偏誤差校正算法QJL極坐標(biāo)量化壓縮技術(shù)PolarQuant,實(shí)現(xiàn)了壓縮算法的突破。

      谷歌官宣推出TurboQuant后,引發(fā)資本市場(chǎng)短期內(nèi)對(duì)該技術(shù)會(huì)降低存儲(chǔ)芯片采購需求的擔(dān)憂,導(dǎo)致存儲(chǔ)芯片板塊集體回調(diào)。

      當(dāng)天美股盤中,美光股票跌幅超過5%,收盤時(shí)下跌3.4%,市值蒸發(fā)約151.6億美元(約合人民幣1047.37億元)。閃迪股票下跌幅度更大,一度超過7%,收盤時(shí)下跌3.5%,市值蒸發(fā)約36.44億美元(約合人民幣251.75億元)。韓股收盤時(shí),SK海力士股價(jià)下跌了6.23%。


      ▲美光、閃迪股價(jià)圖(圖源:騰訊自選股)SK海力士股價(jià)圖(圖源:Investing)

      博客鏈接:

      https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

      一、TurboQuant的工作原理:高質(zhì)量壓縮與誤差修正

      TurboQuant能夠在零精度損失下實(shí)現(xiàn)模型尺寸的大幅縮小,非常適合支持鍵值緩存壓縮和向量搜索。它主要通過兩個(gè)關(guān)鍵步驟實(shí)現(xiàn)這一目標(biāo)。

      TurboQuant首先對(duì)數(shù)據(jù)向量進(jìn)行隨機(jī)旋轉(zhuǎn)變換,這樣處理簡(jiǎn)化了數(shù)據(jù)的幾何結(jié)構(gòu),使得TurboQuant可以對(duì)向量的每個(gè)部分單獨(dú)應(yīng)用標(biāo)準(zhǔn)的高質(zhì)量量化器(量化器是一種將大量連續(xù)數(shù)值映射為更少并且離散的符號(hào)或數(shù)值的工具,比如音頻量化與JPEG壓縮)。

      第一階段,PolarQuant利用大部分壓縮算力(絕大多數(shù)比特位)來捕捉原始向量的核心語義與特征強(qiáng)度,完成主體壓縮

      PolarQuant不再使用表示各軸距離的標(biāo)準(zhǔn)坐標(biāo)系(即X、Y、Z坐標(biāo))來描述向量,而是通過笛卡爾坐標(biāo)系將向量轉(zhuǎn)換為極坐標(biāo)。這就好比把“向東走3個(gè)街區(qū),向北走4個(gè)街區(qū)”,替換成“沿37度方向走5個(gè)街區(qū)”。

      PolarQuant轉(zhuǎn)換后只會(huì)保留半徑(代表核心數(shù)據(jù)的強(qiáng)度)和角度(代表數(shù)據(jù)的方向或語義)。由于角度的分布規(guī)律已知且高度集中,模型不再需要執(zhí)行計(jì)算代價(jià)高昂的數(shù)據(jù)歸一化操作。它將數(shù)據(jù)映射到一個(gè)邊界固定、可預(yù)測(cè)的圓形網(wǎng)格上,PolarQuant就不用再存那些“用來表示數(shù)據(jù)范圍”的額外信息,從而省下了一大塊內(nèi)存空間。


      ▲PolarQuant工作概念圖(圖源:谷歌官網(wǎng))

      第二階段,TurboQuant僅以1 bit的極小額外內(nèi)存開銷,將QJL作用于第一階段壓縮后殘留的微小誤差上,消除誤差

      QJL采用一種名為約翰遜–林登斯特勞斯變換(Johnson-Lindenstrauss Transform)的數(shù)學(xué)方法,在保留數(shù)據(jù)點(diǎn)之間基本距離與關(guān)聯(lián)關(guān)系的前提下,把復(fù)雜的數(shù)據(jù)壓縮成了一種超級(jí)簡(jiǎn)單、幾乎不占額外內(nèi)存、計(jì)算又特別快的格式。

      QJL在高精度查詢與低精度簡(jiǎn)化數(shù)據(jù)之間進(jìn)行結(jié)構(gòu)化平衡,相當(dāng)于一個(gè)數(shù)學(xué)誤差校正器,能夠消除壓縮帶來的偏差。這使得模型能夠精準(zhǔn)計(jì)算注意力分?jǐn)?shù)(即判斷輸入信息中哪些部分重要、哪些部分可安全忽略的核心過程)。

      二、拆解測(cè)試:TurboQuant強(qiáng)在哪?

      谷歌稱,在實(shí)驗(yàn)中,TurboQuant能在完全不降低AI模型效果、不損失精度的前提下,顯著解決鍵值緩存給模型推理帶來的性能瓶頸。

      谷歌拿Meta開源的Llama-3.1-8B模型做測(cè)試,將TurboQuant、PolarQuant和KIVI算法相比較,可以看到,與官方基準(zhǔn)線Full Cache相比,TurboQuant能夠?qū)㈡I值緩存量化至僅3.5 bit,并且沒有損失模型精度。同時(shí),PolarQuant也幾乎實(shí)現(xiàn)了無損壓縮。


      ▲TurboQuant的緩存壓縮性能圖(橫軸為性能得分,縱軸為量化方案)(圖源:谷歌官網(wǎng))

      谷歌對(duì)3種不同量化位寬的TurboQuant進(jìn)行測(cè)試,結(jié)果表明,在下圖的所有序列長(zhǎng)度(模型處理的文本token數(shù)量)中,TurboQuant 1 bit版本加速比最高,4 bit版本加速比最低。在1M超長(zhǎng)上下文中,TurboQuant 1 bit版本加速比在13倍左右,4 bit版本在7倍左右。

      同時(shí),谷歌稱TurboQuant在JAX框架(谷歌的超級(jí)加速框架)的基礎(chǔ)上,仍能實(shí)現(xiàn)顯著加速。在英偉達(dá)的H100 GPU上,TurboQuant 4 bit版本相比不壓縮的32bit原版鍵值緩存,速度最高提升8倍,不僅能加速大模型推理,還能大幅優(yōu)化向量搜索、索引構(gòu)建等關(guān)鍵場(chǎng)景。


      ▲TurboQuant計(jì)算注意力logits的加速效果圖(橫軸為序列長(zhǎng)度,縱軸為加速比)(圖源:谷歌官網(wǎng))

      在高維向量搜索任務(wù)中,谷歌以1@k召回率(1@k召回率用于衡量算法在其前k個(gè)近似結(jié)果中,壓縮后的向量和不壓縮時(shí)算出“最相似結(jié)果”一樣的概率。)為指標(biāo),將TurboQuant與當(dāng)前最優(yōu)方法PQ和RabbiQ進(jìn)行了效果對(duì)比。

      從下圖可以看到,不管是2 bit還是4 bit版本的TurboQuant,都在召回率指標(biāo)上持續(xù)取得了更優(yōu)表現(xiàn)。這證實(shí)了TurboQuant在高維搜索任務(wù)中的穩(wěn)健性與高效性。

      同時(shí),谷歌稱,在GloVe數(shù)據(jù)集(維度d=200)(斯坦福大學(xué)發(fā)布的經(jīng)典預(yù)訓(xùn)練詞向量數(shù)據(jù)集)上,TurboQuant在與當(dāng)前多種主流先進(jìn)量化方法的對(duì)比中,展現(xiàn)出穩(wěn)健的檢索性能,并實(shí)現(xiàn)了最優(yōu)的1@k召回率。


      ▲TurboQuant的召回率圖(橫軸是檢索范圍,縱軸是召回率)(圖源:谷歌官網(wǎng))

      由此可見,TurboQuant在PolarQuant主體壓縮的基礎(chǔ)上,通過極低比特量化與誤差校正,使鍵值緩存的存儲(chǔ)空間顯著減少,讓模型能夠在相同硬件條件下處理更長(zhǎng)的上下文、更大的批量數(shù)據(jù),同時(shí)降低推理成本。

      此外,TurboQuant的推理速度極快,精度幾乎達(dá)到無損效果,即使在超長(zhǎng)文本下其推理能力依然穩(wěn)定高效。

      結(jié)語:算法博弈下的存儲(chǔ)焦慮,企業(yè)推動(dòng)大模型“瘦身”革命

      TurboQuant在谷歌的測(cè)試中表現(xiàn)出了出色的出成績(jī),它能夠以極低的內(nèi)存占用、近乎為零的預(yù)處理耗時(shí),完成大規(guī)模向量索引的構(gòu)建與查詢,這讓“谷歌級(jí)別”的語義搜索變得更加快速高效。

      早在2025年,英偉達(dá)于在arXiv上公開了第一版KVTC,證明它能把大模型的鍵值緩存壓縮到原來的 1/20,同時(shí)精度損失不到1%。近期,英偉達(dá)更新了實(shí)測(cè)數(shù)據(jù),稱在H100 GPU上處理8000 Token的長(zhǎng)提示時(shí),模型生成第一個(gè)詞的時(shí)間,從傳統(tǒng)方案的3秒左右,縮短至380毫秒,速度提升8倍。

      科技大廠正通過持續(xù)的算法創(chuàng)新與迭代,不斷提升AI大模型的推理效率。在當(dāng)前存儲(chǔ)芯片供應(yīng)緊張的背景下,企業(yè)通過對(duì)大模型推理過程中的鍵值緩存進(jìn)行高效壓縮,來提升大模型自身的推理效率,或許可以在一定程度上緩解存儲(chǔ)芯片產(chǎn)能跟不上AI算力發(fā)展速度的局面。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      突發(fā)!上海最大商場(chǎng)砸的62億懸了!

      突發(fā)!上海最大商場(chǎng)砸的62億懸了!

      新浪財(cái)經(jīng)
      2026-03-26 00:14:57
      郜林:來銘途一個(gè)月沒開過會(huì);當(dāng)總經(jīng)理和踢球不同

      郜林:來銘途一個(gè)月沒開過會(huì);當(dāng)總經(jīng)理和踢球不同

      懂球帝
      2026-03-26 22:00:56
      中國最有名的9條家訓(xùn),讀懂一條旺家三代,建議收藏反復(fù)背誦

      中國最有名的9條家訓(xùn),讀懂一條旺家三代,建議收藏反復(fù)背誦

      長(zhǎng)風(fēng)文史
      2026-03-25 17:58:23
      中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國北斗令人意外

      中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國北斗令人意外

      混沌錄
      2026-03-18 23:54:31
      伊朗新最高領(lǐng)袖莫賈塔巴哈梅內(nèi)伊已同意與美國進(jìn)行談判并達(dá)成協(xié)議

      伊朗新最高領(lǐng)袖莫賈塔巴哈梅內(nèi)伊已同意與美國進(jìn)行談判并達(dá)成協(xié)議

      深度報(bào)
      2026-03-25 22:47:08
      華為、商湯等873家機(jī)構(gòu)遭AI頂會(huì)“封殺”,中國學(xué)界怒了

      華為、商湯等873家機(jī)構(gòu)遭AI頂會(huì)“封殺”,中國學(xué)界怒了

      智東西
      2026-03-26 20:49:23
      巴基斯坦把稀土賣給美國,以為捏住中國“七寸”,其實(shí)在玩火自焚

      巴基斯坦把稀土賣給美國,以為捏住中國“七寸”,其實(shí)在玩火自焚

      通文知史
      2026-03-24 08:35:03
      宋美齡書法對(duì)比:鋼筆字似小學(xué)生,英文手稿如中學(xué)生!

      宋美齡書法對(duì)比:鋼筆字似小學(xué)生,英文手稿如中學(xué)生!

      書畫相約
      2026-03-26 07:49:18
      先被里瓦爾多全面逆襲,后遭齊達(dá)內(nèi)強(qiáng)勢(shì)碾壓,全能戰(zhàn)士時(shí)運(yùn)不濟(jì)

      先被里瓦爾多全面逆襲,后遭齊達(dá)內(nèi)強(qiáng)勢(shì)碾壓,全能戰(zhàn)士時(shí)運(yùn)不濟(jì)

      足籃大世界
      2026-03-26 10:52:09
      三次精準(zhǔn)躲過斬首行動(dòng),卡尼突然現(xiàn)身反轉(zhuǎn)劇情,伊朗這局水太深了

      三次精準(zhǔn)躲過斬首行動(dòng),卡尼突然現(xiàn)身反轉(zhuǎn)劇情,伊朗這局水太深了

      盛夏微涼
      2026-03-24 18:10:08
      卡爾森:壞了!原來小丑不是特朗普,而是我自己

      卡爾森:壞了!原來小丑不是特朗普,而是我自己

      朝廷心腹
      2026-03-26 09:07:14
      真的太孤獨(dú)了!山東47歲母親稱已懷胎8月,兩女遠(yuǎn)嫁卻極力反對(duì)…

      真的太孤獨(dú)了!山東47歲母親稱已懷胎8月,兩女遠(yuǎn)嫁卻極力反對(duì)…

      火山詩話
      2026-03-25 13:41:56
      張近東資產(chǎn)清零,張朝陽手握百億現(xiàn)金:兩種人生,一個(gè)忠告

      張近東資產(chǎn)清零,張朝陽手握百億現(xiàn)金:兩種人生,一個(gè)忠告

      老特有話說
      2026-03-26 14:31:44
      一天蒸發(fā)6200億!谷歌算法黑科技擊潰存儲(chǔ)股,華爾街痛批市場(chǎng)“不懂技術(shù)”

      一天蒸發(fā)6200億!谷歌算法黑科技擊潰存儲(chǔ)股,華爾街痛批市場(chǎng)“不懂技術(shù)”

      每日經(jīng)濟(jì)新聞
      2026-03-26 19:00:13
      中國摩托在越南被日本本田打的慘敗!現(xiàn)在又一路翻盤,太解氣!

      中國摩托在越南被日本本田打的慘敗!現(xiàn)在又一路翻盤,太解氣!

      萬物知識(shí)圈
      2026-03-26 15:19:33
      蘋果受追捧,國產(chǎn)手機(jī)漲價(jià)基本失敗了,正在悄悄降價(jià)

      蘋果受追捧,國產(chǎn)手機(jī)漲價(jià)基本失敗了,正在悄悄降價(jià)

      柏銘銳談
      2026-03-24 15:38:55
      馬英九親自下場(chǎng)后,藍(lán)營(yíng)大佬集體回應(yīng),臺(tái)媒體人:罪在馬英九

      馬英九親自下場(chǎng)后,藍(lán)營(yíng)大佬集體回應(yīng),臺(tái)媒體人:罪在馬英九

      DS北風(fēng)
      2026-03-25 18:50:17
      iPhone半夜自動(dòng)打電話,蘋果官網(wǎng)發(fā)文回應(yīng)

      iPhone半夜自動(dòng)打電話,蘋果官網(wǎng)發(fā)文回應(yīng)

      界面新聞
      2026-03-26 15:46:22
      公積金新調(diào)整!4月1日起,職工可自愿提高繳存比例

      公積金新調(diào)整!4月1日起,職工可自愿提高繳存比例

      另子維愛讀史
      2026-03-25 22:28:47
      穎兒太敢了!素顏曝光臉頰凹陷,做醫(yī)美全程不藏著,疼到五官扭曲

      穎兒太敢了!素顏曝光臉頰凹陷,做醫(yī)美全程不藏著,疼到五官扭曲

      圓夢(mèng)的小老頭
      2026-03-26 21:31:03
      2026-03-27 00:00:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
      11443文章數(shù) 117016關(guān)注度
      往期回顧 全部

      科技要聞

      美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

      頭條要聞

      張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

      頭條要聞

      張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

      體育要聞

      申京努力了,然而杜蘭特啊

      娛樂要聞

      劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

      財(cái)經(jīng)要聞

      油價(jià)"馴服"特朗普?一到100美元就TACO

      汽車要聞

      一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

      態(tài)度原創(chuàng)

      健康
      時(shí)尚
      親子
      家居
      公開課

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      400萬人愛過的女孩,被黃謠網(wǎng)暴180天后

      親子要聞

      看看把孩子嚇得哈哈哈

      家居要聞

      傍海而居 靜觀蝴蝶海

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版