<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Google把AI模型壓了3倍,手機跑大模型終于不用等云了

      0
      分享至


      2026年3月24日,Google Research扔出一組數字:4倍壓縮,零精度損失。不是實驗室玩具,是已經測完的量產方案。

      這事的背景很現實——你的手機想跑大模型,要么等云端回傳,要么被內存卡死。TurboQuant(渦輪量化)就是沖著這個卡脖子環節來的。它干掉了傳統量化方法里那個隱藏的"內存稅",讓壓縮后的模型直接塞進邊緣設備。

      Amir Zandieh和Vahab Mirrokni在博客里說得很直接:「向量是AI理解世界的基本方式」。小向量描述簡單屬性,比如圖上的一個點;高維向量捕捉復雜信息——圖像特征、詞義、數據集屬性。但高維向量的代價是內存爆炸,直接堵死鍵值緩存(KV Cache)這個高速"數字備忘條"。

      傳統向量量化有個尷尬的秘密:它自己也要吃內存。大多數方法需要為每個小塊數據計算并存儲全精度的量化常數,額外開銷1-2比特/數字。壓縮了一半,又被 overhead 吃回來。

      TurboQuant的解法分兩步。先用Quantized Johnson-Lindenstrauss(量化約翰遜-林登斯特勞斯變換,QJL)把高維數據"拍扁",同時保住數據點之間的關鍵距離關系;再用PolarQuant(極化量化)處理剩下的細節。兩者都是ICLR 2026和AISTATS 2026的接收論文,理論底子扎實。

      QJL:數學上的"保距壓縮"

      Johnson-Lindenstrauss變換是個經典工具,核心承諾是:高維空間里的點集,可以映射到低維空間,且點間距離幾乎不變。QJL的創新在于把變換后的結果進一步量化到單比特,同時控制失真。

      具體來說,QJL對每個向量施加隨機投影矩陣,將原本32位浮點數的高維表示,壓縮到1比特/維度。聽起來瘋狂,但數學保證是:內積和歐氏距離的估計誤差有明確上界。

      Amir Zandieh團隊在測試中發現,QJL在向量檢索任務上的召回率損失可以壓到1%以內。對于需要海量候選匹配的搜索場景,這個代價幾乎可忽略,但內存占用直接砍到1/32。

      傳統方法到這里會停住——隨機投影需要存儲投影矩陣,或者至少存儲隨機種子和生成狀態。QJL的 trick 是構造結構化隨機矩陣,用極少的參數(比如一個哈希種子)就能復現整個投影過程。存儲開銷從O(d2)降到O(1)。

      PolarQuant:定向優化的"二次壓縮"

      QJL處理完"骨架",PolarQuant負責"血肉"。它針對殘差向量做極坐標分解,把剩余信息按重要性分層編碼。

      關鍵觀察是:經過QJL壓縮后的殘差,在不同方向上的方差分布極不均勻。PolarQuant用自適應比特分配,把有限的比特預算砸向高方差方向,低方差方向粗暴截斷。這種"好鋼用在刀刃上"的策略,讓同等比特率下的重建誤差再降40%。

      Amir Zandieh的解釋很產品經理:「就像JPEG對圖像做DCT變換后,對高頻分量粗量化一樣」。PolarQuant把向量當成了信號,用信息論的工具重新排布比特。

      兩者組合成TurboQuant時有個精妙之處:QJL的隨機投影天然打亂原始數據的結構,讓后續PolarQuant的極坐標分解更均勻,避免了某些方向被過度壓縮的死角。

      KV Cache:被忽視的內存黑洞

      大模型推理時,KV Cache是隱形成本大戶。生成每個新token,都要把前面所有token的鍵(Key)和值(Value)向量調出來做注意力計算。長對話場景下,這部分內存占用會超過模型參數本身。


      以Llama 3 70B為例,32K上下文、批量大小為1時,KV Cache吃掉約80GB顯存。模型參數才140GB,緩存已經追上一大半。上下文再拉長,緩存線性增長,參數固定不變,很快成為瓶頸。

      現有解法分兩類:稀疏化(扔掉不重要的歷史token)和量化(壓縮存起來的向量)。稀疏化丟信息,長程依賴容易斷;傳統量化有前面說的overhead問題,且對異常值敏感。

      TurboQuant的測試數據顯示:在Llama 3和Mistral系列上,4倍壓縮(4-bit)時perplexity(困惑度,衡量語言模型預測能力的指標)變化小于0.5%,8倍壓縮(2-bit)時仍控制在2%以內。作為對比,標準INT8量化在2-bit時通常崩掉,perplexity暴漲超過10%。

      Vahab Mirrokni提到一個細節:「我們在Google內部的搜索索引上跑了A/B測試,QJL讓向量檢索的P99延遲從23ms降到7ms」。搜索是Google的老本行,這個場景驗證通過,意味著技術已經過生產環境的壓力測試。

      向量搜索:從"近似"到"幾乎一樣"

      向量搜索是另一個主戰場。推薦系統、圖像檢索、RAG(檢索增強生成,Retrieval-Augmented Generation)都依賴它:把查詢轉成向量,在海量候選向量里找最相似的K個。

      暴力精確搜索的復雜度是O(N×d),N是候選數,d是維度。十億級候選、千維向量時,這數字算不過來。工業界的解法是近似最近鄰搜索(ANN, Approximate Nearest Neighbor),用空間換時間,預先建索引。

      但ANN有個 trade-off:索引體積 vs. 搜索精度。壓縮后的向量能讓索引更小,緩存更多,減少磁盤IO。TurboQuant的4倍壓縮,意味著同樣內存能塞4倍候選,或者同樣候選用1/4機器。

      Google Research的測試覆蓋了兩個典型場景:

      文本嵌入檢索:MS MARCO數據集上,QJL壓縮到1-bit后,NDCG@10指標損失0.8%,但索引體積從12GB壓到380MB。單臺服務器就能吞下全量索引,查詢全程內存命中。

      圖像向量搜索:ImageNet特征向量(2048維)用PolarQuant壓到4-bit,Top-1召回率從99.2%降到98.7%,但查詢吞吐量提升6倍。對于"以圖搜圖"這類延遲敏感場景,這是劃算的買賣。

      Amir Zandieh的團隊還測了一個極端情況:把QJL和PolarQuant疊到1+2比特(QJL輸出1-bit,PolarQuant殘差2-bit),總3-bit。結果在GloVe詞向量類比任務上,語義相似度排名的Spearman相關系數只掉了0.03。這個壓縮率下,傳統方法早已面目全非。

      為什么現在能成:理論工具的成熟

      向量量化不是新東西,80年代就有了。但把理論保證推到實用級別,需要幾個條件同時滿足:

      隨機投影的集中不等式(Concentration Inequality)精度提升。Johnson-Lindenstrauss引理的經典版本說,k維投影能把n個點的距離失真控制在(1±ε)內,要求k=O(ε?2log n)。近年 tighter 的分析把常數項壓到實用范圍,讓1-bit量化有了數學底氣。

      極化碼(Polar Code)的思想遷移。PolarQuant的名字來源——Erdal Ar?kan的極化碼理論,原本用于信道編碼,核心是通過線性變換把噪聲"極化"到少數維度。PolarQuant把向量殘差當成"信道",把量化噪聲當成"干擾",用類似策略讓重要方向少受污染。

      硬件友好性的刻意設計。TurboQuant的解壓流程全是位運算和查表,沒有浮點除法或復雜非線性。這意味著GPU/TPU上的內核可以寫得很薄,解壓開銷壓到計算時間的5%以下。 Amir Zandieh提到:「我們花了三個月調CUDA內核,讓QJL的投影矩陣生成和PolarQuant的極坐標查表都能fuse成單個kernel launch」。


      落地路徑:Google內部的優先級

      技術博客的發布時機值得玩味。ICLR 2026和AISTATS 2026的接收結果剛出,Google選擇同步放代碼和博客,而不是等會議召開。這種"預發布"策略通常意味著:產品化已經在路上。

      Vahab Mirrokni的身份是VP兼Google Fellow,這個級別的人出面寫技術博客,信號強度高于普通研究員。Google Fellow是Google技術職級的天花板,全公司幾十人,能調動工程資源把研究變成服務。

      可能的落地場景:

      搜索排名的實時向量匹配。Google搜索早就用神經網絡做語義理解,但十億級文檔的向量索引一直是成本大頭。TurboQuant能讓更多索引進內存,或者同樣預算下建更精細的分層索引。

      Android端的Gemini Nano擴容。現在Gemini Nano是3.2B參數,受限于手機內存。TurboQuant的4倍壓縮理論上能讓12B模型以同等內存 footprint 跑在本地,接近Gemini Pro的輕量版體驗。

      Cloud TPU的KV Cache優化。Google Cloud賣TPU實例,內存是定價的關鍵變量。如果TurboQuant能讓客戶用更少TPU跑同樣長的上下文,或者同樣TPU跑更長上下文,這是直接的差異化賣點。

      Amir Zandieh在博客結尾留了個鉤子:「我們正在探索TurboQuant和多模態模型的結合」。多模態的向量維度通常更高(圖像+文本聯合嵌入動輒上萬維),壓縮收益更大,但不同模態的統計特性差異也大,需要針對性調參。

      開源社區的反應很快。博客發布當天,Hugging Face上就有開發者用llama.cpp的量化接口試搭TurboQuant,發現QJL的投影矩陣生成可以用SIMD指令加速,單核每秒能處理百萬級向量。PolarQuant的極坐標查表更適合GPU并行,但CPU fallback 已經可用。

      一個細節被多人驗證:TurboQuant對"異常值向量"(outlier vectors)的魯棒性明顯好于標準INT8。Transformer的注意力分數偶爾爆出極大值,傳統量化會在這類向量上嚴重失真,TurboQuant的隨機投影把異常值"攤平"到多個維度,單點爆炸被稀釋。

      也有踩坑的。有人在Mistral 7B上試8倍壓縮(2-bit),發現代碼生成任務的HumanEval通過率掉了8個百分點,比博客報告的語言建模perplexity惡化更明顯。 Amir Zandieh在評論區回復:「代碼生成對精確token匹配更敏感,建議用4-bit或配合speculative decoding」。這個互動本身說明團隊在看反饋,技術細節沒有封死。

      競品視角:OpenAI的GPT-4 Turbo、Anthropic的Claude 3、Meta的Llama 3,都沒有公開同等強度的KV Cache量化方案。OpenAI的API定價按token數走,不暴露底層優化;Meta的Llama.cpp社區有GGUF格式的大量實踐,但理論保證弱于TurboQuant。Google這次選擇先發論文再開源,節奏上搶了一個身位。

      長期懸念在于:TurboQuant的隨機投影需要固定矩陣維度,模型架構變更時是否要重新調參? Amir Zandieh的博客提到「維度自適應的擴展正在研究中」,但沒給時間表。如果Llama 4或者Gemini 2換了隱藏層維度,現有QJL矩陣可能直接作廢,這是落地中的摩擦成本。

      另一個未知數是硬件廠商的配合。TurboQuant的位運算設計對通用GPU友好,但專用AI加速器(比如Google自己的TPU、蘋果的Neural Engine)有各自的內存布局和指令集。QJL的1-bit訪問模式在某些架構上可能觸發對齊懲罰,需要針對性內核優化。Google有TPU的全??刂茩?,但第三方芯片的適配要看社區或廠商意愿。

      回到用戶視角:如果TurboQuant順利落地,明年你用手機跑本地大模型,上下文長度可能從現在的4K跳到32K,或者同樣4K但響應速度快3倍。不是云端的幻覺,是芯片里的真實計算。

      Google Research的博客最后放了一張圖:Llama 3 70B的KV Cache占用隨上下文長度的曲線,TurboQuant 4-bit版本和原始FP16的gap隨長度線性拉開。8K上下文時差距是60GB vs 15GB,32K時是240GB vs 60GB。這差距就是成本,就是能不能在單卡上跑起來的分界線。

      Amir Zandieh和Vahab Mirrokni沒有寫總結陳詞,最后一段是技術細節:「PolarQuant的極坐標分解采用貪心比特分配,迭代優化直到邊際收益低于閾值」。典型的工程師收尾——事情還沒完,但第一塊石頭已經搬開。

      現在的問題是:當你的手機能本地跑12B模型時,那些依賴云端API收費的商業模式,還站得住腳嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      前女友緬懷張雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

      前女友緬懷張雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

      古希臘掌管松餅的神
      2026-03-25 15:38:23
      美國和伊朗聯手演戲,騙了全世界,最大輸家出現,并非以色列

      美國和伊朗聯手演戲,騙了全世界,最大輸家出現,并非以色列

      瀲滟晴方DAY
      2026-01-28 18:36:19
      人形機器人,沒有前途

      人形機器人,沒有前途

      世界靈敏度趙靈敏
      2026-03-25 19:35:45
      41歲張雪峰不幸離世,死因和細節曝光,留下11歲女兒和上億存款

      41歲張雪峰不幸離世,死因和細節曝光,留下11歲女兒和上億存款

      叨嘮
      2026-03-24 23:57:56
      TVB開拍今年首部新劇,金牌監制回歸,男女主角三搭引爆期待

      TVB開拍今年首部新劇,金牌監制回歸,男女主角三搭引爆期待

      TVB劇評社
      2026-03-25 21:01:24
      財務自由后的感覺是怎樣?網友講述實際體驗 感嘆只有羨慕的份

      財務自由后的感覺是怎樣?網友講述實際體驗 感嘆只有羨慕的份

      侃神評故事
      2026-03-24 18:00:10
      突襲!2000億新消費龍頭,午后閃崩暴跌超20%!什么情況?滬指重回3900,市場連續百股漲停...

      突襲!2000億新消費龍頭,午后閃崩暴跌超20%!什么情況?滬指重回3900,市場連續百股漲停...

      雪球
      2026-03-25 15:53:10
      法國女生來中國旅游,家人擔心不安全,她回國后:中國讓人意外!

      法國女生來中國旅游,家人擔心不安全,她回國后:中國讓人意外!

      千秋文化
      2026-03-25 21:43:36
      一加 15T 起售價 4299 元,李杰:定價壓力巨大

      一加 15T 起售價 4299 元,李杰:定價壓力巨大

      數智前線
      2026-03-25 06:10:32
      伊朗導彈撐了近一個月,中國能撐多久?俄專家斷言:半小時定勝負

      伊朗導彈撐了近一個月,中國能撐多久?俄專家斷言:半小時定勝負

      阿芒娛樂說
      2026-03-25 17:11:09
      河南00后游戲主播因手長得像“奶龍”卻打出五殺戰績火了,本人回應:是天生殘疾,一開始很自卑

      河南00后游戲主播因手長得像“奶龍”卻打出五殺戰績火了,本人回應:是天生殘疾,一開始很自卑

      大象新聞
      2026-03-25 19:45:06
      打不好就靠邊站!43歲少帥動真格,將2名“嫡系”,移出輪換陣容

      打不好就靠邊站!43歲少帥動真格,將2名“嫡系”,移出輪換陣容

      金山話體育
      2026-03-24 18:30:39
      深夜,暴漲!伊朗,拒絕美國!

      深夜,暴漲!伊朗,拒絕美國!

      中國基金報
      2026-03-26 00:19:55
      杜月笙的識人術:只看對方的一個站姿,就能知道他是龍還是蟲

      杜月笙的識人術:只看對方的一個站姿,就能知道他是龍還是蟲

      千秋文化
      2026-03-23 20:09:06
      名記:利物浦計劃引進兩名邊鋒,在關注迪奧曼德和小孔塞桑

      名記:利物浦計劃引進兩名邊鋒,在關注迪奧曼德和小孔塞桑

      懂球帝
      2026-03-26 00:45:09
      伊朗據悉要求希望通過霍爾木茲海峽的船舶提供船員和貨物詳情

      伊朗據悉要求希望通過霍爾木茲海峽的船舶提供船員和貨物詳情

      財聯社
      2026-03-25 18:48:03
      廣州多家金店迎購金潮:有人到店兩分鐘,就買了9萬元金飾

      廣州多家金店迎購金潮:有人到店兩分鐘,就買了9萬元金飾

      南方都市報
      2026-03-25 19:26:22
      臺海第1槍打響后,解放軍全力收臺,96個小時內就能結束戰斗?

      臺海第1槍打響后,解放軍全力收臺,96個小時內就能結束戰斗?

      暮雨咋歇著
      2026-03-25 05:35:58
      2-2泰國,2人表現亮眼,1人不受主帥待見,球迷:山東泰山好幸福

      2-2泰國,2人表現亮眼,1人不受主帥待見,球迷:山東泰山好幸福

      我就是一個說球的
      2026-03-25 22:19:57
      震驚!河北35歲女子征婚,不上班不做飯,要求每個月給一萬生活費

      震驚!河北35歲女子征婚,不上班不做飯,要求每個月給一萬生活費

      火山詩話
      2026-03-23 07:28:09
      2026-03-26 01:07:00
      薛定諤的BUG
      薛定諤的BUG
      有態度網友ytd
      52文章數 0關注度
      往期回顧 全部

      科技要聞

      紅極一時卻草草收場,Sora宣布正式關停

      頭條要聞

      伊朗放話愿意與"主和派"萬斯談 特朗普表態

      頭條要聞

      伊朗放話愿意與"主和派"萬斯談 特朗普表態

      體育要聞

      35歲替補門將,憑什么入選英格蘭隊?

      娛樂要聞

      張雪峰經搶救無效不幸去世 年僅41歲

      財經要聞

      管濤:中東局勢如何影響人民幣匯率走勢?

      汽車要聞

      智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

      態度原創

      房產
      教育
      本地
      時尚
      健康

      房產要聞

      41億!259畝!建學?!齺嗊@個大城更,最新方案曝光!

      教育要聞

      寒門的缺點是自負,優點是敢拼

      本地新聞

      來永泰同安 赴一場春天的約會

      女人過了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版