來(lái)源:環(huán)球網(wǎng)
【環(huán)球網(wǎng)財(cái)經(jīng)綜合報(bào)道】一篇尚未正式發(fā)表的學(xué)術(shù)論文,在3月26日引發(fā)全球存儲(chǔ)芯片板塊劇烈震蕩。據(jù)測(cè)算,全球主要內(nèi)存巨頭市值單日蒸發(fā)超900億美元。
![]()
這場(chǎng)波動(dòng)的導(dǎo)火索,是谷歌研究院即將在國(guó)際學(xué)習(xí)表征會(huì)議(ICLR 2026)上正式亮相的論文“TurboQuant”。
通常來(lái)說(shuō),當(dāng)用戶與AI對(duì)話時(shí),模型需要記住歷史上下文,這部分臨時(shí)存儲(chǔ)的數(shù)據(jù)隨上下文窗口膨脹而指數(shù)級(jí)增長(zhǎng)。
谷歌團(tuán)隊(duì)通過(guò)兩項(xiàng)創(chuàng)新技術(shù)PolarQuant(極坐標(biāo)量化)和QJL(量化JL變換),實(shí)現(xiàn)了在“零損失”前提下將KV Cache壓縮至3-bit精度,內(nèi)存占用縮小至少6倍。在英偉達(dá)H100 GPU上,4-bit TurboQuant的注意力計(jì)算速度比32-bit未量化版本快8倍。
Cloudflare首席執(zhí)行官將這一突破稱(chēng)為谷歌的“DeepSeek時(shí)刻”,認(rèn)為其有望像DeepSeek一樣,通過(guò)極致效率大幅拉低AI運(yùn)行成本。
面對(duì)科技圈的狂熱與二級(jí)市場(chǎng)的拋售,華爾街投行表現(xiàn)出明顯冷靜。
摩根士丹利在最新研報(bào)中明確表示,市場(chǎng)存在誤讀。該技術(shù)僅作用于推理階段的鍵值緩存,不影響模型權(quán)重所占用的高帶寬內(nèi)存(HBM),也與AI訓(xùn)練任務(wù)無(wú)關(guān)。分析師強(qiáng)調(diào),所謂“6倍壓縮”并非存儲(chǔ)總需求的減少,而是通過(guò)效率提升增加單GPU的吞吐量。
Lynx Equity Strategies分析師KC Rajkumar指出,媒體報(bào)道存在夸大成分。當(dāng)前推理模型早已廣泛采用4-bit量化數(shù)據(jù),谷歌所謂的“8倍性能提升”是建立在與老舊32位模型對(duì)比的基礎(chǔ)之上。
摩根士丹利援引經(jīng)濟(jì)學(xué)中的“杰文斯悖論”解釋長(zhǎng)期影響:技術(shù)效率提升雖降低單位成本,但往往因使用門(mén)檻下降而帶動(dòng)整體需求擴(kuò)張。
富國(guó)銀行分析師Andrew Rocha指出,壓縮算法的存在從未從根本上改變硬件采購(gòu)的整體規(guī)模。通過(guò)大幅降低單次查詢的服務(wù)成本,這類(lèi)技術(shù)能讓原本只能在昂貴云端集群上運(yùn)行的模型遷移至本地,有效降低AI規(guī)模化部署的門(mén)檻。
從供應(yīng)鏈視角看,2026年服務(wù)器DRAM需求預(yù)計(jì)增長(zhǎng)39%,HBM需求年增58%。TurboQuant的優(yōu)化效果或?qū)⒈恍袠I(yè)增長(zhǎng)浪潮淹沒(méi)。
截至發(fā)稿,谷歌尚未公布TurboQuant在Gemini等自研模型中的具體部署時(shí)間表。關(guān)于該技術(shù)的討論將在4月的ICLR 2026會(huì)議上繼續(xù)發(fā)酵。(陳十一)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.