網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌一篇尚未發(fā)布的論文引發(fā)存儲(chǔ)芯片股恐慌華爾街稱(chēng)市場(chǎng)誤讀

2026-03-27 11:07:18　來(lái)源: 環(huán)球網(wǎng)資訊

北京舉報(bào)

分享至

來(lái)源：環(huán)球網(wǎng)

【環(huán)球網(wǎng)財(cái)經(jīng)綜合報(bào)道】一篇尚未正式發(fā)表的學(xué)術(shù)論文，在3月26日引發(fā)全球存儲(chǔ)芯片板塊劇烈震蕩。據(jù)測(cè)算，全球主要內(nèi)存巨頭市值單日蒸發(fā)超900億美元。

這場(chǎng)波動(dòng)的導(dǎo)火索，是谷歌研究院即將在國(guó)際學(xué)習(xí)表征會(huì)議（ICLR 2026）上正式亮相的論文“TurboQuant”。

通常來(lái)說(shuō)，當(dāng)用戶與AI對(duì)話時(shí)，模型需要記住歷史上下文，這部分臨時(shí)存儲(chǔ)的數(shù)據(jù)隨上下文窗口膨脹而指數(shù)級(jí)增長(zhǎng)。

谷歌團(tuán)隊(duì)通過(guò)兩項(xiàng)創(chuàng)新技術(shù)PolarQuant（極坐標(biāo)量化）和QJL（量化JL變換），實(shí)現(xiàn)了在“零損失”前提下將KV Cache壓縮至3-bit精度，內(nèi)存占用縮小至少6倍。在英偉達(dá)H100 GPU上，4-bit TurboQuant的注意力計(jì)算速度比32-bit未量化版本快8倍。

Cloudflare首席執(zhí)行官將這一突破稱(chēng)為谷歌的“DeepSeek時(shí)刻”，認(rèn)為其有望像DeepSeek一樣，通過(guò)極致效率大幅拉低AI運(yùn)行成本。

面對(duì)科技圈的狂熱與二級(jí)市場(chǎng)的拋售，華爾街投行表現(xiàn)出明顯冷靜。

摩根士丹利在最新研報(bào)中明確表示，市場(chǎng)存在誤讀。該技術(shù)僅作用于推理階段的鍵值緩存，不影響模型權(quán)重所占用的高帶寬內(nèi)存（HBM），也與AI訓(xùn)練任務(wù)無(wú)關(guān)。分析師強(qiáng)調(diào)，所謂“6倍壓縮”并非存儲(chǔ)總需求的減少，而是通過(guò)效率提升增加單GPU的吞吐量。

Lynx Equity Strategies分析師KC Rajkumar指出，媒體報(bào)道存在夸大成分。當(dāng)前推理模型早已廣泛采用4-bit量化數(shù)據(jù)，谷歌所謂的“8倍性能提升”是建立在與老舊32位模型對(duì)比的基礎(chǔ)之上。

摩根士丹利援引經(jīng)濟(jì)學(xué)中的“杰文斯悖論”解釋長(zhǎng)期影響：技術(shù)效率提升雖降低單位成本，但往往因使用門(mén)檻下降而帶動(dòng)整體需求擴(kuò)張。

富國(guó)銀行分析師Andrew Rocha指出，壓縮算法的存在從未從根本上改變硬件采購(gòu)的整體規(guī)模。通過(guò)大幅降低單次查詢的服務(wù)成本，這類(lèi)技術(shù)能讓原本只能在昂貴云端集群上運(yùn)行的模型遷移至本地，有效降低AI規(guī)模化部署的門(mén)檻。

從供應(yīng)鏈視角看，2026年服務(wù)器DRAM需求預(yù)計(jì)增長(zhǎng)39%，HBM需求年增58%。TurboQuant的優(yōu)化效果或?qū)⒈恍袠I(yè)增長(zhǎng)浪潮淹沒(méi)。

截至發(fā)稿，谷歌尚未公布TurboQuant在Gemini等自研模型中的具體部署時(shí)間表。關(guān)于該技術(shù)的討論將在4月的ICLR 2026會(huì)議上繼續(xù)發(fā)酵。（陳十一）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.