《算力大擴容的前夜:為什么LPU與CPO才是GTC的真正主角?》
——從芯片堆料轉向“能效比決戰”,AI算力的底層規則正在被改寫
![]()
很多人盯著GPU參數表,真正懂行的人卻在看另一件事:算力瓶頸正在從“芯片性能”悄悄轉向“數據怎么跑”。
一個機房工程師曾半開玩笑地說:“現在不是算不出來,而是算得出來、但等得太久。”這正是LPU(語言處理單元)突然走紅的原因。它不像GPU那樣追求通用算力,而是專門為大模型推理優化。簡單比喻:GPU像重型坦克,LPU更像城市賽道上的方程式賽車。推理場景里,比拼的不是蠻力,而是低延遲與穩定吞吐。
這也是為什么行業開始押注推理架構。因為AI應用真正“燒錢”的地方不在訓練,而在用戶日常調用。一次對話就是一次推理。規模一旦上億次,每降低一點延遲和功耗,都是指數級成本差。專用推理架構,本質是在把“單位Token成本”打下來。
但算力革命從來不是一顆芯片的故事。當算力變快,互連就會變慢。傳統服務器像大水泵接細水管,高吞吐LPU一上車,PCB層數、高速材料、連接設計都會被迫升級,整個硬件鏈條被重新定價。
真正決定AI集群效率的,其實是另一件東西:CPO(光電共封裝)。它把光模塊貼在交換芯片旁邊,讓電信號只跑毫米級距離。看似只是縮短一點距離,鏈路功耗卻可能從約30W降到9W左右。在動輒萬卡規模的算力集群里,這差距就是一座電站。
當算力像發動機一樣越做越猛,真正決定速度的就不再是馬力,而是“路網”。
推理決定應用,互連決定效率。
看懂這兩點,才看懂GTC真正的主角。
(唐加文,筆名金觀平;本文成稿后,經AI審閱校對)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.