推理的token經濟學,是一條吞吐量(Throughput,TPS/兆瓦)與交互性(Interactivity,TPS/用戶)之間展開的價值曲線。
在GTC 2026上,黃仁勛拿起最新的Groq 3 LPU,把低延遲從性能指標,轉化為能夠直接重塑單位token價值的變量。在他的演示中,當交互速度從約50TPS(tokens/秒)提升至800TPS甚至以上,單位token所對應的價值,從幾美元躍升至150美元。
![]()
英偉達當代算力平臺GB NVL72,是模型經濟性測評InferenceX的“推理之王”,但仍然止步于400TPS。黃仁勛試圖進一步讓市場相信,即將到來的Vera Rubin與Rosa Feynman平臺將突破這一天花板。主導該測評的Dylan Patel坐在場內,看著前排一位觀眾買入英偉達股票,并將交易截圖和現場照片發到微信上。
當這條曲線向“交互性”一側延伸,面向實時反饋的智能體的應用場景開始浮現。而這正是中國開源生態的軟肋。量大管飽的Qwen-3模型,已經相當于真正的水與電,但那些高價值的高速交互需求,仍然缺乏對應的算力供給。
推理系統的核心約束,是吞吐量與交互速度之間的此消彼長。批處理(batching,即同時處理更多用戶請求)可以提升總吞吐,但會拉長單個請求的響應時間;而降低延遲,則意味著犧牲系統的整體服務能力。在經濟上,推理成本按時間計費,而收入按token計算。理論上,在給定的算力約束下,系統在單位時間內能夠生成的token總量是相對固定的,高吞吐(低單位價值)與低延遲(高單位價值)只能沿著這條邊界進行權衡。
去年的GTC上,英偉達發布的Dynamo,主要解決的就是如何“更有性價比地生產token”的最優函數問題。推理有時候需要優化延遲,有時候需要優化吞吐量。這都得靠一個叫做Dynamo的操作系統來協調。
但現實的問題在于,推理的應用場景并不會均勻分布在這條“權衡曲線”上。實時語音、自動駕駛以及多智能體交互,往往對延遲極為敏感;而普通對話或視頻生成,則可以容忍更高的延遲。這些場景的規模與用戶的付費意愿,同樣呈現出高度不均衡的分布。而當前新增與擴張最快的應用,恰好集中出現在低延遲一側。
當AI正在能替人類編程數個小時甚至數天,編程的速度就愈發關鍵;當多個智能體協作完成更加復雜的任務,延時就變得更加不能容忍。年初,OpenAI推出Codex-Spark,實現了即時編程,速度達到1000token/秒。而在更廣泛的白領工作中,幾乎實時的反饋能夠讓用戶持續停留在“心流”狀態。這種不被打斷的連續性本身就是高價值的工作體驗。
人類之所以更容易容忍與ChatGPT對話的延遲,本質上受限于人類自身的交互窗口,即眼睛的閱讀速度與大腦的處理速度。而在智能體之間的交互中,這種速度則顯得近乎“冰川級緩慢”。在英偉達hyperscale業務副總裁Ian Buck的描繪里,即將到來的多智能體系統,將運行在1500 TPS甚至更高的尺度之上。未來的軟件,主要是給幾乎無延遲的智能體用的,那才是AI最前沿的機會所在,英偉達正在創造一個足夠支撐“非人類節奏”的生態系統。
![]()
隨著應用與價值不斷向低延遲一側集中,僅依賴模型與軟件優化,已經難以突破吞吐與延遲之間的權衡框架。要真正把這條曲線整體向“高交互性”方向推移,仍然需要來自算力硬件層面的躍遷。這正是英偉達此次試圖用Groq重寫token經濟學的關鍵。
很長一段時間,超低延遲推理是一個“利基”市場,由Groq與Cerebras等少數芯片廠商主導。但去年拐點出現,這一市場開始從邊緣走向中心。
去年年底,英偉達向Groq支付200億美元,獲得其推理技術非排他性許可。Groq創始人兼CEO喬納森·羅斯(Jonathan Ross)、總裁Sunny Madra及多名核心工程師加入英偉達。3個月后,英偉達的Rubin平臺終于迎來了第7款芯片Groq 3 LPU(語言處理單元),而且進入批量生產階段,由三星代工。
Groq 3 LPU在算力方面的性能相對有限,僅為Rubin GPU的1/25。不過,它擁有龐大的500 MB SRAM緩存,帶寬達到150TB/秒,遠超Rubin的22TB/秒。這使其在低吞吐量但低延遲工作負載中具有特殊優勢。基于Groq 3 LPU,英偉達打造了Groq 3 LPX機架,擁有256個LPU芯片,專為低延遲、長上下文的智能體系統設計。它將于今年下半年推出。
![]()
這一轉向,與半年前英偉達的設計形成了鮮明對比。在此前的思路中,推理流程中的算力密集的預填充階段(Prefill)與內存密集的解碼(Decode)階段逐步硬件解耦。Rubin CPX正是一款專門針對預填充計算優化的定制芯片。它取消了昂貴的HBM,代之以GDDR7內存,以降低整體單位token成本。而生成與解碼計算仍然由旗艦的Rubin GPU負責。
隨著LPX的推出,CPX沒有出現在演講現場。相比之下,基于Groq的LPX平臺,如今才是英偉達推理架構中的關鍵拼圖。它本質上是針對特定解碼階段的定制優化。在這一架構中,解碼過程被進一步拆分,對算力要求更高的部分仍由Vera Rubin承擔;預填充也全部交給Vera Rubin。LPU則負責以feed-forward為主的計算,以及token生成等對延遲高度敏感的路徑。兩者通過Dynamo統一調度,在優化通信機制下協同運行,將整體延遲進一步壓縮。黃仁勛建議LPX配比在25%左右。
此外,從CPX轉向LPX,也在現實層面繞開了先進封裝與高帶寬內存的產能瓶頸。無論是臺積電的CoWoS,還是SK海力士與三星的HBM供應,都面臨著供給不足,價格上漲的局面。在這樣的約束下,即便是以DDR替代HBM來壓低成本的路徑,也不再具備足夠的性價比。
![]()
作為英偉達的“首席銷售官”,黃仁勛友情提示市場,相比單一的Rubin服務的市場,LPX額外打開了1500億美元的增量市場。
![]()
不過,英偉達并未完全打動市場。Groq 3 LPX在架構上仍延續此前的LPU C2C(芯片直連)互聯,尚未過渡到NVLink體系;對更低精度NVFP4的支持,也需等待后續的Groq 3.5(LP35),而真正由英偉達深度參與設計的LP40,則要到Feynman時代才會落地。
與此同時,競爭對手并未停下腳步。Codex-Spark是OpenAI首個運行在英偉達GPU競爭對手Cerebras芯片上的模型。上周,亞馬遜AWS亦宣布與Cerebras合作,打造類似LPX的推理平臺。其中,Trainium 專注于預填充工作,Cerebras WSE根據結果專門執行解碼。在新聞稿中,Cerebras宣稱已支持OpenAI、Cognition與Meta模型,速度最高可達3000 tokens/秒。而微軟的Maia 200,也轉向了以大規模片上SRAM為核心的設計路徑。
相比之下,黃仁勛此前高呼來自中國芯片廠商的競爭壓力,但在低延遲推理這一關鍵路徑上,仍難看到足夠有力的回應。與此同時,中國開源模型的token消耗規模,正在快速逼近美國。無論是字節跳動與谷歌第一方模型日均調用量的接近,還是在OpenRouter等平臺上,MiniMax、階躍星辰等模型消耗占據前列位置,都支撐起“token出海”的敘事。
但也是在這一刻,中國開源生態在這條價值曲線上的處境略顯尷尬。在黃仁勛所展示的坐標上,中國的開源模型最快推理速度在每秒100個token,每百萬token的價格從免費到3美元不等,而美國的閉源模型的推理速度將很快從每秒400token向1000token延伸,每百萬token的價格可以達到45美元,甚至150美元。受限于GPU性能及高速推理芯片,中國開源模型仍然盤踞在高吞吐、低單位價值的那一個角落。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.