網易首頁 > 網易號 > 正文申請入駐

當token經濟學向低延遲傾斜，中國開源生態短板浮現

2026-03-18 00:12:01　來源: 未盡研究

上海舉報

分享至

推理的token經濟學，是一條吞吐量（Throughput，TPS/兆瓦）與交互性（Interactivity，TPS/用戶）之間展開的價值曲線。

在GTC 2026上，黃仁勛拿起最新的Groq 3 LPU，把低延遲從性能指標，轉化為能夠直接重塑單位token價值的變量。在他的演示中，當交互速度從約50TPS（tokens/秒）提升至800TPS甚至以上，單位token所對應的價值，從幾美元躍升至150美元。

英偉達當代算力平臺GB NVL72，是模型經濟性測評InferenceX的“推理之王”，但仍然止步于400TPS。黃仁勛試圖進一步讓市場相信，即將到來的Vera Rubin與Rosa Feynman平臺將突破這一天花板。主導該測評的Dylan Patel坐在場內，看著前排一位觀眾買入英偉達股票，并將交易截圖和現場照片發到微信上。

當這條曲線向“交互性”一側延伸，面向實時反饋的智能體的應用場景開始浮現。而這正是中國開源生態的軟肋。量大管飽的Qwen-3模型，已經相當于真正的水與電，但那些高價值的高速交互需求，仍然缺乏對應的算力供給。

推理系統的核心約束，是吞吐量與交互速度之間的此消彼長。批處理（batching，即同時處理更多用戶請求）可以提升總吞吐，但會拉長單個請求的響應時間；而降低延遲，則意味著犧牲系統的整體服務能力。在經濟上，推理成本按時間計費，而收入按token計算。理論上，在給定的算力約束下，系統在單位時間內能夠生成的token總量是相對固定的，高吞吐（低單位價值）與低延遲（高單位價值）只能沿著這條邊界進行權衡。

去年的GTC上，英偉達發布的Dynamo，主要解決的就是如何“更有性價比地生產token”的最優函數問題。推理有時候需要優化延遲，有時候需要優化吞吐量。這都得靠一個叫做Dynamo的操作系統來協調。

但現實的問題在于，推理的應用場景并不會均勻分布在這條“權衡曲線”上。實時語音、自動駕駛以及多智能體交互，往往對延遲極為敏感；而普通對話或視頻生成，則可以容忍更高的延遲。這些場景的規模與用戶的付費意愿，同樣呈現出高度不均衡的分布。而當前新增與擴張最快的應用，恰好集中出現在低延遲一側。

當AI正在能替人類編程數個小時甚至數天，編程的速度就愈發關鍵；當多個智能體協作完成更加復雜的任務，延時就變得更加不能容忍。年初，OpenAI推出Codex-Spark，實現了即時編程，速度達到1000token/秒。而在更廣泛的白領工作中，幾乎實時的反饋能夠讓用戶持續停留在“心流”狀態。這種不被打斷的連續性本身就是高價值的工作體驗。

人類之所以更容易容忍與ChatGPT對話的延遲，本質上受限于人類自身的交互窗口，即眼睛的閱讀速度與大腦的處理速度。而在智能體之間的交互中，這種速度則顯得近乎“冰川級緩慢”。在英偉達hyperscale業務副總裁Ian Buck的描繪里，即將到來的多智能體系統，將運行在1500 TPS甚至更高的尺度之上。未來的軟件，主要是給幾乎無延遲的智能體用的，那才是AI最前沿的機會所在，英偉達正在創造一個足夠支撐“非人類節奏”的生態系統。

隨著應用與價值不斷向低延遲一側集中，僅依賴模型與軟件優化，已經難以突破吞吐與延遲之間的權衡框架。要真正把這條曲線整體向“高交互性”方向推移，仍然需要來自算力硬件層面的躍遷。這正是英偉達此次試圖用Groq重寫token經濟學的關鍵。

很長一段時間，超低延遲推理是一個“利基”市場，由Groq與Cerebras等少數芯片廠商主導。但去年拐點出現，這一市場開始從邊緣走向中心。

去年年底，英偉達向Groq支付200億美元，獲得其推理技術非排他性許可。Groq創始人兼CEO喬納森·羅斯（Jonathan Ross）、總裁Sunny Madra及多名核心工程師加入英偉達。3個月后，英偉達的Rubin平臺終于迎來了第7款芯片Groq 3 LPU（語言處理單元），而且進入批量生產階段，由三星代工。

Groq 3 LPU在算力方面的性能相對有限，僅為Rubin GPU的1/25。不過，它擁有龐大的500 MB SRAM緩存，帶寬達到150TB/秒，遠超Rubin的22TB/秒。這使其在低吞吐量但低延遲工作負載中具有特殊優勢。基于Groq 3 LPU，英偉達打造了Groq 3 LPX機架，擁有256個LPU芯片，專為低延遲、長上下文的智能體系統設計。它將于今年下半年推出。

這一轉向，與半年前英偉達的設計形成了鮮明對比。在此前的思路中，推理流程中的算力密集的預填充階段（Prefill）與內存密集的解碼（Decode）階段逐步硬件解耦。Rubin CPX正是一款專門針對預填充計算優化的定制芯片。它取消了昂貴的HBM，代之以GDDR7內存，以降低整體單位token成本。而生成與解碼計算仍然由旗艦的Rubin GPU負責。

隨著LPX的推出，CPX沒有出現在演講現場。相比之下，基于Groq的LPX平臺，如今才是英偉達推理架構中的關鍵拼圖。它本質上是針對特定解碼階段的定制優化。在這一架構中，解碼過程被進一步拆分，對算力要求更高的部分仍由Vera Rubin承擔；預填充也全部交給Vera Rubin。LPU則負責以feed-forward為主的計算，以及token生成等對延遲高度敏感的路徑。兩者通過Dynamo統一調度，在優化通信機制下協同運行，將整體延遲進一步壓縮。黃仁勛建議LPX配比在25%左右。

此外，從CPX轉向LPX，也在現實層面繞開了先進封裝與高帶寬內存的產能瓶頸。無論是臺積電的CoWoS，還是SK海力士與三星的HBM供應，都面臨著供給不足，價格上漲的局面。在這樣的約束下，即便是以DDR替代HBM來壓低成本的路徑，也不再具備足夠的性價比。

作為英偉達的“首席銷售官”，黃仁勛友情提示市場，相比單一的Rubin服務的市場，LPX額外打開了1500億美元的增量市場。

不過，英偉達并未完全打動市場。Groq 3 LPX在架構上仍延續此前的LPU C2C（芯片直連）互聯，尚未過渡到NVLink體系；對更低精度NVFP4的支持，也需等待后續的Groq 3.5（LP35），而真正由英偉達深度參與設計的LP40，則要到Feynman時代才會落地。

與此同時，競爭對手并未停下腳步。Codex-Spark是OpenAI首個運行在英偉達GPU競爭對手Cerebras芯片上的模型。上周，亞馬遜AWS亦宣布與Cerebras合作，打造類似LPX的推理平臺。其中，Trainium 專注于預填充工作，Cerebras WSE根據結果專門執行解碼。在新聞稿中，Cerebras宣稱已支持OpenAI、Cognition與Meta模型，速度最高可達3000 tokens/秒。而微軟的Maia 200，也轉向了以大規模片上SRAM為核心的設計路徑。

相比之下，黃仁勛此前高呼來自中國芯片廠商的競爭壓力，但在低延遲推理這一關鍵路徑上，仍難看到足夠有力的回應。與此同時，中國開源模型的token消耗規模，正在快速逼近美國。無論是字節跳動與谷歌第一方模型日均調用量的接近，還是在OpenRouter等平臺上，MiniMax、階躍星辰等模型消耗占據前列位置，都支撐起“token出海”的敘事。

但也是在這一刻，中國開源生態在這條價值曲線上的處境略顯尷尬。在黃仁勛所展示的坐標上，中國的開源模型最快推理速度在每秒100個token，每百萬token的價格從免費到3美元不等，而美國的閉源模型的推理速度將很快從每秒400token向1000token延伸，每百萬token的價格可以達到45美元，甚至150美元。受限于GPU性能及高速推理芯片，中國開源模型仍然盤踞在高吞吐、低單位價值的那一個角落。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.