<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      當token經濟學向低延遲傾斜,中國開源生態短板浮現

      0
      分享至

      推理的token經濟學,是一條吞吐量(Throughput,TPS/兆瓦)與交互性(Interactivity,TPS/用戶)之間展開的價值曲線。

      在GTC 2026上,黃仁勛拿起最新的Groq 3 LPU,把低延遲從性能指標,轉化為能夠直接重塑單位token價值的變量。在他的演示中,當交互速度從約50TPS(tokens/秒)提升至800TPS甚至以上,單位token所對應的價值,從幾美元躍升至150美元。


      英偉達當代算力平臺GB NVL72,是模型經濟性測評InferenceX的“推理之王”,但仍然止步于400TPS。黃仁勛試圖進一步讓市場相信,即將到來的Vera Rubin與Rosa Feynman平臺將突破這一天花板。主導該測評的Dylan Patel坐在場內,看著前排一位觀眾買入英偉達股票,并將交易截圖和現場照片發到微信上。

      當這條曲線向“交互性”一側延伸,面向實時反饋的智能體的應用場景開始浮現。而這正是中國開源生態的軟肋。量大管飽的Qwen-3模型,已經相當于真正的水與電,但那些高價值的高速交互需求,仍然缺乏對應的算力供給。

      推理系統的核心約束,是吞吐量與交互速度之間的此消彼長。批處理(batching,即同時處理更多用戶請求)可以提升總吞吐,但會拉長單個請求的響應時間;而降低延遲,則意味著犧牲系統的整體服務能力。在經濟上,推理成本按時間計費,而收入按token計算。理論上,在給定的算力約束下,系統在單位時間內能夠生成的token總量是相對固定的,高吞吐(低單位價值)與低延遲(高單位價值)只能沿著這條邊界進行權衡。

      去年的GTC上,英偉達發布的Dynamo,主要解決的就是如何“更有性價比地生產token”的最優函數問題。推理有時候需要優化延遲,有時候需要優化吞吐量。這都得靠一個叫做Dynamo的操作系統來協調。

      但現實的問題在于,推理的應用場景并不會均勻分布在這條“權衡曲線”上。實時語音、自動駕駛以及多智能體交互,往往對延遲極為敏感;而普通對話或視頻生成,則可以容忍更高的延遲。這些場景的規模與用戶的付費意愿,同樣呈現出高度不均衡的分布。而當前新增與擴張最快的應用,恰好集中出現在低延遲一側。

      當AI正在能替人類編程數個小時甚至數天,編程的速度就愈發關鍵;當多個智能體協作完成更加復雜的任務,延時就變得更加不能容忍。年初,OpenAI推出Codex-Spark,實現了即時編程,速度達到1000token/秒。而在更廣泛的白領工作中,幾乎實時的反饋能夠讓用戶持續停留在“心流”狀態。這種不被打斷的連續性本身就是高價值的工作體驗。

      人類之所以更容易容忍與ChatGPT對話的延遲,本質上受限于人類自身的交互窗口,即眼睛的閱讀速度與大腦的處理速度。而在智能體之間的交互中,這種速度則顯得近乎“冰川級緩慢”。在英偉達hyperscale業務副總裁Ian Buck的描繪里,即將到來的多智能體系統,將運行在1500 TPS甚至更高的尺度之上。未來的軟件,主要是給幾乎無延遲的智能體用的,那才是AI最前沿的機會所在,英偉達正在創造一個足夠支撐“非人類節奏”的生態系統。


      隨著應用與價值不斷向低延遲一側集中,僅依賴模型與軟件優化,已經難以突破吞吐與延遲之間的權衡框架。要真正把這條曲線整體向“高交互性”方向推移,仍然需要來自算力硬件層面的躍遷。這正是英偉達此次試圖用Groq重寫token經濟學的關鍵。

      很長一段時間,超低延遲推理是一個“利基”市場,由Groq與Cerebras等少數芯片廠商主導。但去年拐點出現,這一市場開始從邊緣走向中心。

      去年年底,英偉達向Groq支付200億美元,獲得其推理技術非排他性許可。Groq創始人兼CEO喬納森·羅斯(Jonathan Ross)、總裁Sunny Madra及多名核心工程師加入英偉達。3個月后,英偉達的Rubin平臺終于迎來了第7款芯片Groq 3 LPU(語言處理單元),而且進入批量生產階段,由三星代工。

      Groq 3 LPU在算力方面的性能相對有限,僅為Rubin GPU的1/25。不過,它擁有龐大的500 MB SRAM緩存,帶寬達到150TB/秒,遠超Rubin的22TB/秒。這使其在低吞吐量但低延遲工作負載中具有特殊優勢。基于Groq 3 LPU,英偉達打造了Groq 3 LPX機架,擁有256個LPU芯片,專為低延遲、長上下文的智能體系統設計。它將于今年下半年推出。


      這一轉向,與半年前英偉達的設計形成了鮮明對比。在此前的思路中,推理流程中的算力密集的預填充階段(Prefill)與內存密集的解碼(Decode)階段逐步硬件解耦。Rubin CPX正是一款專門針對預填充計算優化的定制芯片。它取消了昂貴的HBM,代之以GDDR7內存,以降低整體單位token成本。而生成與解碼計算仍然由旗艦的Rubin GPU負責。

      隨著LPX的推出,CPX沒有出現在演講現場。相比之下,基于Groq的LPX平臺,如今才是英偉達推理架構中的關鍵拼圖。它本質上是針對特定解碼階段的定制優化。在這一架構中,解碼過程被進一步拆分,對算力要求更高的部分仍由Vera Rubin承擔;預填充也全部交給Vera Rubin。LPU則負責以feed-forward為主的計算,以及token生成等對延遲高度敏感的路徑。兩者通過Dynamo統一調度,在優化通信機制下協同運行,將整體延遲進一步壓縮。黃仁勛建議LPX配比在25%左右。

      此外,從CPX轉向LPX,也在現實層面繞開了先進封裝與高帶寬內存的產能瓶頸。無論是臺積電的CoWoS,還是SK海力士與三星的HBM供應,都面臨著供給不足,價格上漲的局面。在這樣的約束下,即便是以DDR替代HBM來壓低成本的路徑,也不再具備足夠的性價比。


      作為英偉達的“首席銷售官”,黃仁勛友情提示市場,相比單一的Rubin服務的市場,LPX額外打開了1500億美元的增量市場。


      不過,英偉達并未完全打動市場。Groq 3 LPX在架構上仍延續此前的LPU C2C(芯片直連)互聯,尚未過渡到NVLink體系;對更低精度NVFP4的支持,也需等待后續的Groq 3.5(LP35),而真正由英偉達深度參與設計的LP40,則要到Feynman時代才會落地。

      與此同時,競爭對手并未停下腳步。Codex-Spark是OpenAI首個運行在英偉達GPU競爭對手Cerebras芯片上的模型。上周,亞馬遜AWS亦宣布與Cerebras合作,打造類似LPX的推理平臺。其中,Trainium 專注于預填充工作,Cerebras WSE根據結果專門執行解碼。在新聞稿中,Cerebras宣稱已支持OpenAI、Cognition與Meta模型,速度最高可達3000 tokens/秒。而微軟的Maia 200,也轉向了以大規模片上SRAM為核心的設計路徑。

      相比之下,黃仁勛此前高呼來自中國芯片廠商的競爭壓力,但在低延遲推理這一關鍵路徑上,仍難看到足夠有力的回應。與此同時,中國開源模型的token消耗規模,正在快速逼近美國。無論是字節跳動與谷歌第一方模型日均調用量的接近,還是在OpenRouter等平臺上,MiniMax、階躍星辰等模型消耗占據前列位置,都支撐起“token出海”的敘事。

      但也是在這一刻,中國開源生態在這條價值曲線上的處境略顯尷尬。在黃仁勛所展示的坐標上,中國的開源模型最快推理速度在每秒100個token,每百萬token的價格從免費到3美元不等,而美國的閉源模型的推理速度將很快從每秒400token向1000token延伸,每百萬token的價格可以達到45美元,甚至150美元。受限于GPU性能及高速推理芯片,中國開源模型仍然盤踞在高吞吐、低單位價值的那一個角落。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      局面升級,大批導彈將抵臺!賴清德選擇了不歸路,解放軍戰艦回防

      局面升級,大批導彈將抵臺!賴清德選擇了不歸路,解放軍戰艦回防

      攬星辰入夢
      2026-04-26 23:52:27
      初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

      初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

      好爸育兒
      2026-04-20 15:00:49
      炸穿臺灣政壇!蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉

      炸穿臺灣政壇!蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉

      陳漎侃故事
      2026-04-14 17:28:18
      淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

      淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

      風過鄉
      2026-04-27 06:15:09
      湯姆斯杯:兩大男雙降維打擊,李詩灃橫掃楊燦,國羽4-1加拿大

      湯姆斯杯:兩大男雙降維打擊,李詩灃橫掃楊燦,國羽4-1加拿大

      釘釘陌上花開
      2026-04-27 17:46:40
      5月1日起,銀行有10-50萬存款的人,這5個消息別錯過!

      5月1日起,銀行有10-50萬存款的人,這5個消息別錯過!

      老特有話說
      2026-04-27 17:40:16
      中國裁判驕傲 46歲馬寧曬亞足聯獎牌 嘲諷沙特媒體:這次真回國了

      中國裁判驕傲 46歲馬寧曬亞足聯獎牌 嘲諷沙特媒體:這次真回國了

      風過鄉
      2026-04-27 18:34:41
      055萬噸大驅直面日艦,試射鷹擊-20震懾力十足

      055萬噸大驅直面日艦,試射鷹擊-20震懾力十足

      失我者永失qq
      2026-04-27 22:22:20
      新版人民幣已落地,紙幣將何去何從?蘇州試點帶你揭開真相

      新版人民幣已落地,紙幣將何去何從?蘇州試點帶你揭開真相

      流史歲月
      2026-04-27 16:30:08
      空房交物業費合理嗎?2026年物業費新規:這4種情況一分不掏

      空房交物業費合理嗎?2026年物業費新規:這4種情況一分不掏

      老特有話說
      2026-04-15 15:11:16
      中國汽車市場份額:法系0.2%,韓系1%,美系6.9%,日系13%

      中國汽車市場份額:法系0.2%,韓系1%,美系6.9%,日系13%

      狐貍先森講升學規劃
      2026-04-21 09:30:03
      進攻效率高到離譜!馬刺應該給3D鋒線大將多一些出手機會?

      進攻效率高到離譜!馬刺應該給3D鋒線大將多一些出手機會?

      稻谷與小麥
      2026-04-27 22:49:52
      8+11+8!NBA首輪最讓人失望球星誕生,2.89億美金頂薪要打折了

      8+11+8!NBA首輪最讓人失望球星誕生,2.89億美金頂薪要打折了

      世界體育圈
      2026-04-27 21:36:54
      心梗去世的人越來越多?醫生再次強調:寧可打打牌,也別做這6事

      心梗去世的人越來越多?醫生再次強調:寧可打打牌,也別做這6事

      醫學科普匯
      2026-04-27 19:55:08
      26歲網壇冰美人罕見暴怒 質疑鄭欽文ACE出界 與主裁爭吵 全場狂噓

      26歲網壇冰美人罕見暴怒 質疑鄭欽文ACE出界 與主裁爭吵 全場狂噓

      我愛英超
      2026-04-27 06:24:59
      回顧遼寧一廠長邀15名歌廳舞女做客,喝完酒后,將15人沖進下水道

      回顧遼寧一廠長邀15名歌廳舞女做客,喝完酒后,將15人沖進下水道

      談史論天地
      2026-04-27 15:00:03
      我給保姆兩年漲薪五次,她臨別提醒:太太,你最好看看天花板上面

      我給保姆兩年漲薪五次,她臨別提醒:太太,你最好看看天花板上面

      千秋文化
      2026-04-25 20:32:18
      林芳兵北京電影節上引熱議!在劇組差點離世,丈夫兒子是她的驕傲

      林芳兵北京電影節上引熱議!在劇組差點離世,丈夫兒子是她的驕傲

      娛說瑜悅
      2026-04-27 16:06:12
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      菲律賓的求援來了!萬萬沒想到生死關頭,中方潑了一盆冷水

      菲律賓的求援來了!萬萬沒想到生死關頭,中方潑了一盆冷水

      紀中百大事
      2026-04-26 12:19:41
      2026-04-27 23:07:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      365文章數 63關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

      頭條要聞

      水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      本地
      時尚
      教育
      健康
      公開課

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      絲巾的10種系法,愛美的女人必看

      教育要聞

      京雄學子共探一日科技營

      干細胞如何讓燒燙傷皮膚"再生"?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 可以直接看的无码av| 国产成人精品123区免费视频| 精品人妻一区二区三区-国产精品| 国产欧美精品一区aⅴ影院| 尤物国产在线精品一区| 三级三级久久三级久久| 宿州市| 中文字幕人乱码中文| 国产,精品,无码,丝袜| 国产一区二区丝袜高跟鞋| 视频一区二区三区中文字幕狠狠| 18精品久久久无码午夜福利| 亚洲欧洲av综合色无码| 海丰县| 中文字幕乱码无码人妻系列蜜桃 | 铜梁县| 日本无翼乌邪恶大全彩h| 尹人97| 亚洲中文无码人| 麻豆国产| 国产午夜成人av在线播放| 亚洲av产在线精品亚洲第一站| 极品人妻被黑人中出种子 | 久久精品国产亚洲av天海翼| 亚洲欧洲美洲无码精品va| 在线色综合| 亚洲乱码中文字幕久久孕妇黑人| 亚州黄色电影| 嫩草tb| 日韩AV导航| 无码人妻一区二区三区四区| 国产一区二区三区色噜噜| 1024你懂的国产精品| 国产亚洲人成网站在线观看| 一级做a爰片久久毛片16| 亚洲成人高清无码| 国产顶级熟妇高潮xxxxx| 国产亚洲精品成人无码精品网站| 久久精品成人免费看| 国产AV无区亚洲AV麻豆| 午夜无码国产18禁|