![]()
智東西
作者 ZeR0 陳駿達
編輯 漠影
芯東西拉斯維加斯1月5日報道,剛剛,英偉達創(chuàng)始人兼CEO黃仁勛在國際消費電子展CES 2026上發(fā)表2026年首場主題演講。黃仁勛一如既往穿著皮衣,在1.5小時內(nèi)連宣8項重要發(fā)布,從芯片、機架到網(wǎng)絡(luò)設(shè)計,對整個全新代際平臺進行了深入介紹。
在加速計算和AI基礎(chǔ)設(shè)施領(lǐng)域,英偉達發(fā)布NVIDIA Vera Rubin POD AI超級計算機、NVIDIA Spectrum-X以太網(wǎng)共封裝光學(xué)器件、NVIDIA推理上下文內(nèi)存存儲平臺、基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD。
![]()
NVIDIA Vera Rubin POD采用英偉達6大自研芯片,涵蓋CPU、GPU、Scale-up、Scale-out、存儲與處理能力,所有部分均為協(xié)同設(shè)計,可滿足先進模型需求并降低計算成本。
其中,Vera CPU采用定制Olympus核心架構(gòu),Rubin GPU引入Transformer引擎后NBFP4推理性能高達50PFLOPS,每GPU NVLink帶寬快至3.6TB/s,支持第三代通用機密計算(第一個機架級TEE),實現(xiàn)CPU與GPU跨域的完整可信執(zhí)行環(huán)境。
![]()
這些芯片均已回片,英偉達已對整個NVIDIA Vera Rubin NVL72系統(tǒng)進行驗證,合作伙伴也已開始運行其內(nèi)部集成的AI模型和算法,整個生態(tài)系統(tǒng)都在為Vera Rubin做部署準(zhǔn)備。
其他發(fā)布中,NVIDIA Spectrum-X以太網(wǎng)共封裝光學(xué)器件顯著優(yōu)化了電源效率和應(yīng)用正常運行時間;NVIDIA推理上下文內(nèi)存存儲平臺重新定義了存儲堆棧,以減少重復(fù)計算并提升推理效率;基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD將大型MoE模型的token成本降低至1/10。
![]()
開放模型方面,英偉達宣布擴展開源模型全家桶,發(fā)布新的模型、數(shù)據(jù)集和庫,包括NVIDIA Nemotron開源模型系列新增Agentic RAG模型、安全模型、語音模型,還發(fā)布了適用于所有類型機器人的全新開放模型。不過,黃仁勛并未在演講中詳細(xì)介紹。
物理AI方面,物理AI的ChatGPT時刻已經(jīng)到來,英偉達全棧技術(shù)使全球生態(tài)系統(tǒng)能通過AI驅(qū)動的機器人技術(shù)改變行業(yè);英偉達廣泛的AI工具庫,包括全新Alpamayo開源模型組合,使全球交通行業(yè)能快速實現(xiàn)安全的L4駕駛;NVIDIA DRIVE自動駕駛平臺現(xiàn)已投入生產(chǎn),搭載于所有全新梅賽德斯-奔馳CLA,用于L2++ AI定義的駕駛。
![]()
一、全新AI超級計算機:6款自研芯片,單機架算力達3.6EFLOPS
黃仁勛認(rèn)為,每10到15年,計算機行業(yè)就會迎來一次全面的重塑,但這次,兩個平臺變革同時發(fā)生,從CPU到GPU,從“編程軟件”到“訓(xùn)練軟件”,加速計算與AI重構(gòu)了整個計算堆棧。過去十年價值10萬億美元的計算產(chǎn)業(yè),正在經(jīng)歷一場現(xiàn)代化改造。
與此同時,對算力的需求也急劇飆升。模型的尺寸每年增長10倍,模型用于思考的token數(shù)量每年增長5倍,而每個token的價格每年降低10倍。
![]()
為了應(yīng)對這一需求,英偉達決定每年都發(fā)布新的計算硬件。黃仁勛透露,目前Vera Rubin也已經(jīng)全面開啟生產(chǎn)。
英偉達全新AI超級計算機NVIDIA Vera Rubin POD采用了6款自研芯片:Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9(CX9)智能網(wǎng)卡、BlueField-4 DPU、Spectrum-X 102.4T CPO。
(1)Vera CPU:為數(shù)據(jù)移動和智能體處理而設(shè)計,擁有88個英偉達定制Olympus核心、176線程的英偉達空間多線程,1.8TB/sNVLink-C2C支持CPU:GPU統(tǒng)一內(nèi)存,系統(tǒng)內(nèi)存達1.5TB(是Grace CPU的3倍),SOCAMM LPDDR5X內(nèi)存帶寬為1.2TB/s,并支持機架級機密計算,數(shù)據(jù)處理性能翻倍提升。
![]()
(2)Rubin GPU:引入Transformer引擎,NVFP4推理性能高達50PFLOPS,是Blackwell GPU的5倍,向后兼容,在保持推理精度的同時提升BF16/FP4級別的性能;NVFP4訓(xùn)練性能達到35PFLOPS,是Blackwell的3.5倍。
Rubin也是首個支持HBM4的平臺,HBM4帶寬達22TB/s,是上一代的2.8倍,能夠為苛刻的MoE模型和AI工作負(fù)載提供所需性能。
![]()
(3)NVLink 6 Switch:單lane速率提升至400Gbps,采用SerDes技術(shù)實現(xiàn)高速信號傳輸;每顆GPU可實現(xiàn)3.6TB/s的全互連通信帶寬,是上一代的2倍,總帶寬為28.8TB/s,F(xiàn)P8精度下in-network計算性能達到14.4TFLOPS,支持100%液冷。
![]()
(4)NVIDIA ConnectX-9 SuperNIC:每顆GPU提供1.6Tb/s帶寬,針對大規(guī)模AI進行了優(yōu)化,具備完全軟件定義、可編程、加速的數(shù)據(jù)路徑。
![]()
(5)NVIDIA BlueField-4:800Gbps DPU, 用于智能網(wǎng)卡和存儲處理器,配備64核Grace CPU,結(jié)合ConnectX-9 SuperNIC,用于卸載網(wǎng)絡(luò)與存儲相關(guān)的計算任務(wù),同時增強了網(wǎng)絡(luò)安全能力,計算性能是上一代的6倍,內(nèi)存帶寬達3倍,GPU訪問數(shù)據(jù)存儲的速度提升至2倍。
![]()
(6)NVIDIA Vera Rubin NVL72:在系統(tǒng)層面將上述所有組件整合成單機架處理系統(tǒng),擁有2萬億顆晶體管,NVFP4推理性能達3.6EFLOPS,NVFP4訓(xùn)練性能達2.5EFLOPS。
該系統(tǒng)LPDDR5X內(nèi)存容量達54TB,是上一代的2.5倍;總HBM4內(nèi)存達20.7TB,是上一代的1.5倍;HBM4帶寬是1.6PB/s,是上一代的2.8倍;總縱向擴展帶寬達到260TB/s,超過全球互聯(lián)網(wǎng)的總帶寬規(guī)模。
![]()
該系統(tǒng)基于第三代MGX機架設(shè)計,計算托盤采用模塊化、無主機、無纜化、無風(fēng)扇設(shè)計,使組裝和維護速度比GB200快18倍。原本需要2小時的組裝工作,現(xiàn)在只需5分鐘左右,而原本系統(tǒng)使用約80%的液冷,目前已經(jīng)100%使用液冷。
![]()
NVLink Switch托盤顆實現(xiàn)零停機維護與容錯,在托盤被移除或部分部署時機架仍可運行。第二代RAS引擎可進行零停機運行狀況檢查。
這些特性提升了系統(tǒng)運行時間與吞吐率,進一步降低訓(xùn)練與推理成本,滿足數(shù)據(jù)中心對高可靠性、高可維護性的要求。
已有超過80家MGX合作伙伴準(zhǔn)備好支持Rubin NVL72在超大規(guī)模網(wǎng)絡(luò)中的部署。
二、三大新品爆改AI推理效率:新CPO器件、新上下文存儲層、新DGX SuperPOD
同時,英偉達發(fā)布了3款重要新品:NVIDIA Spectrum-X以太網(wǎng)共封裝光學(xué)器件、NVIDIA推理上下文內(nèi)存存儲平臺、基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD。
1、NVIDIA Spectrum-X以太網(wǎng)共封裝光學(xué)器件
NVIDIA Spectrum-X以太網(wǎng)共封裝光學(xué)器件基于Spectrum-X架構(gòu),采用2顆芯片設(shè)計,采用200Gbps SerDes,每顆ASIC顆可提供102.4Tb/s帶寬。
該交換平臺包括一個512端口高密度系統(tǒng),以及一個128端口緊湊系統(tǒng),每個端口的速率均為800Gb/s。
![]()
CPO(共封裝光學(xué))交換系統(tǒng)可實現(xiàn)5倍的能效提升、10倍的可靠性提升、5倍的應(yīng)用程序正常運行時間提升。
這意味著每天可以處理更多token,從而進一步降低數(shù)據(jù)中心的總擁有成本(TCO)。
2、NVIDIA推理上下文內(nèi)存存儲平臺
NVIDIA推理上下文內(nèi)存存儲平臺是一個POD級AI原生存儲基礎(chǔ)設(shè)施,用于存儲KV Cache,基于BlueField-4與Spectrum-X Ethernet加速,與NVIDIA Dynamo和NVLink緊密耦合,實現(xiàn)內(nèi)存、存儲、網(wǎng)絡(luò)之間的協(xié)同上下文調(diào)度。
該平臺將上下文作為一等數(shù)據(jù)類型處理,可實現(xiàn)5倍的推理性能、5倍的更優(yōu)能效。
![]()
這對改進多輪對話、RAG、Agentic多步推理等長上下文應(yīng)用至關(guān)重要,這些工作負(fù)載高度依賴上下文在整個系統(tǒng)中被高效存儲、復(fù)用與共享的能力。
AI正在從聊天機器人演進為Agentic AI(智能體),會推理、調(diào)用工具并長期維護狀態(tài),上下文窗口已擴展到數(shù)百萬個token。這些上下文保存在KV Cache中,每一步都重新計算會浪費GPU時間并帶來巨大延遲,因此需要存儲。
但GPU顯存雖快卻稀缺,傳統(tǒng)網(wǎng)絡(luò)存儲對短期上下文而言效率過低。AI推理瓶頸正從計算轉(zhuǎn)向上下文存儲。所以需要一個介于GPU與存儲之間、專為推理優(yōu)化的新型內(nèi)存層。
![]()
這一層不再是事后補丁,而必須與網(wǎng)絡(luò)存儲協(xié)同設(shè)計,以最低的開銷移動上下文數(shù)據(jù)。
作為一種新型存儲層級,NVIDIA推理上下文內(nèi)存存儲平臺并不直接存在于主機系統(tǒng)中,而是通過BlueField-4連接到計算設(shè)備之外。其關(guān)鍵優(yōu)勢在于,可以更高效地擴展存儲池規(guī)模,從而避免重復(fù)計算KV Cache。
英偉達正與存儲合作伙伴緊密合作,將NVIDIA推理上下文內(nèi)存存儲平臺引入Rubin平臺,使客戶能夠?qū)⑵渥鳛橥暾葾I基礎(chǔ)設(shè)施的一部分進行部署。
3、基于Vera Rubin構(gòu)建的NVIDIA DGX SuperPOD
在系統(tǒng)層面,NVIDIA DGX SuperPOD作為大規(guī)模AI工廠部署藍圖,采用8套DGX Vera Rubin NVL72系統(tǒng),用NVLink 6縱向擴展網(wǎng)絡(luò),用Spectrum-X Ethernet橫向擴展網(wǎng)絡(luò),內(nèi)置NVIDIA推理上下文內(nèi)存存儲平臺,并經(jīng)過工程化驗證。
整個系統(tǒng)由NVIDIA Mission Control軟件管理,實現(xiàn)極致效率。客戶可將其作為交鑰匙平臺部署,用更少GPU完成訓(xùn)練與推理任務(wù)。
由于在6款芯片、托盤、機架、Pod、數(shù)據(jù)中心與軟件層面實現(xiàn)了極致協(xié)同設(shè)計,Rubin平臺在訓(xùn)練與推理成本上實現(xiàn)了大幅下降。與上一代Blackwell相比,訓(xùn)練相同規(guī)模的MoE模型,僅需1/4的GPU數(shù)量;在相同延遲下,大型MoE模型的token成本降低至1/10。
![]()
采用DGX Rubin NVL8系統(tǒng)的NVIDIA DGX SuperPOD也一并發(fā)布。
![]()
借助Vera Rubin架構(gòu),英偉達正與合作伙伴和客戶一起,構(gòu)建世界上規(guī)模最大、最先進、成本最低的AI系統(tǒng),加速AI的主流化落地。
Rubin基礎(chǔ)設(shè)施將于今年下半年通過CSP與系統(tǒng)集成商提供,微軟等將成為首批部署者。
三、開放模型宇宙再擴展:新模型、數(shù)據(jù)、開源生態(tài)的重要貢獻者
在軟件與模型層面,英偉達繼續(xù)加大開源投入。
OpenRouter等主流開發(fā)平臺顯示,過去一年,AI模型使用量增長20倍,其中約1/4的token來自開源模型。
![]()
2025年,英偉達是Hugging Face上開源模型、數(shù)據(jù)和配方的最大貢獻者,發(fā)布了650個開源模型和250個開源數(shù)據(jù)集。
![]()
英偉達的開源模型在多項排行榜中名列前茅。開發(fā)者不僅可以使用這些開源模型,還可以從中學(xué)習(xí)、持續(xù)訓(xùn)練、擴展數(shù)據(jù)集,并使用開源工具和文檔化技術(shù)來構(gòu)建AI系統(tǒng)。
![]()
受到Perplexity的啟發(fā),黃仁勛觀察到,Agents應(yīng)該是多模型、多云和混合云的,這也是Agentic AI系統(tǒng)的基本架構(gòu),幾乎所有的創(chuàng)企都在采用。
![]()
借助英偉達提供的開源模型和工具,開發(fā)者現(xiàn)在也可以定制AI系統(tǒng),并使用最前沿的模型能力。目前,英偉達已經(jīng)將上述框架整合為“藍圖”,并集成到SaaS平臺中去。用戶可以借助藍圖實現(xiàn)快速部署。
現(xiàn)場演示的案例中,這一系統(tǒng)系統(tǒng)可以根據(jù)用戶意圖,自動判斷任務(wù)應(yīng)由本地私有模型還是云前沿模型處理,也可調(diào)用外部工具(如郵件 API、機器人控制接口、日歷服務(wù)等),并實現(xiàn)多模態(tài)融合,統(tǒng)一處理文本、語音、圖像、機器人傳感信號等信息。
![]()
這些復(fù)雜的能力在過去是絕對無法想象的,但如今已經(jīng)變得微不足道。在ServiceNow、Snowflake等企業(yè)平臺上,都能使用到類似的能力。
四、開源Alpha-Mayo模型,讓自動駕駛汽車“思考”
英偉達相信物理AI和機器人最終將成為全球最大的消費電子細(xì)分市場。所有能夠移動的事物,最終都將實現(xiàn)完全自主,由物理AI驅(qū)動。
AI已經(jīng)經(jīng)歷了感知AI、生成式AI、Agentic AI階段,現(xiàn)在正進入物理AI時代,智能走入真實世界,這些模型能夠理解物理規(guī)律,并直接從物理世界的感知中生成行動。
![]()
不要要實現(xiàn)這一目標(biāo),物理AI必須學(xué)會世界的常識——物體恒存、重力、摩擦。這些能力的獲取將依賴三臺計算機:訓(xùn)練計算機(DGX)用于打造AI模型,推理計算機(機器人/車載芯片)用于實時執(zhí)行,仿真計算機(Omniverse)用于生成合成數(shù)據(jù)、驗證物理邏輯。
而其中的核心模型是Cosmos世界基礎(chǔ)模型,將語言、圖像、3D與物理規(guī)律對齊,支撐從仿真生成訓(xùn)練數(shù)據(jù)的全鏈路。
物理AI將出現(xiàn)在三類實體中:建筑(如工廠、倉庫),機器人,自動駕駛汽車。
黃仁勛認(rèn)為,自動駕駛將成為是物理AI的第一個大規(guī)模應(yīng)用場景。此類系統(tǒng)需要理解現(xiàn)實世界、做出決策并執(zhí)行動作,對安全性、仿真和數(shù)據(jù)要求極高。
對此,英偉達發(fā)布Alpha-Mayo,一個由開源模型、仿真工具和物理AI數(shù)據(jù)集組成的完整體系,用于加速安全、基于推理的物理AI開發(fā)。
其產(chǎn)品組合為全球車企、供應(yīng)商、創(chuàng)企和研究人員提供構(gòu)建L4級自動駕駛系統(tǒng)的基礎(chǔ)模塊。
![]()
Alpha-Mayo這是是業(yè)內(nèi)首個真正讓自動駕駛汽車“思考”的模型,這一模型已經(jīng)開源。它通過將問題拆解為步驟,對所有可能性進行推理,并選擇最安全的路徑。
![]()
這種推理型任務(wù)-行動模型使自動駕駛系統(tǒng)能夠解決此前從未經(jīng)歷過的復(fù)雜邊緣場景,例如繁忙路口的交通燈失效。
Alpha-Mayo擁有100億個參數(shù),規(guī)模足以處理自動駕駛?cè)蝿?wù),同時又足夠輕量,可運行在為自動駕駛研究人員打造的工作站上。
它能接收文本、環(huán)視攝像頭、車輛歷史狀態(tài)和導(dǎo)航輸入,并輸出行駛軌跡和推理過程,讓乘客理解車輛為何采取某個行動。
現(xiàn)場播放的宣傳片中,在Alpha-Mayo的驅(qū)動下,自動駕駛汽車可以在0介入的情況下自主完成行人避讓、預(yù)判左轉(zhuǎn)車輛并變道繞開等操作。
![]()
黃仁勛稱,搭載Alpha-Mayo的梅賽德斯奔馳CLA已經(jīng)投產(chǎn),還剛剛被NCAP評為世界上最安全的汽車。每條代碼、芯片、系統(tǒng)都經(jīng)過安全認(rèn)證。該系統(tǒng)將在美國市場上線,并將在今年晚些時候推出更強駕駛能力,包括高速公路脫手駕駛,以及城市環(huán)境下的端到端自動駕駛。
![]()
英偉達亦發(fā)布了用于訓(xùn)練Alpha-Mayo的部分?jǐn)?shù)據(jù)集、開源推理模型評估仿真框架Alpha-Sim。開發(fā)者可以使用自有數(shù)據(jù)對Alpha-Mayo進行微調(diào),也可以使用Cosmos生成合成數(shù)據(jù),并在真實數(shù)據(jù)與合成數(shù)據(jù)結(jié)合的基礎(chǔ)上訓(xùn)練和測試自動駕駛應(yīng)用。除此之外,英偉達宣布NVIDIA DRIVE平臺現(xiàn)已投入生產(chǎn)。
英偉達宣布,波士頓動力、Franka Robotics、Surgical手術(shù)機器人、LG電子、NEURA、XRLabs、智元機器人等全球機器人領(lǐng)先企業(yè)均基于NVIDIA Isaac和GR00T構(gòu)建。
![]()
黃仁勛還官宣了與西門子的最新合作。西門子正將英偉達CUDA-X、AI模型和Omniverse集成到其EDA、CAE和數(shù)字孿生工具與平臺組合中。物理AI將被廣泛用于設(shè)計、仿真到生產(chǎn)制造和運營的全流程。
結(jié)語:左手擁抱開源,右手將硬件系統(tǒng)做到不可替代
隨著AI基礎(chǔ)設(shè)施的重心正從訓(xùn)練轉(zhuǎn)向大規(guī)模推理,平臺競爭已從單點算力,演進為覆蓋芯片、機架、網(wǎng)絡(luò)與軟件的系統(tǒng)工程,目標(biāo)轉(zhuǎn)向以最低TCO交付最大推理吞吐,AI正進入“工廠化運行”的新階段。
英偉達非常注重系統(tǒng)級設(shè)計,Rubin同時在訓(xùn)練和推理上實現(xiàn)了性能與經(jīng)濟性的提升,并能作為Blackwell的即插即用替代方案,可從Blackwell無縫過渡。
在平臺定位上,英偉達依然認(rèn)為訓(xùn)練至關(guān)重要,因為只有快速訓(xùn)練出最先進模型,推理平臺才能真正受益,因此在Rubin GPU中引入NVFP4訓(xùn)練,進一步提升性能、降低TCO。
同時,這家AI計算巨頭也持續(xù)在縱向擴展和橫向擴展架構(gòu)上大幅強化網(wǎng)絡(luò)通信能力,并將上下文視作關(guān)鍵瓶頸,實現(xiàn)存儲、網(wǎng)絡(luò)、計算的協(xié)同設(shè)計。
英偉達一邊大舉開源,另一邊正將硬件、互連、系統(tǒng)設(shè)計做得越來越“不可替代”,這種持續(xù)擴大需求、激勵token消耗、推動推理規(guī)模化、提供高性價比基礎(chǔ)設(shè)施的策略閉環(huán),正為英偉達構(gòu)筑更加堅不可摧的護城河。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.