在硅谷的SAP中心,一場與眾不同的盛會吸引了無數目光。Nvidia的掌門人,穿著皮夾克、年逾古稀的黃仁勛,站在人潮洶涌的現場,他開場的話語充滿了戲謔:“我希望你們明白,這里不是音樂會。”
這句話揭開了GTC大會的序幕,這個會議與音樂會的狂熱截然不同,它是一場開發者的盛宴,討論的是算法、計算機架構和數學等科學主題。盡管如此,這位市值第三高企業的CEO,無疑在現場擁有著眾多粉絲。
![]()
黃仁勛將音樂會與音樂會相提并論并不令人意外,這個場地確實非常有音樂會氣氛
接下來讓我們一起看看本次的GTC大會發布了哪些產品吧!
Blackwell:訓練速度提升四倍,推理性能提高三十倍
Blackwell已經來了。Blackwell是一款由兩個全尺寸GPU組成的GPU,以“單”個(雙芯片)GPU的形式提供20 PetaFlops性能,與H100相比,其訓練速度提升了四倍,更令人驚嘆的是,每個GPU的推理吞吐量提高了三十倍。
得益于新的、更快的第五代NVLink,Blackwell能夠擴展至576個GPU(H100擴展至256個)。包括的第二代Transformer引擎采用FP4精度,以及一個比以前快20倍的解壓縮引擎,都為性能提升做出了貢獻。
GB200和NVL72:面向AI的機架規模設計點
GB200 和 NVL72:AI 的機架級設計點
然而,大部分的市場推廣力量并不是集中在Blackwell GPU上,而是集中在一個稱為GB200的三芯片超級芯片上,它由兩個Blackwell和一個Grace Arm CPU組成。
這種與Grace-Hopper芯片1-1比例不同的做法非常有意義,因為對于GH200來說,Grace的I/O和計算帶寬足以管理兩個Blackwell,即四個GPU。這應該有助于降低使用Grace平臺的總擁有成本,也可能將Grace從Nvidia收入的一小部分轉變為新安裝的重要驅動力。
支持NVLink的GB200 NVL72機架包含72個Blackwell GPU和36個Grace CPU。Nvidia稱,這個單獨的機架就能訓練一個27萬億參數模型。當然,大多數為此設計的AI工廠會使用多個機架來更快地訓練如此龐大的模型。
Nvidia表示,其在AWS托管的Ceiba AI超級計算機現將由20,000個GB200 GPU組成,而不是最初宣布的16,000個H100。
![]()
Grace Blackwell 系統機架
每個機架放兩個GB200的計算托盤,一共有18個托盤。然后兩個NVSwitch放在一個交換托盤中。一切都通過每秒2升的水冷系統冷卻,并且重量為3000磅。整個機架消耗120千瓦電力。
![]()
NVL72 組件
Nvidia令聽眾驚訝地宣稱,GB200對于“傳統”的LLMS,如GPT3,比H100快了八倍,這已經非常不錯了,但對于推理1.8T參數的MoE,GB200比H100快了驚人的三十倍。
新的Transformer引擎
Transformer引擎這項技術允許每個張量在最優精度下進行計算,現在精度可達FP4。這意味著,如果一個競爭對手的GPU有相同數量的Flops,由于Transformer引擎的作用,Blackwell在推理處理上可能會快兩倍。
Nvidia HPC和Hyperscale副總裁Ian Buck表示:“它的作用是跟蹤每層每個張量以及整個神經網絡在計算過程中和模型訓練過程中的準確性動態范圍,我們持續監控每層的范圍并適應,以保持在數值精度的界限內,獲得最佳性能。”
![]()
第二代Transformer引擎
現在讓我們看看這個怪獸是如何擴展的。Nvidia指出,今天的AI模型,如Meta Lama 2,95%是計算(和內存)受限的,只有5%是通信受限的。
但下一代AI模型,為之設計的Grace Blackwell,使用了“專家混合”,其中40%是計算受限的,60%是通信受限的。他們得出結論,像H100這樣的芯片會慢18倍,因為GPU都在嘗試彼此通信。
NVLink Gen 5:更快,帶有3.6TFlops卸載速度
Nvidia正在將NVLink擴展到多機架規模,支持3.6TF的網絡內計算,用于Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)技術。
SHARP通過將操作從CPU和GPU卸載到網絡,并消除了在端點之間多次發送數據的需要,改善了MPI和機器學習集體操作的性能。
![]()
新的 NVLink
DGX和DGX SuperPOd
像往常一樣,Nvidia也在為OEM和Nvidia DGX系統分別部署新芯片(B200和GB200)到HGX系統板。與NVL72不同,這兩者都是空氣冷卻的,報告稱推理性能提高了15倍,訓練性能提高了3倍,與DGX H100相比。
新的SuperPOD是一種以NVIDIA DGX GB200系統構建的液冷機架規模架構,提供每機架11.5 exaflops的AI超級計算能力,精度為FP4,以及每機架240 terabytes的快速內存。
每個DGX GB200系統都配備了36個NVIDIA GB200 Superchip — 包括36個NVIDIA Grace CPU和72個NVIDIA Blackwell GPU — 通過第五代NVIDIA NVLink作為一個超級計算機連接。
硬件可用性
那么,所有這些好東西何時開始發貨呢?Nvidia在這個細節上有點含糊,但Jensen展示了每個一線CSP和每個大小的Server OEM的logo。所以,看起來Blackwell將成為2024年的收入驅動力,B100盡快發貨,而GB200將在今年晚些時候發貨。
那么H100會怎樣呢?嗯,如果你是一個企業,希望訓練或微調一個模型,或在這些大約80B模型上運行推理,H100將仍然是最具成本效益的平臺。但如果你是一個創建10萬億參數MoE模型的AI工廠,你將需要GB200,可能還需要NVL72機架。
NIM:預建的領域特定推理微服務
在最后一次季度財報電話會議中,Nvidia表示,公司的軟件業務正在達到每年10億美元的運營規模的臨界質量。Nvidia的軟件幫助客戶快速啟動AI(或HPC),現在又邁出了下一步。公司創建了一個稱為“NIM”(Nvidia推理微服務)的概念,包括預建的Kubernetes容器、模型、API和推理引擎,如Triton,供開發人員構建領域特定副駕駛使用。NIM包含在Nvidia AI企業解決方案中,每GPU每年4500美元的無限制使用中。
舉例來說,如果Nvidia將100萬GPU(大約四分之一的預期GPU出貨量)銷售給公司或主權數據中心,并搭配AI企業解決方案,那將產生45億美元的年收入,這是一個年度、黏性強、利潤高的收入。當然,Nvidia也樂意為數以億計的已安裝基礎GPU銷售額外的軟件許可。
因此,人們不禁要問——我們是否即將從“硬件拉動一些軟件”模式過渡到新的范式,即“軟件拉動硬件”?業務價值和上市時間由模型和優化軟件驅動,NIM可能使部署推理能力更加容易。Nvidia說你可以在10分鐘內部署一個模型。當然,這還配備了非常酷的GPU。
![]()
Nvidia NIM:推理微服務
這里有一個NIM的例子。Nvidia一直在將“Clara”作為醫療保健行業的全面起點進行市場營銷。現在,有了NIM,醫療保健微服務已經預構建并且易于部署,具有標準的API和部署靈活性,無論是云端還是本地部署。這是Nvidia如何從一個巨大的工具箱轉變為可消費和可部署的AI的方式。
![]()
使用 NIMS 的醫療保健微服務
NIM微服務為從NVIDIA、A121、Adept、Cohere、蓋蒂圖片、Shutterstock以及谷歌、擁抱者AI、Meta、Mistral AI和Stability AI的開放模型,很快還將支持微軟模型的模型部署提供最快速和最高性能的生產AI容器。ServiceNow宣布它正在使用NIM來更快、更經濟地開發和部署新的領域特定Copilots以及其他生成式AI應用。
Omniverse更新
Omniverse是Nvidia用于3D協作和數字孿生的平臺,繼續擴展到新市場并吸引新伙伴。Nvidia宣布了新的API,以簡化將CAD和CAE軟件集成到Omniverse中的過程。
“所有制造出來的東西都將有數字孿生,”NVIDIA的創始人兼CEO黃仁勛說。“Omniverse是構建和操作物理真實數字孿生的操作系統。Omniverse和生成式AI是數字化50000億美元重工業市場的基礎技術。”
Nvidia在GTC展會上展示的一個立即相關的用例是使用數據中心數字孿生來模擬從舊GPU技術更換到新的GB200平臺的過程。為了盡快啟用新數據中心,NVIDIA首先使用Omniverse連接的軟件工具構建了其數字孿生。
工程師們使用Cadence Reality數字孿生平臺,在全物理精度和照片級真實度的通用場景描述(OpenUSD)中可視化多個CAD數據集,該平臺由NVIDIA Omniverse API提供支持。這項技術有助于簡化新的和更新的數據中心的設計和建造過程,特別是在實施像GB200平臺這樣的尖端硬件時。
CuLitho:與Synopsys和TSMC一起進入生產階段
半導體制造業一直在探索使用計算光刻作為加速吞吐量的方法,自從Nvidia一年前引入這一概念以來。現在,TSMC和Synopsys準備將這種光刻吞吐量40倍的改進引入TSMC的生產線,而且不僅僅是最先進的工藝節點。普遍認為這個AI平臺將改變半導體制造業。
![]()
TSMC 和 Synopsys 已將 CiLitho 投入生產
結論
任何一直在想Nvidia可能會失去競爭優勢的人都應該放心,這個領導者將繼續領先。有了新發現的4倍訓練優勢,30倍推理優勢和新的NIM推理部署模型,Nvidia看起來很適合應對所有競爭對手,并保持其超過80%的市場份額。
但毫無疑問,競爭已經從唯一一個可行的替代品(谷歌TPU)變成了至少8個,增加了AMD MI300、Intel Gaudi、Microsoft Maia、AWS芯片、Meta MTIA Cerebras和Groq,還有更多準備加入戰場的選手。
隨著這些玩家將他們的芯片推向市場,Nvidia的軟件堆棧增加了他們必須克服的挑戰。我們暫時還沒有看到任何人在像NIMS和Omniverse以及企業AI這樣的軟件上即將接近Nvidia,盡管LLM模型和OpenAI Triton在整個領域的可用性可能在某種程度上削弱這一優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.