在計算世界的賽道上,NVIDIA 靠著 GPU 海量并行能力幾乎席卷了 AI 訓練、推理、圖形渲染等所有高吞吐場景,而 Intel 和 AMD 則把重心放在CPU單核性能、分支預測、亂序執行和大緩存的極致打磨上。很多人會問:這兩條路到底誰更接近未來?答案其實沒有那么非黑即白,因為它們本質上解決的是完全不同的問題。
![]()
并行計算為什么這么猛?
過去十年深度學習把計算需求徹底重塑,矩陣乘法、注意力機制、Transformer 這些核心操作天生就能拆成無數小塊同時計算,GPU 正好為此而生。幾千上萬的核心一起干活,再配上 HBM 高帶寬內存,形成了碾壓級的吞吐能力——相比于延遲問題,并行計算更重視帶寬。大模型動輒幾萬張卡的訓練規模,讓很多人覺得未來就是并行計算的天下。
![]()
CPU與GPU的本質差異
GPU 的并行算力強大,還體現在對不同精度的靈活支持上。傳統 FP32(單精度)適合通用計算,但 AI 訓練和推理越來越依賴低精度格式來換取速度和能效。現代 GPU 通過專用矩陣加速單元(如 NVIDIA 的 Tensor Cores 或 AMD 的 AI 加速器 / Matrix Cores / WMMA 單元)來高效處理這些操作,能支持 FP16、BF16(腦浮點)、INT8,甚至 FP8 等更低精度格式。低精度讓計算密度大幅提升——在同樣的硅片面積(晶體管數量/芯片面積)下,低精度格式(如 FP8)允許 GPU 執行遠更多的浮點運算,同時大幅降低內存占用和帶寬壓力。這直接推動了大模型的規模爆炸:訓練速度更快、推理更省電、部署成本更低。簡單說,并行計算的“猛”不只靠核心數量,還靠精度降維打擊,讓海量數據以更高效的方式被“嚼碎”處理。
![]()
復雜計算始終位于舞臺中央!
但是,這不代表世界全部都是并行計算的,現實里還有大量場景根本跑不出高并行度。數據庫的事務處理、游戲里單線程的 AI 決策和物理模擬、傳統高性能計算里的稀疏矩陣和圖計算、瀏覽器渲染、編譯器、Java/Go 后端服務等等,這些地方真正吃的是“每一條指令要多快到達、多快執行完”,而不是“同時干多少條”。它們更依賴單核 IPC、極低的緩存延遲、聰明的分支預測和足夠大的亂序窗口。這正是 AMD Zen 系列(尤其是3D V-Cache系列)和 Intel 最新架構拼命優化的方向。
![]()
比如AMD當下的Zen 5架構(銳龍9000系列及線程撕裂者 9000系列)帶來了顯著升級,核心數量最大可達 96 個,并引入兩步前瞻分支預測、ALU從4 個增到 6 個提升整數吞吐 50%、向量引擎浮點管道從 3 增到 4、AVX-512 增強支持、更大的 L3 緩存,IPC 平均提升 16%,同時支持更高的內存速率。這些優化讓 Zen 5 在單線程延遲敏感任務和游戲中繼續強勢,尤其3D V-Cache的大緩存是游戲玩家最好的選擇。
![]()
Intel 最新一代則以 Arrow Lake(酷睿Ultra 200 系列)和Panther Lake(酷睿Ultra 300)為主。Arrow Lake 采用 Chiplet 設計、Lion Cove P 核 + Skymont E 核混合、TSMC N3B 工藝 compute tile、獨占 DDR5 支持、集成 Xe2/Xe3 圖形;Panther Lake 進一步統一 Lunar Lake 的超低功耗效率與 Arrow Lake 的性能,基于 Intel 18A 工藝、可擴展 8/16 核配置、Xe3 圖形最高 12 核(接近 RTX 4050 獨顯)、NPU 優化保持高能效、多線程性能提升 60%、游戲提升 77%。并且,這兩代CPU都非常強調混合核心效率、AI 加速和圖形集成,在低延遲、企業服務和移動場景中保持著強大的競爭力。
![]()
如果非要對比,那就是并行計算追求最大吞吐,復雜計算追求最低延遲——兩條路很難完全互相取代,就像高速公路上的貨車和跑車,誰也替代不了誰。
緩存戰爭:瓶頸永遠都在
另外,真正決定算力天花板的,其實一直是數據能不能及時送到計算單元面前——緩存與內存的永恒拉鋸戰。
在芯片內部,L1 緩存最快但容量極小,只有幾十 KB,基本只夠緩存正在運行的指令和數據;L2 緩存容量大一些,每個核心獨享,延遲控制在十幾個周期;L3 緩存則是所有核心共享的“大水池”,AMD 把 3D V-Cache 做到上百 MB,讓游戲和很多緩存敏感負載直接起飛。
![]()
在芯片外部,為高帶寬而生的HBM,最新的HBM4 預期單棧 2.2 TB/s 左右帶寬,聽起來很夸張,但放在幾千上萬核心同時“餓肚子”的場景下,仍然遠遠不夠。至于普通的 DDR5 帶寬就更有限,只有幾百 GB/s,延遲還高得多。
![]()
不管工藝怎么縮小,馮·諾依曼瓶頸(計算和存儲分離)始終橫在那里。計算單元越并行,對“數據即時送達”的渴求就越極端。所以你可以看到GPU 拼命堆 HBM 層數和 NVLink 互聯,CPU 則瘋狂堆 L3 容量,甚至愿意犧牲一點頻率也要換來更大的本地數據池。這場緩存戰爭還會持續很多年,因為“讓正確的數據在正確的時間出現在正確的地方”永遠是計算的終極難題,目前誰都沒能徹底解決。
未來不是你死我活,而是兩條腿走路
未來的圖景大概率不是一方徹底取代另一方,而是高度分工又緊密協同。吞吐怪獸的任務交給 GPU 和專用加速器,延遲敏感、分支密集、難以并行的活兒還是交給復雜 CPU。大部分真實世界應用都會是 CPU + GPU + NPU 的異構組合,長期共存——兩條腿走路,才是計算真正的未來。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.