網易首頁 > 網易號 > 正文申請入駐

復雜計算的CPU和并行計算的GPU，究竟誰是未來？

2026-01-30 10:03:48　來源: 智趣東西

北京舉報

分享至

在計算世界的賽道上，NVIDIA 靠著 GPU 海量并行能力幾乎席卷了 AI 訓練、推理、圖形渲染等所有高吞吐場景，而 Intel 和 AMD 則把重心放在CPU單核性能、分支預測、亂序執行和大緩存的極致打磨上。很多人會問：這兩條路到底誰更接近未來？答案其實沒有那么非黑即白，因為它們本質上解決的是完全不同的問題。

并行計算為什么這么猛？

過去十年深度學習把計算需求徹底重塑，矩陣乘法、注意力機制、Transformer 這些核心操作天生就能拆成無數小塊同時計算，GPU 正好為此而生。幾千上萬的核心一起干活，再配上 HBM 高帶寬內存，形成了碾壓級的吞吐能力——相比于延遲問題，并行計算更重視帶寬。大模型動輒幾萬張卡的訓練規模，讓很多人覺得未來就是并行計算的天下。

CPU與GPU的本質差異

GPU 的并行算力強大，還體現在對不同精度的靈活支持上。傳統 FP32（單精度）適合通用計算，但 AI 訓練和推理越來越依賴低精度格式來換取速度和能效。現代 GPU 通過專用矩陣加速單元（如 NVIDIA 的 Tensor Cores 或 AMD 的 AI 加速器 / Matrix Cores / WMMA 單元）來高效處理這些操作，能支持 FP16、BF16（腦浮點）、INT8，甚至 FP8 等更低精度格式。低精度讓計算密度大幅提升——在同樣的硅片面積（晶體管數量/芯片面積）下，低精度格式（如 FP8）允許 GPU 執行遠更多的浮點運算，同時大幅降低內存占用和帶寬壓力。這直接推動了大模型的規模爆炸：訓練速度更快、推理更省電、部署成本更低。簡單說，并行計算的“猛”不只靠核心數量，還靠精度降維打擊，讓海量數據以更高效的方式被“嚼碎”處理。

復雜計算始終位于舞臺中央！

但是，這不代表世界全部都是并行計算的，現實里還有大量場景根本跑不出高并行度。數據庫的事務處理、游戲里單線程的 AI 決策和物理模擬、傳統高性能計算里的稀疏矩陣和圖計算、瀏覽器渲染、編譯器、Java/Go 后端服務等等，這些地方真正吃的是“每一條指令要多快到達、多快執行完”，而不是“同時干多少條”。它們更依賴單核 IPC、極低的緩存延遲、聰明的分支預測和足夠大的亂序窗口。這正是 AMD Zen 系列（尤其是3D V-Cache系列）和 Intel 最新架構拼命優化的方向。

比如AMD當下的Zen 5架構（銳龍9000系列及線程撕裂者 9000系列）帶來了顯著升級，核心數量最大可達 96 個，并引入兩步前瞻分支預測、ALU從4 個增到 6 個提升整數吞吐 50%、向量引擎浮點管道從 3 增到 4、AVX-512 增強支持、更大的 L3 緩存，IPC 平均提升 16%，同時支持更高的內存速率。這些優化讓 Zen 5 在單線程延遲敏感任務和游戲中繼續強勢，尤其3D V-Cache的大緩存是游戲玩家最好的選擇。

Intel 最新一代則以 Arrow Lake（酷睿Ultra 200 系列）和Panther Lake（酷睿Ultra 300）為主。Arrow Lake 采用 Chiplet 設計、Lion Cove P 核 + Skymont E 核混合、TSMC N3B 工藝 compute tile、獨占 DDR5 支持、集成 Xe2/Xe3 圖形；Panther Lake 進一步統一 Lunar Lake 的超低功耗效率與 Arrow Lake 的性能，基于 Intel 18A 工藝、可擴展 8/16 核配置、Xe3 圖形最高 12 核（接近 RTX 4050 獨顯）、NPU 優化保持高能效、多線程性能提升 60%、游戲提升 77%。并且，這兩代CPU都非常強調混合核心效率、AI 加速和圖形集成，在低延遲、企業服務和移動場景中保持著強大的競爭力。

如果非要對比，那就是并行計算追求最大吞吐，復雜計算追求最低延遲——兩條路很難完全互相取代，就像高速公路上的貨車和跑車，誰也替代不了誰。

緩存戰爭：瓶頸永遠都在

另外，真正決定算力天花板的，其實一直是數據能不能及時送到計算單元面前——緩存與內存的永恒拉鋸戰。

在芯片內部，L1 緩存最快但容量極小，只有幾十 KB，基本只夠緩存正在運行的指令和數據；L2 緩存容量大一些，每個核心獨享，延遲控制在十幾個周期；L3 緩存則是所有核心共享的“大水池”，AMD 把 3D V-Cache 做到上百 MB，讓游戲和很多緩存敏感負載直接起飛。

在芯片外部，為高帶寬而生的HBM，最新的HBM4 預期單棧 2.2 TB/s 左右帶寬，聽起來很夸張，但放在幾千上萬核心同時“餓肚子”的場景下，仍然遠遠不夠。至于普通的 DDR5 帶寬就更有限，只有幾百 GB/s，延遲還高得多。

不管工藝怎么縮小，馮·諾依曼瓶頸（計算和存儲分離）始終橫在那里。計算單元越并行，對“數據即時送達”的渴求就越極端。所以你可以看到GPU 拼命堆 HBM 層數和 NVLink 互聯，CPU 則瘋狂堆 L3 容量，甚至愿意犧牲一點頻率也要換來更大的本地數據池。這場緩存戰爭還會持續很多年，因為“讓正確的數據在正確的時間出現在正確的地方”永遠是計算的終極難題，目前誰都沒能徹底解決。

未來不是你死我活，而是兩條腿走路

未來的圖景大概率不是一方徹底取代另一方，而是高度分工又緊密協同。吞吐怪獸的任務交給 GPU 和專用加速器，延遲敏感、分支密集、難以并行的活兒還是交給復雜 CPU。大部分真實世界應用都會是 CPU + GPU + NPU 的異構組合，長期共存——兩條腿走路，才是計算真正的未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.