網易首頁 > 網易號 > 正文申請入駐

4卡96GB顯存暴力輸出！英特爾銳炫Pro B60和長城世恒X-AIGC工作站評測：可滿足千人同時在線聊天

2026-02-10 14:17:14　來源: 快科技

河南舉報

分享至

一、前言：當前最具性價比的96GB/192GB AI推理卡

憑借深耕多年的CUDA護城河，NVIDIA在AI領域一度擁有"定價權"，這也讓這家公司的GPU及相關產品的售價逐漸脫離普通的消費者。

然而，隨著硬件巨頭Intel向"全棧AI公司"快速轉型，這種絕對壟斷正在被打破。

早在2019年，Intel就發布了oneAPI 跨架構編程模型，旨在讓代碼在 CPU、GPU、NPU 之間通用。這意味著開發者用一套代碼即可調用 Intel 的所有算力，降低了遷移成本。

oneAPI還允許開發者將原本僅能NVIDIA CUDA環境下運行的代碼，通過其遷移工具（SYCLomatic）快速轉換到Intel硬件上，為Arc系列顯卡運行主流大模型打下了堅實的軟件基礎。

去年，Intel發布了基于第二代Xe2架構（Battlemage）的專業級顯卡—Intel Arc Pro B60。隨后，以Maxsun（銘瑄）、SPARKLE（撼與）、GUNNIR（藍戟）為代表的核心伙伴正式將其推向全球市場，直指高性能AI推理領域。

Intel Arc Pro B60與此前發布的消費級Intel Arc B580一樣，都采用了完整的BMG-G21 GPU 核心，擁有20個Xe2核心，2560個FP32單元（也可以說是2560個流處理器），20個光追單元和160個XXM AI引擎。

每顆BMG-G21 GPU可提供12.28 TFLOPS的FP32浮點性能以及197 TOPS的INT8 AI性能。

在顯存方面，Intel Arc Pro B60設計了192bit位寬、19Gbps GDDR6顯存，顯存帶寬高達456GB/s，顯存容量則從Intel Arc B580的12GB直接翻倍到了24GB。

與更貴的NVIDIA RTX Pro 2000相比，Intel Arc Pro B60不論是顯存容量還是顯存帶寬都比對手高出了50%。

而在大模型推理中，顯存容量決定了模型的參數上限，帶寬則決定了吐字速度。

相比之下，NVIDIA同樣顯存規格的AI加速卡，售價往往是Arc Pro B60的3至4倍。

隨著DeepSeek等大規模 MoE 模型爆發的，Intel Arc Pro B60成為了目前市面上構建 96GB（4卡）到 192GB（8卡）超大顯存池最具性價比的方案。

此次我們收到了來自于長城的世恒X-AIGC工作站，這臺主機搭載了Intel Xeon w5-3435X處理器、256GB（4x64GB）DDR5 ECC 6400MHz內存、2600W金牌電源以及4張Intel Arc Pro B60 24GB顯卡，共計96GB顯存。

二、英特爾銳炫Pro B60和長城世恒X-AIGC工作站圖賞

長城世恒X圖形工作站包含4張Arc Pro B60顯卡，不過為了運輸安全，發貨時，顯卡會單獨包裝，并不會直接安裝在主機里面。

Arc Pro B60 24GB公版顯卡正面照，雙槽厚度，配備一個渦輪風扇。

顯卡背面有全尺寸的金屬背板，大量的片式聚合物電容也放在背面。

3個DP 2.1和一個HDMI 2.1接口。

2個8Pin供電接口放在了顯卡尾端。

長城世恒X圖形工作站。

超大的水冷頭與水泵采用了分離設計，水泵在其中一根水冷管上。

將4張Arc Pro B60安裝進去。

長城世恒X圖形工作站與4張Arc Pro B60合體。

三、GPT-OSS-120B MXFP4多并發性能測試：能滿足千人同時在線聊天

GPT-OSS-120B是OpenAI首個開源的千億級參數模型，總參數 1170 億 (117B)，被認為是測試多卡并聯（Multi-GPU Parallelism）和分布式計算性能的標桿。

我們將GPT-OSS-120B模型下載至容器的llmmodels目錄下，并開啟vLLM OpenAI API服務，具體參數如下：

由于120b占用顯卡超過66GB，只能4卡并聯進行測試，推理精度bfloat16，單次批處理的最大Token總數為 8192，最大上下文長度（Token 數）為 3000，GPU 顯存利用率上限為 90%（預留10%給系統），使用MXFP4（混合精度 FP4）進行量化壓縮。

vLLM OpenAI API 服務已經成功啟動，下面單開一個窗口進行測試。

vLLM版本是最新的0.5.0，無法使用過去的benchmark_serving.py腳本進行測試，因此我們直接使用vllm bench serve命令，分別測試并發數1,10,20,30,40,50,60,70,80,90,100時的AI性能。

這是并發數為1的測試成績日志，請求成功率 100%，在處理 120B 這種超大規模模型時，100 個請求全部成功且無一報錯，說明4卡 Arc Pro B60 + MXFP4運行測試時非常穩定。

TTFT (首字延遲)僅為91.37ms，說明Arc Pro B60預填充（Prefill）階段的爆發力極強。

平均 ITL (逐詞延遲) 為 32.01 ms，輸出吞吐量則為184tok/s。

下面是并發數從1,10,20,30,40,50,60,70,80,90,100的性能變化。

當并發數從1~10時：系統的吞吐量呈現指數級增長，從 184 飆升至 613 tok/s。

不過并發數達到60之后，吞吐量為701 tok/s，基本上已經達到了這套系統的極限，即便請求數增加到100之后，總吞吐量也就增加了1%左右。

整個測試期間，ITL (逐詞延遲)穩定得出奇，在達到并發 30 后，ITL 甚至隨著并發增加而輕微下降。也就是說在高負載下，計算核心被填充得更滿，單步推理的效率反而由于批處理效應而略微提升。

TTFT (首字延遲)震動比較劇烈，并發數為1時僅有91ms，并發數20時為241ns，并發數100時已經到了1344ms。

對于大多數用戶而言，10 tok/s即可擁有絲滑的訪問體驗，根據長城世恒X圖形工作站700tok/s的極限性能計算，它可以承受70個用戶同時請求回答。

再按1:15的活躍比計算，這臺工作站可以支持1000人同時在線聊天。

四、Llama-3.1-8B測試：比同價位RTX Pro 2000 16GB要快50%

1、Llama-3.1-8B

Llama-3.1-8B的顯存需求只有7GB左右，因此不僅可以對Arc Pro B60 24GB進行單卡、雙卡、4卡測試，我們還能測試桌面版RTX 5060 Ti 16GB的推理性能并與之進行對比！

vLLM 0.5.0 正式建立了對 Intel Arc GPU的原生支持，不再是以往那種簡單的代碼遷移，而是針對 Intel 的計算單元架構做了適配：

在并發數下，RTX 5060 Ti 16GB的性能略勝于單卡Arc Pro B60 24GB，但隨著并發數的提升，Arc Pro B60 24GB隨著并發數的提升，Arc Pro B60 24GB憑借大顯存的優勢開始逆襲，并發數90時，可以領先RTX 5060 Ti 16GB約10%左右。

4張Arc Pro B60 24GB在低并發數時性能優勢并不明顯，但隨著并發數的提升，特別是達到100并發后，4張Arc Pro B60 24GB的性能幾乎是單卡的4倍。

下面將精度降為FP8，重復上面的測試，但將N卡換成RTX Pro 2000。

與同價位的NVIDIA RTX Pro 2000 16GB相比，Arc Pro B60 24GB幾乎展現出了碾壓性優勢。

同樣是4卡并行進行運算，4xArc Pro B60 24GB比起4xRTX Pro 2000 16GB要強了50%左右，在并發數為100的情況下，憑借96GB大顯存，Intel的領先幅度甚至達到了65%。

五、小結：用入門級N卡的價錢買了接近旗艦級N卡的顯存容量和推理性能

憑借CUDA生態的支持，NVIDIA的GPU在特定的生產力與AI方面的確有無可比擬的性能優勢。

但是在大模型時代，顯存即正義。

96GB顯存意味著你可以本地運行參數量更大的模型，比如千億級參數GPT-OSS-120B、LLaMA-3-130B對于4卡Arc Pro B60 24GB完全不是問題。

同樣價位的NVIDIA RTX Pro 2000 16GB，4卡合計64GB顯存，這是一個相對尷尬的顯存容量，只能運行70B模型。在面對千億級模型時必須極致量化壓縮顯存，且僅支持短上下文低負載推理，完全無法支持訓練和微調。

而在性能方面，Arc Pro B60 24GB幾乎展現出了碾壓性優勢。

同樣是4卡并行運算（Llama-3.1-8B-Instruct FP8），4xArc Pro B60 24GB比起4xRTX Pro 2000 16GB要強了50%左右，在并發數為100的情況下，憑借96GB大顯存，高負載（Batch 100）下，Intel 方案達到了 2110 Tokens/s，而同樣價位的NVIDIA方案僅為 1279 Tokens/s。

Intel的領先幅度超過了65%。

在運行1200億參數的GPT-OSS-120B時，Arc Pro B60 24GB在預填充（Prefill）階段展現出了極強的爆發力，并發數為1的時候，Mean TFT (首字延遲)僅為91.37ms。

當并發數達到60之后，4張Arc Pro B60 24GB的吞吐量超過了701 tok/s，能滿足千人同時在線聊天。

對于想要組建高性能本地 LLM 推理站的企業而言，5000元的Arc Pro B60 24GB顯然是更具性價比的選擇。

要知道NVIDIA類型算力的24GB專業卡，其售價幾乎是Arc Pro B60 24GB的4倍左右。

很簡單的結論：Arc Pro B60 24GB能讓用戶以入門級N卡的價錢，買了接近旗艦級N卡的顯存容量和推理性能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.