一、前言:當前最具性價比的96GB/192GB AI推理卡
憑借深耕多年的CUDA護城河,NVIDIA在AI領域一度擁有"定價權",這也讓這家公司的GPU及相關產品的售價逐漸脫離普通的消費者。
然而,隨著硬件巨頭Intel向"全棧AI公司"快速轉型,這種絕對壟斷正在被打破。
早在2019年,Intel就發布了oneAPI 跨架構編程模型,旨在讓代碼在 CPU、GPU、NPU 之間通用。這意味著開發者用一套代碼即可調用 Intel 的所有算力,降低了遷移成本。
![]()
oneAPI還允許開發者將原本僅能NVIDIA CUDA環境下運行的代碼,通過其遷移工具(SYCLomatic)快速轉換到Intel硬件上,為Arc系列顯卡運行主流大模型打下了堅實的軟件基礎。
![]()
去年,Intel發布了基于第二代Xe2架構(Battlemage)的專業級顯卡—Intel Arc Pro B60。隨后,以Maxsun(銘瑄)、SPARKLE(撼與)、GUNNIR(藍戟)為代表的核心伙伴正式將其推向全球市場,直指高性能AI推理領域。
Intel Arc Pro B60與此前發布的消費級Intel Arc B580一樣,都采用了完整的BMG-G21 GPU 核心, 擁有20個Xe2核心,2560個FP32單元(也可以說是2560個流處理器),20個光追單元和160個XXM AI引擎。
![]()
每顆BMG-G21 GPU可提供12.28 TFLOPS的FP32浮點性能以及197 TOPS的INT8 AI性能。
在顯存方面,Intel Arc Pro B60設計了192bit位寬、19Gbps GDDR6顯存,顯存帶寬高達456GB/s,顯存容量則從Intel Arc B580的12GB直接翻倍到了24GB。
與更貴的NVIDIA RTX Pro 2000相比,Intel Arc Pro B60不論是顯存容量還是顯存帶寬都比對手高出了50%。
而在大模型推理中,顯存容量決定了模型的參數上限,帶寬則決定了吐字速度。
相比之下,NVIDIA同樣顯存規格的AI加速卡,售價往往是Arc Pro B60的3至4倍。
隨著DeepSeek等大規模 MoE 模型爆發的,Intel Arc Pro B60成為了目前市面上構建 96GB(4卡) 到 192GB(8卡)超大顯存池最具性價比的方案。
![]()
此次我們收到了來自于長城的世恒X-AIGC工作站,這臺主機搭載了Intel Xeon w5-3435X處理器、256GB(4x64GB)DDR5 ECC 6400MHz內存、2600W金牌電源以及4張Intel Arc Pro B60 24GB顯卡,共計96GB顯存。
二、英特爾銳炫Pro B60和長城世恒X-AIGC工作站圖賞
![]()
長城世恒X圖形工作站包含4張Arc Pro B60顯卡,不過為了運輸安全,發貨時,顯卡會單獨包裝,并不會直接安裝在主機里面。
![]()
Arc Pro B60 24GB公版顯卡正面照,雙槽厚度,配備一個渦輪風扇。
![]()
顯卡背面有全尺寸的金屬背板,大量的片式聚合物電容也放在背面。
![]()
3個DP 2.1和一個HDMI 2.1接口。
![]()
2個8Pin供電接口放在了顯卡尾端。
![]()
長城世恒X圖形工作站。
![]()
![]()
超大的水冷頭與水泵采用了分離設計,水泵在其中一根水冷管上。
![]()
![]()
![]()
將4張Arc Pro B60安裝進去。
![]()
長城世恒X圖形工作站與4張Arc Pro B60合體。
三、GPT-OSS-120B MXFP4多并發性能測試:能滿足千人同時在線聊天
GPT-OSS-120B是OpenAI首個開源的千億級參數模型,總參數 1170 億 (117B),被認為是測試多卡并聯(Multi-GPU Parallelism)和分布式計算性能的標桿。
我們將GPT-OSS-120B模型下載至容器的llmmodels目錄下,并開啟vLLM OpenAI API服務,具體參數如下:
![]()
由于120b占用顯卡超過66GB,只能4卡并聯進行測試,推理精度bfloat16,單次批處理的最大Token總數為 8192,最大上下文長度(Token 數)為 3000,GPU 顯存利用率上限為 90%(預留10%給系統),使用MXFP4(混合精度 FP4)進行量化壓縮。
![]()
vLLM OpenAI API 服務已經成功啟動,下面單開一個窗口進行測試。
![]()
vLLM版本是最新的0.5.0,無法使用過去的benchmark_serving.py腳本進行測試,因此我們直接使用vllm bench serve命令,分別測試并發數1,10,20,30,40,50,60,70,80,90,100時的AI性能。
![]()
這是并發數為1的測試成績日志,請求成功率 100%,在處理 120B 這種超大規模模型時,100 個請求全部成功且無一報錯,說明4卡 Arc Pro B60 + MXFP4運行測試時非常穩定。
TTFT (首字延遲)僅為91.37ms,說明Arc Pro B60預填充(Prefill)階段的爆發力極強。
平均 ITL (逐詞延遲) 為 32.01 ms,輸出吞吐量則為184tok/s。
下面是并發數從1,10,20,30,40,50,60,70,80,90,100的性能變化。
![]()
當并發數從1~10時: 系統的吞吐量呈現指數級增長,從 184 飆升至 613 tok/s。
不過并發數達到60之后,吞吐量為701 tok/s,基本上已經達到了這套系統的極限,即便請求數增加到100之后,總吞吐量也就增加了1%左右。
![]()
整個測試期間,ITL (逐詞延遲)穩定得出奇,在達到并發 30 后,ITL 甚至隨著并發增加而輕微下降。也就是說在高負載下,計算核心被填充得更滿,單步推理的效率反而由于批處理效應而略微提升。
![]()
TTFT (首字延遲)震動比較劇烈,并發數為1時僅有91ms,并發數20時為241ns,并發數100時已經到了1344ms。
對于大多數用戶而言,10 tok/s即可擁有絲滑的訪問體驗,根據長城世恒X圖形工作站700tok/s的極限性能計算,它可以承受70個用戶同時請求回答。
再按1:15的活躍比計算,這臺工作站可以支持1000人同時在線聊天。
四、Llama-3.1-8B測試:比同價位RTX Pro 2000 16GB要快50%
1、Llama-3.1-8B
Llama-3.1-8B的顯存需求只有7GB左右,因此不僅可以對Arc Pro B60 24GB進行單卡、雙卡、4卡測試,我們還能測試桌面版RTX 5060 Ti 16GB的推理性能并與之進行對比!
![]()
vLLM 0.5.0 正式建立了對 Intel Arc GPU的原生支持,不再是以往那種簡單的代碼遷移,而是針對 Intel 的計算單元架構做了適配:
在并發數下,RTX 5060 Ti 16GB的性能略勝于單卡Arc Pro B60 24GB,但隨著并發數的提升,Arc Pro B60 24GB隨著并發數的提升,Arc Pro B60 24GB憑借大顯存的優勢開始逆襲,并發數90時,可以領先RTX 5060 Ti 16GB約10%左右。
4張Arc Pro B60 24GB在低并發數時性能優勢并不明顯,但隨著并發數的提升,特別是達到100并發后,4張Arc Pro B60 24GB的性能幾乎是單卡的4倍。
下面將精度降為FP8,重復上面的測試,但將N卡換成RTX Pro 2000。
![]()
與同價位的NVIDIA RTX Pro 2000 16GB相比,Arc Pro B60 24GB幾乎展現出了碾壓性優勢。
同樣是4卡并行進行運算,4xArc Pro B60 24GB比起4xRTX Pro 2000 16GB要強了50%左右,在并發數為100的情況下,憑借96GB大顯存,Intel的領先幅度甚至達到了65%。
五、小結:用入門級N卡的價錢 買了接近旗艦級N卡的顯存容量和推理性能
憑借CUDA生態的支持,NVIDIA的GPU在特定的生產力與AI方面的確有無可比擬的性能優勢。
但是在大模型時代,顯存即正義。
96GB顯存意味著你可以本地運行參數量更大的模型,比如千億級參數GPT-OSS-120B、LLaMA-3-130B對于4卡Arc Pro B60 24GB完全不是問題。
同樣價位的NVIDIA RTX Pro 2000 16GB,4卡合計64GB顯存,這是一個相對尷尬的顯存容量,只能運行70B模型。在面對千億級模型時必須極致量化壓縮顯存,且僅支持短上下文低負載推理,完全無法支持訓練和微調。
![]()
而在性能方面,Arc Pro B60 24GB幾乎展現出了碾壓性優勢。
同樣是4卡并行運算(Llama-3.1-8B-Instruct FP8),4xArc Pro B60 24GB比起4xRTX Pro 2000 16GB要強了50%左右,在并發數為100的情況下,憑借96GB大顯存,高負載(Batch 100)下,Intel 方案達到了 2110 Tokens/s,而同樣價位的NVIDIA方案僅為 1279 Tokens/s。
Intel的領先幅度超過了65%。
在運行1200億參數的GPT-OSS-120B時,Arc Pro B60 24GB在預填充(Prefill)階段展現出了極強的爆發力,并發數為1的時候,Mean TFT (首字延遲)僅為91.37ms。
當并發數達到60之后,4張Arc Pro B60 24GB的吞吐量超過了701 tok/s,能滿足千人同時在線聊天。
對于想要組建高性能本地 LLM 推理站的企業而言,5000元的Arc Pro B60 24GB顯然是更具性價比的選擇。
要知道NVIDIA類型算力的24GB專業卡,其售價幾乎是Arc Pro B60 24GB的4倍左右。
很簡單的結論:Arc Pro B60 24GB能讓用戶以入門級N卡的價錢,買了接近旗艦級N卡的顯存容量和推理性能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.