大型語言模型(LLM)應(yīng)用很依賴顯存容量,因此許多AI愛好者通過搭配多顯卡來實(shí)現(xiàn)更大容量顯存以提升AI應(yīng)用的執(zhí)行效率。然而,當(dāng)前主流的大語言模型普遍規(guī)模龐大,即便采用這種解決方案也存在瓶頸,因?yàn)楫?dāng)GPU需要調(diào)用CPU處理數(shù)據(jù)時(shí),系統(tǒng)性能便與CPU緩存及內(nèi)存性能深度綁定了,這就意味著AI應(yīng)用的運(yùn)行效能不僅取決于GPU,更與"GPU→CPU→I/O核心→內(nèi)存模組"這條完整的數(shù)據(jù)鏈路也密切相關(guān)。因此,優(yōu)化硬件模塊間的鏈路,也可以顯著提升AI效率。
![]()
AMD近期發(fā)布的兩款搭載3D V-Cache技術(shù)的銳龍?zhí)幚砥鳌J龍9 9950X3D與銳龍9 9900X3D,進(jìn)一步突破了性能極限。基于不同工作負(fù)載下的海量場景深度調(diào)校,我們發(fā)掘出一系列能夠?yàn)锳I用戶帶來實(shí)際增益的參數(shù)組合,基于此項(xiàng)優(yōu)化成果我們設(shè)計(jì)了一項(xiàng)新的BIOS功能——AI緩存加速引擎(AI Cache Boost)。搭配更新了最新版BIOS的華碩AMD 800系列主板,可在運(yùn)行大型語言模型時(shí)實(shí)現(xiàn)高達(dá)12.75%的性能躍升。
支持AMD 3D V-Cache技術(shù)的銳龍?zhí)幚砥?/strong>
要啟用AI緩存加速引擎(AI Cache Boost),需配備華碩AMD 800系列主板和AMD銳龍9000系列桌面處理器(Granite Ridge)。進(jìn)入U(xiǎn)EFI BIOS界面,在Advanced Mode頁面中打開Extreme Tweaker選項(xiàng)卡,將AI Cache Boost選項(xiàng)設(shè)置為Enabled即可激活性能增益。
![]()
啟用AI緩存加速引擎功能后,通過多重優(yōu)化實(shí)現(xiàn)加速,核心在于將Infinity Fabric時(shí)鐘(FCLK)超頻至2100 MHz。提升FCLK可直接提升CPU核心、高速緩存與內(nèi)存之間的數(shù)據(jù)傳輸帶寬,這對于處理大型語言模型(LLM)至關(guān)重要。
值得注意的是,經(jīng)實(shí)測該設(shè)置基本不會影響運(yùn)行游戲時(shí)的幀率,用戶可放心在執(zhí)行AI運(yùn)算與運(yùn)行游戲間無縫切換,無需反復(fù)調(diào)整參數(shù)。當(dāng)然,如果追求極致的游戲穩(wěn)定性,也可以在啟用AI緩存加速后,手動(dòng)將FCLK回調(diào)至相對保守的數(shù)值。
AI緩存加速的性能提升
我們的測試平臺基于ROG CROSSHAIR X870E HERO主板,搭配NVIDIA GeForce RTX 5090顯卡與32GB DDR5內(nèi)存。測試涵蓋了多款搭載AMD 3D V-Cache技術(shù)的銳龍?zhí)幚砥鳎ㄤJ龍9 9950X3D、9900X3D與9800X3D。首輪基準(zhǔn)測試采用基于ONNX DirectML框架的Geekbench AI工具,重點(diǎn)評估GPU算力表現(xiàn)。
![]()
實(shí)驗(yàn)數(shù)據(jù)顯示,性能增益區(qū)間穩(wěn)定在4%-8%之間。對于全天候運(yùn)行AI工作流的用戶而言,這么大的提升可帶來很高的實(shí)用價(jià)值,關(guān)鍵是啟用AI緩存加速功能無需任何復(fù)雜操作,簡單易行。
![]()
鑒于NVIDIA 50系顯卡普及率還不高,我們又換用RTX 4090顯卡進(jìn)行跨代驗(yàn)證。測試結(jié)果表明,在銳龍7 9800X3D平臺上,AI緩存加速引擎仍可帶來最高7.57%的性能增幅。
![]()
類似的提升幅度也延續(xù)到了UL Procyon AI計(jì)算機(jī)視覺基準(zhǔn)測試中,AMD銳龍7 9800X3D的表現(xiàn)尤為亮眼,實(shí)現(xiàn)了兩位數(shù)的性能突破,實(shí)測成績提升達(dá)12.75%,實(shí)測證明此技術(shù)可以普遍應(yīng)用于多種配置組合,均能達(dá)到非常好的提升效果。
引入Turbo游戲模式
結(jié)合AMD銳龍7 9800X3D在Geekbench AI與UL Procyon基準(zhǔn)測試中的出色表現(xiàn)不難看出:相較于銳龍9 9950X3D/9900X3D的核心數(shù)量優(yōu)勢,3D V-Cache技術(shù)發(fā)揮著更關(guān)鍵的作用。為進(jìn)一步驗(yàn)證這一點(diǎn),我們在啟用AI緩存加速引擎的基礎(chǔ)上,進(jìn)一步激活了Turbo游戲模式進(jìn)行交叉驗(yàn)證。
![]()
Turbo游戲模式是華碩AM5主板的另一項(xiàng)BIOS功能,可通過兩種方式優(yōu)化性能:
1.針對配備雙CCD架構(gòu)的高端銳龍?zhí)幚砥鳎琓urbo游戲模式可選擇性關(guān)閉第二組CCD。雖然雙CCD設(shè)計(jì)能為多線程任務(wù)提供澎湃算力,但并非所有應(yīng)用都能充分利用其資源,此時(shí)關(guān)閉冗余CCD可顯著提升執(zhí)行效率。
2.該模式同步關(guān)閉多線程技術(shù)(SMT)。盡管SMT通過讓單物理核心并行處理雙指令流來增強(qiáng)多線程性能,但對于無需高線程密度的應(yīng)用場景,關(guān)閉SMT反而能釋放更高的單線程效能。
需要注意的是,關(guān)閉CCD與SMT會顯著影響多線程性能,因此建議用戶根據(jù)自己工作負(fù)載場景靈活決定是否啟用此功能。
![]()
在同時(shí)啟用AI緩存加速與Turbo游戲模式后,AMD銳龍9 9950X3D可實(shí)現(xiàn)19.85%的綜合性能提升,刷新了基準(zhǔn)測試紀(jì)錄,展現(xiàn)出驚人的優(yōu)化潛力。
這也表明,當(dāng)AI工作流未完全占用處理器線程資源時(shí),同時(shí)啟用這兩項(xiàng)功能將帶來更顯著的性能提升。用戶可在BIOS界面中的Extreme Tweaker選項(xiàng)卡中快速啟用這兩項(xiàng)功能,零門檻釋放硬件潛能。
華碩主板與AI緩存加速:助力AI性能再升級
大型語言模型應(yīng)用建議優(yōu)先選用華碩AMD 800系列主板,可一鍵啟用的AI緩存加速功能堪稱用戶的得力小助手,僅需簡單啟用,便可收獲性能和執(zhí)行效率的大幅提升。
![]()
為充分釋放銳龍?zhí)幚砥鞯呐炫人懔ΓA碩提供從旗艦X870E/X870到主流B850/B840的全系A(chǔ)M5主板解決方案。無論您是追求極致性能的AI開發(fā)者,還是注重性價(jià)比的效率型用戶,都能找到與之完美匹配的硬件平臺,讓每一份算力都物盡其用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.