當我們還在焦慮GeForce RTX 5090 D 32GB可能也要用不上的時候,GeForce RTX 5090 D v2的悄然上市給旗艦級顯卡的選擇帶來了新的參考,不過代價是32GB顯存變成了24GB。被縮減了顯存GeForce RTX 5090 D v2還能不能被稱為旗艦級顯卡的問題不僅被擺上了臺面,與之對應的是顯卡的實際售價其實與頭部的RTX 5090 D和RTX 5090有更多的距離。
眼前的索泰GeForce RTX 5090 D v2 24GB SOLID OC就是好例子,它的官方定價相比超頻定位的RTX 5090 D差價大概在3000元左右,而如果是對比實際能購入的RTX 5090第三方平臺價格,差價甚至可以再買下一塊RTX 5070。
![]()
仔細一盤算,同樣旗艦定位的GeForce RTX 5090 D v2似乎有了性價比,那么事實是否真的如此?現在就讓我們奉上索泰GeForce RTX 5090 D v2 24GB SOLID OC評測。
![]()
代號:GB202-240-K1-A1
在短時間內對核心部分進行修改并順利流片是不太可能的,因此GeForce RTX 5090 D v2的GPU核心依然為GB202,代號GB202-240-K1-A1,與GeForce RTX 5090 D與GeForce RTX 5090系出同源,基于Blackwell 2.0架構,因為GB100系列和Blackwell 1.0是針對AI超算、數據中心和服務器設計,2.0版本則是針對消費端、游戲技術進行硬件層面的調整。
![]()
無論索泰GeForce RTX 5090 D v2 24GB SOLID OC的GB202-240-K1-A1 GPU,還是GeForce RTX 5090 Founders Edition的GB202-300-A1,本質上都并非GB202的完全體。一般出于產品定位、制造良率、后續升級等多方面考慮,方便可以在短時間內根據市場需求推出更具有競爭力的產品。
完整的GB202很有必要提一提。Blackwell架構延續了此前Ampere和Ada Lovelace架構理念,在一個GPU中包含若干個GPC(Graphics Processing Clusters,圖形處理集群),每個GPC下面再包含若干個TPC(Texture Processing Clusters,紋理處理集群),每個TPC下包含若干個SM(Streaming Multiprocessors,流式多處理器),同時再搭配顯存控制器等周邊電路。
![]()
另外每個SM內部的升級也代表著當前微架構升級的關鍵,也是完成大規模并行任務的關鍵,比如CUDA Core,第五代Tensor Core,第四代RT Core都包含其中。
完整的GB202 GPU包括12個GPC(Graphics Processing Clusters,圖形處理集群),96個TPC(Texture Processing Clusters,紋理處理集群),192個SM(Streaming Multiprocessors,流式多處理器),以及1個512-bit內存接口,配備有16個32-bit內存控制器,用于對顯存進行控制。
值得注意,GB202 GPU還包含了384個FP64核心,即每SM包含兩個,FP64 TFLOP速率是FP32 TFLOP速率的1/64,對于消費端而言使用頻率不高,但可以保證FP64代碼可以被正確的執行。對應的,Tensor Core也包含了少量的FP64 Tensor來確保程序的正確執行。
GPC是所有Blackwell GB20x GPU最主要運算單位,每個關鍵圖形處理單元都會擺放在GPC中,每個GPC包括一個專用的光柵引擎(Raster Engine),2組ROP集群(Raster Operations,光柵操作),每個光柵操作分區包括8個獨立的ROP單元,8個TPC,每個TPC包含1個PolyMorph引擎和2個SM。
![]()
其中PolyMorph引擎主要用于處理圖形和計算任務中的幾何變換和曲面細分,在處理復雜幾何圖形的時候,可以獲得更高效的多任務能力。
SM是NVIDIA GPU架構中的核心部件,也是GPU可以完成大規模并行任務的關鍵,比如CUDA Core,Tensor Core,RT Core都包含其中。完整的GB202包括192個SM,每個SM包括128個CUDA Core,1個第四代RT Core,4個第五代Tensor Core,4個紋理單元(Texture Units),1個512KB寄存器文件,128KB L1共享緩存,這些緩存可以根據圖形和計算工作負載需求進行重新配置。
![]()
Blackwell架構下,INT32整數運算相比Ada Lovelace是翻倍的。原因是INT32和FP32核心進行了完全統一,這也體現了Blackwell SM針對神經網絡著色器設計和優化。當然,這也意味著在同一個時鐘周期內,只能進行FP32或者INT32其中一個操作。
![]()
完整的GB202 GPU還包含了128MB L2緩存,GeForce RTX 5090 D則包含96MB L2緩存,所有的應用在大容量高速緩存中都能受益,特別是光線追蹤和路徑追蹤這樣的復雜操作。
因此,完整的GB202 GPU包括:
24576 個CUDA Core
192個第四代 RT Core
768個第五代Tensor Core
768個紋理單元(Texture Units)
索泰GeForce RTX 5090 D v2 24GB SOLID OC的GB202-240-K1-A1上,通過對部分硬件的調整,比較關鍵的變化如下:
21760 個CUDA Core
170個第四代 RT Core
680個第五代Tensor Core
680個紋理單元(Texture Units)
在這個基礎上,GDDR7顯存顆粒的減少,讓顯存容量、帶寬都與之對應的減少:
GeForce RTX 5090 / RTX 5090 D:32 GB GDDR7
GeForce RTX 5090 D v2:24 GB GDDR7(砍掉 8 GB)
GeForce RTX 5090 / RTX 5090 D:512-bit,1792 GB/s
GeForce RTX 5090 D v2:384-bit,1344 GB/s(帶寬減少25%)
因此得出如下對比參數表格作為參考:
![]()
通過對比可以看到,GeForce RTX 5090 D v2基礎光柵性能仍然非常能打,比如紋理單元(Texture Units)由GeForce RTX 4090的512個增加到了680個。紋理單元負責處理紋理映射操作,包括從紋理中獲取紋理元素(Texels),應用紋理過濾以及紋理坐標處理等等。其中紋理元素(Texels)代表紋理信息、顏色、圖案,這些信息被應用于3D表面,定義了物體表面紋理外觀。
SOLID OC裝甲
索泰GeForce RTX 50 SOLID系列放在一眾旗艦級非公版顯卡中相當能打,長時間霸占旗艦級顯卡散熱的第一梯隊。事實上GeForce RTX 5090 D到GeForce RTX 5090 D v2在散熱、供電布局上差別不大,GeForce RTX 5090 D上那一套優秀的散熱模組完全無縫轉移到了索泰GeForce RTX 5090 D v2 24GB SOLID OC上。
![]()
因此索泰GeForce RTX 5090 D v2 24GB SOLID OC延續了SOLID系列的極簡工業風格,通過銀灰配色搭配縱橫柵讓整張顯卡顯得大氣十足,同時通過顯卡邊緣的暗金點綴讓顯卡氣場拉滿。
![]()
SOLID系列沒有做過多的RGB燈效設計,所有RGB效果都放在尾部的Zotac Gaming和Logo的1600萬色RGB內,整張顯卡再無其他RGB點綴,對于追求低調的游戲玩家而言非常理想。
![]()
與此同時,GeForce RTX 5090 D v2 24GB SOLID OC提供了獨立的5V ARGB同步接口,方便與整機RGB實現光效同步。
![]()
在散熱模組中,索泰GeForce RTX 5090 D v2 24GB SOLID OC使用了一套面積更大VC均熱板,對比上一代增加了34%的覆蓋面積,一次性覆蓋了GPU和GDDR7顯存的所有位置,并且顯存位置還獨立提供了導熱墊,確保散熱效率。
不僅如此,散熱模組使用了9根6 mm熱管全部使用了鍍鎳處理,可以做到防氧化也防彎曲,長期高濕環境不易性能衰減的特點。
![]()
索泰GeForce RTX 5090 D v2 24GB SOLID OC高達2.35kg的重量大部分來自于30mm,密度達到22FPI的散熱鰭片組。
![]()
同樣,顯卡尾部和背板也使用了大面積鏤空,確保散熱效果。
![]()
散熱模組上使用了3個95mm環刃風扇,風扇葉片曲率進行了重新計算,在同轉速下風量增加11%,風壓增加8%,這使得顯卡同樣散熱狀態下噪音還可降低2到3個dBA。同時每一個風扇都可以針對實際情況進行獨立控制,并且顯卡在負載較低的情況下也會讓風扇自動停轉。
![]()
在實際游戲運行的中,索泰GeForce RTX 5090 D v2 24GB SOLID OC全程都保持著安靜運行,即使是在壓力測試狀態下,要仔細聽才能分辨出顯卡的噪音,因此索泰GeForce RTX 5090 D v2 24GB SOLID OC的靜音表現在第一階梯AIC顯卡中也是很優秀的存在。
![]()
在壓力測試下,會發現GPU溫度在78℃左右,紅外線散熱鰭片溫度在60℃到70℃之間,背板溫度則相對更高一點。
![]()
![]()
作為旗艦顯卡自然少不了超頻。索泰GeForce RTX 5090 D v2 24GB SOLID OC提供了獨立的雙BIOS切換按鈕,被安排在了12VHPWR電源接口旁邊,可以在靜音模式和強效模式中切換,其中靜音模式可會把風扇上線鎖定在70%左右,強效模式則是完全放開風扇限制。
當然這一套性能釋放也不一定要通過切換BIOS來實現,在索泰FireStorm軟件中,也可以對顯卡進行詳細的設定。
![]()
![]()
除此之外,FireStorm還可以監控顯卡的實際運行情況,燈效控制,設置界面和顯卡一樣是黑金配色。
![]()
![]()
12VHPWR 的16pin(12+4)供電口和ARGB燈效同步接口之外,顯卡的顯示輸出口與主流保持一致,包括包括3個DisplayPort 2.1b接口,支持DSC技術,最高可以實現480Hz條件下實現4K 12-bit HDR顯示效果。如果使用并聯兩個DisplayPort 2.1b搭配的形式,則可以達到100Hz條件下8K HDR效果。另1個HDMI 2.1a接口,支持DSC技術,最高支持165Hz條件下8K 12-bit HDR。
![]()
實踐出真知
在實戰環節中,我們使用AMD Ryzen 7 9800XD3搭配X870E主板作為參考。基準測試包括DirectX 11和DirectX 12性能的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal。
由于索泰GeForce RTX 5090 D v2 24GB SOLID OC與RTX 5090 D的CUDA Core數量是一直的,因此實際表現中,索泰GeForce RTX 5090 D v2 24GB SOLID OC與RTX 5090 D相差只有1%左右的差距,甚至部分場景下可以反超RTX 5090 D,說明這點差距可以忽略不計。與此同時,索泰GeForce RTX 5090 D v2 24GB SOLID OC相對GeForce RTX 4090 D提升30%到50%左右。
![]()
然后是支持DLSS 2和DLSS 3的游戲。這里我們將游戲分辨率均設置成4K最高畫質,根據游戲對光線追蹤支持的情況開啟光線追蹤或者路徑追蹤。
從整體來看,DLSS 2的游戲中,在4K最高畫質且開啟光線追蹤的情況下,索泰GeForce RTX 5090 D v2 24GB SOLID OC表現與GeForce RTX 5090 D差別完全可以忽略,相對GeForce RTX 4090 D提升在10%到30%之間。
![]()
而在DLSS 3游戲中,同樣是開啟4K最高畫質,并且開啟光線追蹤的前提下,索泰GeForce RTX 5090 D v2 24GB SOLID OC相對GeForce RTX 5090 D差距只有個位數幀數,差距變化不多,同時索泰GeForce RTX 5090 D v2 24GB SOLID OC相對GeForce RTX 4090 D提升20%到30%。
![]()
最猛還是DLSS 4
在GeForce RTX 50系列中,Tensor Core和RT Core也分別升級到了第五代和第四代。其中第五代Tensor Core的重點是引入了對FP4支持。相對大多數模型默認使用的FP16精度相比,FP4所需的內存是FP16的不到一半,并且GeForce RTX 50系列可以提供相比上一代2倍以上的性能,FP4可以通過NVIDIA TensorRT模型優化器的量化方式,確保質量不會有太多損失。這一代Tensor Core還保留了數據中心版本Blackwell GPU的第二代FP8 Transformer Engine。
![]()
第四代RT Core則在第三代RT Core基礎上再次進行了調整,重點是獲得更高效的提供光線追蹤效果,以及更好的支持神經網絡渲染技術。除了加速Alpha測試判斷物體表面是否可見或者透明的Opacity MicroMaps引之外,還包括一個三角形簇相交引擎(Triangle Cluster Intersection Engine),為全新的Mega Geometry技術加速三角形簇級結構的光線追蹤,同時也兼顧常規的光線與三角形相交測試。Mega Geometry技術旨在光線追蹤應用中大幅提升幾何細節。
![]()
與Tensor Core同步升級的還有DLSS 4。按照NVIDIA的說法,DLSS 4是自從2020年DLSS 2發布以后最大的一次AI模型升級,包括光線重建技術(DLSS Ray Reconstruction),DLSS超分辨率(DLSS Super Resolution),以及DLAA(Deep Learning Anti-Aliasing)深度學習抗鋸齒技術全部引入到實時計算的Transformers模型中,在游戲中,Transformers模型和卷積神經網絡(Convolutional Neural Networks,CNN)會協同工作,同步提升游戲效率。
DLSS 4最大的變化之一就是帶來了多幀生成技術(Multi Frame Generation),這是GeForce RTX 50系列GPU的專屬功能,意味著未來的一段時間中,只有采用GeForce RTX 50系列的臺式機和筆記本才能獲得對應的功能。
在DLSS 3上,幀生成占據1/8的內容,到了DLSS 4,則硬件渲染實際上只占據1/16,也就是在DLSS 4游戲中,每16幀游戲畫面中,實際上有15幀是由AI加速完成的。這意味著即使硬件性能變化不大的前提下,實際游戲幀率仍然可以有質的提升。再加上DLSS本身對場景中的陰影、反射和遮擋有了很好的理解,實際生成效果也遠比純靠硬件生成的效果好很多。
![]()
在8月份科隆游戲展上,NVIDIA宣布支持DLSS 4的游戲數量已經超過175款,平均每周都會有DLSS 4新作增加。不僅如此,近期我們看到的國產熱門游戲大作,也都支持DLSS 4。
這里我們先通過UL 3Dmark DLSS Feature Test對DLSS 4進行對比,索泰GeForce RTX 5090 D v2 24GB SOLID OC與RTX 5090 D同樣沒有差距,甚至在部分分數上索泰GeForce RTX 5090 D v2 24GB SOLID OC要略勝一籌。同樣,索泰GeForce RTX 5090 D v2 24GB SOLID OC相對RTX 4090 D提升了一倍有余。
![]()
![]()
這里我們慣例對DLSS 4的游戲進行測試,所有畫質均開到最高,包括最高規格光線追蹤、4K最高畫質、DLSS 4調整成畫質模式。
這里慣例對《星球大戰:亡命之徒》、《賽博朋克2077》、《心靈殺手2》、《霍格沃茨之遺》、《漫威爭鋒》、《龍騰世紀4:影障守護者》進行測試,游戲中的表現索泰GeForce RTX 5090 D v2 24GB SOLID OC與RTX 5090 D差距在1%到3%,但總體上沒有感知,因為DLSS 4的優勢,相對RTX 4090 D僅有的DLSS 3雙倍幀率提升還是非常明顯的。
![]()
![]()
![]()
![]()
![]()
![]()
AI與創作行不行?
最后是AI與內容創作。24GB GDDR7與32GB GDDR7是在這里被拉開的。不過索泰GeForce RTX 5090 D v2 24GB SOLID OC依然配置了3個編碼器和2個解碼器,相對于以往的GeForce GPU而言是質的飛躍,不僅可以支持4:2:2專業色彩格式,還可以將HEVC和AV1編碼的視頻質量提升5%。另外解碼速度也是之前的2倍,并原生支持H.264視頻格式。
![]()
4:2:2意味著可以處理更高色彩深度的原始素材,光是素材本身的原始文件就是原來的1.3倍,包含的色彩信息是原來的2倍。索泰GeForce RTX 5090 D v2 24GB SOLID OC仍然可以做到每個解碼器最多可以同時解碼8個4K 60FPS信息流。
![]()
這里我們對DaVinci Resolve 20編輯4:2:2視頻素材到處進行對比,仍然是一段由索尼A7拍攝的H.265 59.94fps 4:2:2 30秒左右的視頻素材,索泰GeForce RTX 5090 D v2 24GB SOLID OC與GeForce RTX 5090 D輸出差距是有些明顯的。
![]()
Blender Benchmark 4.5的Moster、Junkshop、Classroom三個場景測試中,索泰GeForce RTX 5090 D v2 24GB SOLID OC距離RTX 5090 D有11%到19%。同時索泰GeForce RTX 5090 D v2 24GB SOLID OC比RTX 4090 D快13%到17%。
![]()
V-Ray 6 Benchmark測試中索泰GeForce RTX 5090 D v2 24GB SOLID OC相差RTX 5090 D有40%,但比RTX 5080快13%。
![]()
SPECviewperf用來考驗OpenGL和Direct X API的3D圖形性能,測試場景包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks。索泰GeForce RTX 5090 D v2 24GB SOLID OC也受到了24GB顯存的限制。
![]()
不過如果是涉及DLSS 4,索泰GeForce RTX 5090 D v2 24GB SOLID OC 在專業軟件上還是能打,比如D5渲染器在DLSS 4上的表現不錯。
![]()
AIGC的文生圖環節使用了UL Procyon的AI Image Generation Benchmark作為參考,分別調用了Stable Diffusion 1.5 (FP16)、Stable Diffusion 1.5 (INT8)、Stable Diffusion XL (FP16)作為對比,索泰GeForce RTX 5090 D v2 24GB SOLID OC相對GeForce RTX 5090 D最高的差距會來到20%,最低2%。
![]()
![]()
UL Procyon AI文本生成基準測試,在測試中動用了多個大語言模型LLMs作為AI性能評估,包括Phi-3.5-mini-3.8B,Mistral-7B-v0.2 7B,Llama -3.1 8B,Llama-2 13B。可以看到。索泰GeForce RTX 5090 D v2 24GB SOLID OC生成速度距離GeForce RTX 5090 D大概有20%到30%的差距,但表現優于GeForce RTX 4090 D。
![]()
![]()
MLPerf是由MLCommons聯盟開發的機器學習基準測試,成員來自哈佛大學、斯坦福大學、NVIDIA、谷歌的工程師和研究人員,旨在不同平臺下探討GPU的AI性能釋放,LLMs大語言模型正好是其中之一。這里MLPerf-client使用Meta的Llama2-7B模型進行。可以看到索泰GeForce RTX 5090 D v2 24GB SOLID OC處理Llama2-7B模型的速度比RTX 5090 D相差12%。
![]()
![]()
順帶一提,GeForce RTX 50系列還對FP4提供了專門的硬件支持,不過現在普及還需要一些時間。如果更低精度的FP4付諸應用,索泰GeForce RTX 5090 D v2 24GB SOLID OC在文生圖、智能助手方面表現還會更為強勁一些。
寫在最后:頂級游戲好手
如果根據市場實際售價判斷性價比,GeForce RTX 5090 D v2其實是很能打的一款產品,原因在價格下降之后,實際的游戲性能表現和RTX 5090 D、RTX 5090沒有明顯區別,1%到3%的差距在游戲中是很難體會出來的。對于玩家而言,可以因此節省3000到5000元的花費,同時還能獲得優于RTX 5080和RTX 4090 D的性能,顯然是劃算的。
![]()
但不能否認24GB GDDR7顯存確實帶來了內容創作和AI上的限制,哪怕GeForce RTX 5090 D v2提供了相同數量的NVNEC和NVDEC編解碼器,但在實際的內容創作中,可以感受到明顯差距,AIGC和大模型表現亦是如此。但瑕不掩瑜,GeForce RTX 5090 D v2不需要走奇怪的購買途徑,貨大量足,甚至還有機會降價,GeForce RTX 5090 D v2是一款仍然有吸引力的產品。
在測試過程中,索泰GeForce RTX 5090 D v2 24GB SOLID OC的表現也讓人印象深刻,扎實的用料讓GeForce RTX 5090 D v2性能得以完全釋放,并且在575W功耗下維持靜音與散熱,讓體驗超出了預期。同時低調的RGB設計與黑金配色也更符合傾向于低調使用同學的偏好,讓每一場深夜游戲都能安靜、低調,專注于游戲或者創作。
![]()
當然索泰GeForce RTX 5090 D v2 24GB SOLID OC也并非沒有缺點,2.35kg的重量意味著機箱一定要用上顯卡支架才能保證長期使用不變形,同時3.5槽68mm的厚度,以及329mm的長度,都意味著顯卡得找個大機箱海景房才能裝下,當然這也是諸多旗艦級顯卡的通病。
![]()
無論如何,索泰GeForce RTX 5090 D v2 24GB SOLID OC給GeForce RTX 5090 D v2表現提供了樣板級別的參考,18999元的官方定價處在可以接受的范圍內。如果你對預算有要求,也可以等一個促銷季將其收入囊腫。特別對于游戲玩家而言,索泰GeForce RTX 5090 D v2 24GB SOLID OC已經能夠給予在消費級領域中,最旗艦級的游戲體驗了。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.