英偉達在2026年1月6號發布了DLSS4.5技術棧,其中包含超分和補幀兩個部分。
超分部分:
DLSS4.5超分同樣是基于transformer模型,據英偉達官網描述:‘’這個第二代模型是迄今為止最精密的模型,其計算能力達到第 一代 Transformer 模型的五倍,并已在一個大幅擴展的高保真數據集上完成訓練。該模型對每個場景都有更深入的理解,并能更智能地利用游戲引擎的像素采樣和動態數據,從而呈現具有更佳光照、更精細邊緣和動態清晰度的圖像。‘’
![]()
計算能力達到第 一代 Transformer 模型的五倍,算力需求多少倍呢,翻看老黃最新的技術文檔可以看到確實,20-30系在fp16精度下運行性能檔使用L預設運行時間在3倍左右,使用M預設在兩倍左右。
K,J預設為一代Transformer,A-F模型預設為原先的CNN模型。
![]()
![]()
這里做一點簡單的計算來演示一下這表怎么用,以及更換超分模型預設對幀率的影響。
以3060為例,使用310.2.1的dll庫使用transformer模式預設J、K時使用性能模式,目標分辨率2k,原始分辨率為1280x720,gpu瓶頸下幀率為60fps的情況下,幀間隔為16.666ms,此時超分花費2.39ms,原始畫面渲染花費14.27ms。替換為310.5也就是最新的dlss4.5的庫,使用m預設超分花費為5.05ms,幀間隔變為14.2766+5.05=19.3266ms,幀率降低到51.74fps。
如果K預設下超分的目標幀率為120fps,則經過計算替換為M預設后為90.96fps。
而40系和50系具有fp8精度的算力,相比fp16速度翻倍,當然會有一定的精度損失,不過在transformer模型的推理中,fp8的精度還是相當可用的。
![]()
這里也簡單給出3060和5080在對于2k目標分辨率下,K預設的目標幀率Fk替換為M預設后能達到的幀率Fm,可以看到5080在使用四分之一精度跑M預設和使用半精度跑K預設的速度就基本一直了,
![]()
式子也很簡單Fm=1000/(1000/Fk-k預設超分開銷時間+m預設超分開銷時間)
這種影響對于幀間隔來說是線性的,不過對于幀率來說就是非線性的了,在高目標幀率區間的影響會更大,不過本質上是因為幀率對于時間是非線性的。
這里也給出FSR2超分和9000系運行FSR4超分的典型時間
![]()
![]()
所以對于本次dlss4.5的更新來說,手持40系或者50系顯卡的玩家無疑是最大的獲益者,對這些用戶而言,使用dlss4.5的游戲在2k或者4k高分辨率的時候使用原先推薦的性能檔位超分并不會使幀率降低,或者說每幀多花0.3-0.4ms對比原先會非常有限的降低,而獲得更高的圖像穩定性和質量。而對于30系顯卡的用戶,使用性能檔時就會有一個相對較大的額外開銷,不過也不是沒的選,畢竟K預設也是可以強制使用的。
![]()
同時L預設的加入對于中低端的顯卡運行高分辨率其實也是一個利好,這句話是對所有用戶都是適配的。
這個時候可能就要有小伙伴出現疑問了,為什么開銷更加高的L預設會是一個利好呢。
對于DLSS超分來說,原始畫面邊長縮放比DLAA 1.0,質量檔0.66,平衡檔0.58,性能檔0.50,超級性能0.33。經過一個簡單的計算你就可以發現,性能檔的原始渲染像素量是質量檔的百分之57左右。而超級性能檔渲染的原始像素量僅為性能檔的43.56%。看似只差一個檔位,實際上這一個檔位的差距比上面兩個檔還大。
這也就意味著,對于同一個游戲來說,目標2k分辨率使用性能檔和4k的超級性能檔其原生渲染的分辨率是相同的1280x720,如果這個超級性能檔位畫質真如宣傳一般的話,大量游戲的4k分辨率的性能開銷需求就會有一個大幅的下降。
使用dlss swapper把2077的超分文件替換為最新的310.5,開啟dlss指示器,然后打開frameview記錄幀率和延遲,2k目標分辨率低光追預設,ryzen7 255+5060laptop,ddr5 5600 8x2
默認推薦預設模型下,使用超級性能L和性能檔會使用M預設,而DLAA,質量,平衡檔位會使用K預設。
![]()
DLAA,preset K,28fps,pcl64ms
![]()
質量檔,preset K,55fps,pcl 51.8ms
![]()
平衡擋,preset K,71fps,pcl 37.23ms
![]()
性能檔,perset M,79fps,pcl 32.36ms
![]()
超級性能檔,此時出現cpu瓶頸,perset L,96fps,pcl 29.10ms。
在原先,這個超級性能檔位無論是用F預設還是K預設或者J預設都是滿屏幕亂閃或者糊的沒法用的狀態。但是這個L預設實測確實是可用的,這張非常極限的由480p放大到1440p的畫面完全不像是一張480p該有的細節和穩定性表現。那這時候哪怕對于老卡來說超分的壓力變為原來的三倍,但是原始渲染像素量的壓力僅原先的百分之50不到,最后幀率依然是增加的。特別對于現在2k屏普及4k屏也不少的當下。
這次的改進絕 對是相當的大的,真是思路要打開,對于你來說,只要獲得一個優異的畫面表現,你管他這畫面是怎么來的,超分的開銷的增長用另一種思路來說,上采樣為什么不能是渲染管線的一部分,從CNN到一代transformer模型到這次增加參數量的二代transformer模型,從原本的只是代替TAA,用相同的開銷,將大部分分配給原始幀小部分分配給上采樣,到現在對于中低端卡來說73開甚至64開。
如果用更低分辨率的原始幀配合-lod偏移用更大的超分模型就能或得高保真的最終圖像,那何樂而不為呢。
本次模型的另外一項主要改進為訓練和推理均使用線性色彩和亮度空間,使得高光和暗部場景的精度更高,改善高對比度場景畫面表現。
![]()
補幀部分:
DLSS4.5的幀生成就是小升級了,
![]()
依然是出于管線末端,需要輸入后幀信息
![]()
技術路徑依然是插中間幀然后重排序,對于多幀生成來說,會先運行一個比較大的模型插出一幀,再運行小模型插出后續多幀。
![]()
![]()
其典型時間為
![]()
對于新增的6倍幀生成來說,我曾經搓出的通式依然適用
![]()
![]()
老黃官網的春秋筆法屬于是玩明白了,用4xfg對比6xfg的延遲,我46ms對比53ms,我這里簡單計算了一下對應原生幀和2xfg下的同配置各項參數,通過一定嘗試很簡單就可以判斷出是5090在跑,其補幀開銷才能對應上延遲差異,如果關閉補幀幀率為54,延遲26ms,開啟2xfg狀態下,幀率為99,延遲38ms,實際上48ms和53ms都屬于是相對不可玩狀態。
![]()
用延遲換幀率在一兩百幀的時候很明顯是不劃算的
而動態多幀生成倒是有點意思,其實際生效形式還有待測試,不過按照最簡單的想法,只要rendertime高于frametime的設定值,就運行補幀和重排,不過這種瞬時的frametime跳變本身也是一種卡頓,性能狗有個指標叫jank,定義是只要一幀的frametime高于其前后幀的兩倍,就會被記為卡頓,而使用局部的fg就是在人工創造jank,希望不是這種情況。
這個功能在春節前后就會正式上線,后續也會通過實測拉個數據表來詳細看一下。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.