显卡,画面

【硬件编年史】DLSS技术到底有什么用,大力真的能出奇迹?


【硬件编年史】DLSS技术到底有什么用,大力真的能出奇迹?

写在开头

2018年8月,伴随着NVIDIA RTX 20系显卡的发布,游戏图形界又一扇门被打开,实时光线追踪技术正式走进玩家的视线,成为游戏行业新的画质标准。在过去的几年中,已经有众多耳熟能详的游戏大作加入了实时光线追踪效果,为玩家带来更加接近真实世界光影的全新视觉体验。

不过与之一起诞生的还有DLSS深度学习超级采样,它能够很好的弥补实时光追下的性能损耗。这项技术随着GeForce RTX 40系显卡的发布迎来了3.0版本。老黄甚至在发布会上声称DLSS 3.0可以实现性能的翻倍,今天我们刚好收到了索泰 GeForce RTX 4090 PGF OC显卡,那就用这张旗舰中的旗舰来给大家展示一下最新的DLSS 3.0到底有没有老黄说得那么神!

引入Tensor Core

开始前先让我们对DLSS的由来有个大致的了解,DLSS技术最早是在RTX 20系显卡上提出的。之所有能够在RTX 20系显卡上引入DLSS,是因为RTX 20系显卡的架构上与GTX 10系显卡有了本质的不同,NVIDIA引入了Tensor Core,给20系显卡带来了进步非常大的深度学习性能。

Tensor Core的官方叫法是张量计算核心,作用就是增加显卡的AI深度学习计算能力。而我们本次介绍的主角DLSS,本意是超分辨率技术,其是由显卡渲染低分辨率的画面后交由AI进行学习后,渲染出更高分辨率的画面。而这个AI其实就归功于我们说到的Tensor Core。

第一代Tensor Core

不过第一张实装Tensor Core的显卡并不是Turing架构的RTX 20系,而是我们耳熟能详的Titan V,作为唯一的Volta架构显卡,它才是第一个吃上Tensor Core的。在RTX 20系显卡还没发布前,许多深度学习的从业者就是购买这张显卡进行深度计算的。

规格上,Titan V显卡仅配备了640个第一代Tensor Core,不过它支持FP16和FP32下的混合精度矩阵乘法,可提供每秒超过100万亿次(TFLOPS)的深度学习性能,是Pascal架构的5倍以上。与Pascal相比,用于训练的峰值teraFLOPS(TFLOPS)性能提升了高达12倍,用于推理的峰值TFLOPS性能提升了高达6倍,训练和推理性能提升了3倍。

第二代Tensor Core

搭载第一代Tensor Core的Titan V显卡其实不是我们常规意义上的游戏卡,真正让这项技术下放,还要是Turing架构的RTX 20系显卡,上到旗舰的RTX 2080 Ti,下到甜品级的RTX 2060统统都引入了Tensor Core。

正因为Tensor Core的引入,让RTX 20系显卡有了一定的深度学习能力,老黄才得以在RTX 20系显卡上完成光线追踪和DLSS。第二代Tensor Core相比第一代又有了进步,提供了一系列用于深度学习训练和推理的精度(从FP32到FP16再到INT8和INT4),每秒可提供高达500万亿次的张量运算。

第三代Tensor Core

在RTX 30系显卡,也就是Ampere架构的显卡中,NVIDIA的Tensor Core升级为第三代。采用全新精度标准Tensor Float 32(TF32)与64位浮点(FP64),以加速并简化人工智能应用,可将人工智能速度提升至最高20倍。

第三代Tensor Core中,NVIDIA还引入了稀疏化加速,可自动识别并消除不太重要的DNN(深度神经网络)权重,同时依然能保持不错的精度。首先原始的密集矩阵会经过训练,删除掉稀疏矩阵,再经过训练稀疏矩阵,从而实现稀疏优化,进而提高Tensor Core的性能。

所以最终的结果就是第三代Tensor Core在处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

第四代Tensor Core

而RTX 40系显卡上的Tensor Core已经进化到了第四代,最主要的变化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的张量处理性能,可以说深度学习性能得到了巨大的飞跃,这也意味着通过它可以实现新的技术想法,后面的DLSS 3我们会再次提到Tensor Core的功劳。

而真正让DLSS 3.0起飞的还有两个核心技术,一个是着色器执行重排序(SER),另一个则是Optical Flow Accelerator光流加速器。

首先这个着色器执行重排序最大的作用其实还是提升光追性能,由于光线追踪的特性,它很难并行处理,因为光线会向各个方向反射,并与各种类型的表面相交,所以光线追踪的工作负载需要不同的线程处理,需要不同的着色器,并且需要不同的显存来存取中间的计算过程。

而RTX 40系显卡着重加强了这一方面的技术,着色器执行重排序的加入可以通过实时重新调度任务,即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源,以实现更佳的光线追踪性能,据称,SER可以为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。

而另一个核心技术光流加速器其实从Ampere架构就已经有了,不同的是,Ada Lovelace架构中的光流加速器升级到了第二代,大大增加了光流加速器的运算性能,从之前Ampere架构的126 TFLOPS增加到现在的300 TFLOPS。

由于第二代光流加速器带来的巨大的性能提升,因此也有了更广泛的实用性了,最大的优势就是DLSS 3.0技术能够更准确预测场景中的运动,玩家在游戏中既能有不错的图像质量又能保持更高的帧率。可以说第四代Tensor Core加上Ada Lovelace光流加速器以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能,是DLSS 3.0得以成功的基础。

DLSS技术发展

讲完了实现DLSS技术的硬件基础,就该看看DLSS在三代显卡中究竟有了什么样的变化。

DLSS 1.0

在DLSS 1.0时代,NVIDIA对Tensor Core的利用略显粗暴。如果你想得到一个4K的游戏画面,DLSS 1.0就是让AI事先看很多1080P与8K的游戏画面,AI通过对比1080P的画面与4K画面的区别,然后由AI自己总结规律并生成算法。等你打开游戏时,AI只需要将这个算法融入显卡驱动或游戏引擎中,显卡就可以在后期运用Tensor Core和算法只做1080P的渲染,输出时靠AI算法的脑补,从而让你获得一个4K的画面。

不过这个做法有一个很大的问题,由于AI是强行将没有规律的东西强行转化成可行性较高的规律,它并不像事物客观本身存在的规律。AI只是借助画面本身周边的图案和颜色去猜测不存在的颜色与图案,因此在脑补过程中需要创造不存在的内容来填充画面,而仅仅靠AI脑补的做法,势必会出现一些瑕疵。

最终得到的就是画面比较模糊,尤其是连贯的动态画面中,会出现大量的鬼影与噪点,观感甚至不如不开DLSS的画面。因此老黄在推出DLSS 1.0后,不少玩家试用完都大呼受骗,觉得DLSS 1.0在截图时强无敌,一旦在游戏中动态显示就原形毕露了。

DLSS 2.0

为了解决这一问题,NVIDIA在后来推出了“船新”的版本——DLSS 2.0,这一次的DLSS 2.0可不是DLSS 1.0的小修小补,而是大刀阔斧的改变。老黄将DLSS 1.0的框架全部推倒重来,DLSS 2.0其实是由两部分组成,一个是多帧合成,另一个才是超分辨率。

其工作原理其实是显卡会预先渲染出4张1080P的画面,然后通过AI结合渲染过程中的运动矢量信息以及空间深度信息等,预测出各个像素点的颜色变化趋势。再通过AI高级算法将4张1080P画面的最优细节合并,最后输出一张4K分辨率的游戏画面。

然后以此类推,由1-4帧合成第一张4K画面,2-5帧再合成第二张4K画面,3-6帧合成第三张4K画面。如此操作,相当于显卡一直在从事1080P的画面渲染,相比直接渲染4K画面,大大节约了性能开支,因此我们才能在开启DLSS 2.0后见到帧数的提升。

而我们提到DLSS 2.0中还有一个技术就是多帧合成,原理其实就是NVIDIA把一个画面分成ABCD若干区域,在第一帧渲染的时候只对A B区域采样,第二帧渲染的时候只对C D采样,之后再将这两帧的采集内容合并,就输出一个正常画面,这里只是比喻,实际的算法肯定比这个复杂得多。如果你还不理解,那我们换个说法你可能好理解一下,我们都用过手机的HDR拍照,所谓的HDR拍照就是通过对画面不同区域进行曝光,然后把多张不同曝光的照片合成在一起,就得到了HDR照片,这样亮的画面更亮,暗的部分也能暗下来,细节也更多。

不过这种算法也不是万能的,DLSS 2.0也有它的问题,在处理静态图片的时候则提升很大,甚至由于多次采样,DLSS 2.0开启后的图像质量比原生的图像还要高。但是,一旦画面动起来,由于分别采样,像素就很有可能出现错位,从而出现大量鬼影,传统的TAA抗锯齿算法就是为了解决这个问题,而在DLSS 2.0 中,NVIDIA对TAA算法做出了改进,使得AI可以实时演算,因此不再像DLSS 1.0纯靠猜,而是有依据的合成。

即使有了TAA算法加持,但画面运动的话依旧可能有一定的劣化,不过人眼对动态画面的敏感程度远没有静态画面那么高,当时DLSS 2.0能够在保证一定的画面质量的前提下,大幅节约显卡算力已经非常令人满意了。

DLSS 3.0

至于RTX 40系显卡才有的DLSS 3.0,其实可以看做是完整版的DLSS 2.0,它把之前的技术都进行了整合。包含了补帧、Reflex以及DLSS 2.0中的超分辨率。

超分辨率还是老样子,与之前的DLSS 2.0保持一致,让显卡渲染4张1080P画面,然后用AI结合运动矢量信息进行多帧合成输出4K。

而我们上面提到的补帧则是通过新增的光流单元,分析两帧之间的画面运动差异,在两帧画面中间额外插入一帧画面,实现帧数的倍增,相当于在1帧到2帧之间还有一个1.5帧。

当然你可能在一些手机与电视上听过一种MEMC的补帧技术,厂商在宣传时也说能够带来更丝滑的体验。不过DLSS 3.0上的这个补帧跟它们还是有些不太一样,毕竟手机或电视上的补帧是后处理的补帧,而我们见到的游戏画面是由显卡渲染完成的,因此DLSS 3.0在补帧时,RTX 40系显卡是全程参与,所以像游戏画面中物体的运动矢量信息、三维空间信息等都一清二楚,所以补出来的效果也会更好。

另外,我们去关注像素的话,会发现靠传统渲染方式计算的像素其实只有1/8,最终输出的游戏画面7/8的像素其实都是通过DLSS 3的一系列AI计算填补上的,这极大的提升了效率。

不过既然是补帧,那就需要前后两帧的画面做分析,那必然导致一个问题——延迟,因此DLSS 3.0上还有一个叫做Reflex的技术就是为了解决这个问题。开启它你就能够降低输入延迟,其原理是在游戏中,渲染列队的显卡始终处于运行状态,尽管补帧能够更大限度提高帧率,但现在每一帧都需要排队等候渲染,并且还要拦截帧下来进行分析补帧再渲染,因此会增加延迟。

而Reflex技术可使CPU和显卡完美保持同步,从而动态减少渲染队列,同时还可减轻CPU压力,使游戏能够采样鼠标在最后一刻的输入以进一步降低系统延迟。

虽然会带来一定的帧生成时间不均匀导致的顿挫感,但是却实实在在能够降低输入延迟。并且这个功能在你开启DLSS 3.0的补帧后会强制打开,为的就是尽可能的保障游戏体验。

总得来说,DLSS 3.0是包括了基于AI的超分辨率提升技术、基于AI的帧生成技术以及NVIDIA Reflex低延迟技术这些软件层面以及第四代Tensor Core的1400 TFLOPS的张量处理性能、Ada Lovelace光流加速器300 TFLOPS的光流运算性能以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能组成的硬件层面综合实现的一项新技术,对于游戏体验的提升也不是单方面的,而是全方位的提升。

测试平台介绍

说了那么多,想必大家也想知道DLSS 3.0对比DLSS 2.0究竟有多大的提升吧?实际测试前还是先看看我们的测试平台,这次为了让大家看得尽兴,我们也是搬出了目前RTX 4090显卡中的天花板——索泰 GeForce RTX 4090 PGF OC显卡。

首先最抢眼的就是它的外观了,相比前代多了一丝优雅,圆润的外壳设计也多了许多流线型的柔美,为显卡注入了流动与韵律,打破使用尖锐线条勾勒显卡外观的传统。

黑白撞色设计在视觉效果上既时尚前卫,又带来了一种沉静之感与中和之意,静谧而平衡,同时也暗藏了一丝丝电竞硬核风格,设计相当超前。

旗舰级的显卡自然有旗舰级的配置,背板用上了全金属结构,同时还增加了合金加固骨骼结构部件,有利于巩固显卡、不易变型,而且还可以提升散热效能,加上背板末端设有开孔设计,有效加强风扇气流。

内部散热也是丝毫不虚,3风扇9热管的豪华配置,这是高端显卡才有的待遇。除此之外还有大面积的VC均热板和密密麻麻的散热鳍片,这个规格,核心想发热都难。不得不说,只有旗舰级的散热规格才对得起旗舰PGF的定位。

光有散热还不够,供电也得满上!这张索泰RTX 4090 PGF OC显卡采用了SEP 2.0供电系统。供电总相数来到了夸张的28相,其中24相为核心供电,4相为显存供电,并且供电集成度相当高,每相均采用了固态电容做输入输出,还有全封闭电感坐镇。

外部的电源接口则是全新的12VHPWR供电接口,一根12VHPWR的电源线就可达到供电需求。600W的供电能力完全能够喂饱这块530W TDP的性能巨兽。

视频输出接口同样是顶尖的存在,毕竟你都买索泰RTX 4090 PGF OC显卡了,怎么说也得配一个4K的显示屏吧,真4K才能体验真电竞。索泰这张卡上的3个DP1.4a和1个HDMI2.1就能很好的满足视频输出,支持4屏显示或最高8K@60Hz的规格完全“超速”了。

说了那么多,上面这些豪华的配置都是为了极致的性能释放,而性能的来源就是这颗AD102-301-A1核心,别看它只是小小的一颗芯片,其实它得益于TSMC 4N工艺,在里面塞下了763亿个晶体管,这个数量足足是RTX 3090 Ti的2.7倍!当然它还有384bit位宽、144个SM、96MB的L2缓存……这里的每一项都是在告诉你,拥有这颗核心,你就拥有了地表最强游戏显卡。

话不多说,这就上机实测给大家看看,一上机就见证到了索泰RTX 4090 PGF OC的绝美颜值。顶部的索泰ZOTAC信仰Logo灯率先亮起,同步闪烁的还有正面的灯带,围绕着三把散热风扇,犹如律动的音符一般。笔者也是被这张卡深深折服了,有颜又有性能,不愧卡皇之名。

用来测试它的硬件当然不能差,CPU用的是最新的Intel Core i9-13900KS,华硕的Z790 Hero主板搭配2根16GB的金士顿DDR5-6000高频内存,散热更是龙神2代360水冷,这套配置可以说是不存在瓶颈了,能充分发挥出索泰RTX 4090 PGF OC显卡的真正实力。

游戏性能测试

为了让大家能够更直观的知道DLSS 3.0的功效,我们选择了几款已经支持DLSS 3.0的游戏进行实测。

首先是大家喜闻乐见的“显卡杀手”《赛博朋克2077》,从测试结果就可以看出DLSS 3.0对帧率的提升是明显的。先看看平均帧,同样是4K画质下开启超级画质及超级光追,如果使用DLSS 2.0,质量档下可以稳定在4K@60Hz下流畅运行。而DLSS 3.0就不一样了,质量档下几乎可以稳定在4K@120Hz,并且帧数还远高于DLSS 2.0。如果你在DLSS 3.0下开平衡档,甚至已经可以用4K@144Hz显示器驰骋夜之城了。

其次再看看1%Low帧,从这里也可以看出,有了DLSS 3.0的索泰RTX 4090 PGF OC在游戏体验上更为稳定,普遍相比DLSS 2.0提升了30%以上,像是质量档的比较,DLSS 2.0下1%Low为56 FPS,而DLSS 3.0下已经77 FPS了,甚至达到了DLSS 2.0的平均帧。可以说DLSS 3.0就是一次全面的性能飞跃,要性能有性能,要稳定有稳定,新一代游戏神器了属于是。

这时就有玩家会有疑问了,那开启DLSS后,原本精美的游戏画面不会有画质损耗吗?这里我们也录制了原生4K以及DLSS 3.0四档画面在ICAT中进行画质对比。实测下来,不得不说老黄的DLSS 3.0真的有点东西,即使开启DLSS 3.0后,画面是用低分辨率超分渲染至4K的,但观感上与原生4K几乎没有任何差距,无论是水面反射还是地板纹理全都清晰、锐利。

而DLSS 3.0更强悍的地方在于,像文字或者物体边缘经过AI处理后,细节会比原生更为清晰,下图中的广告牌就是一个很好的例子,最左侧的原生4K在ICAT中放大后,广告牌上的文字略显模糊,但后面四张图像经过DLSS 3.0的渲染后,字体清晰度明显更胜一筹,所以玩家无需担心开启DLSS 3后画质会降低,大胆开起来!画质、流畅度我全都要!

这里也放一段完整的视频给大家感受一下DLSS 3.0下的画质表现。可以看到动态下的效果依旧不错,质量档几乎与4K原生无异,而性能档之后则可以看出明显的画质区别。

紧接着我们去《F1 22》中感受索泰RTX 4090 PGF OC驰骋疆场的紧张刺激。DLSS 2.0下,游戏帧数的提升已经相当不错了,开启后各个档位的帧数差距在30 FPS左右,质量档下DLSS 2.0也能在4K下做到138 FPS的超高成绩。不过有了DLSS 3.0就不一样了,帧数相比DLSS 2.0那可以用飞跃形容,忽然就多出了30多 FPS,质量档下169 FPS完全可以用电竞级3A来形容,肉眼可见的丝滑,如果你调至超级性能档,游戏帧数甚至可以来到恐怖的254 FPS,遥遥领先隔壁DLSS 2.0近60 FPS。

还是一样的结果,对比1%Low帧,开启DLSS 3.0后能够比DLSS 2.0再强25%左右,反映在游戏中就是时刻稳定在4K@120Hz上,几乎感受不到较大的帧率波动。你的游戏体验也会更加丝滑。所以笔者还是建议能够开启DLSS 3.0的游戏都开一下,真的会有不一样的感觉。甚至于延迟也没有特别大的区别,10ms内几乎感觉不到差距。

画质表现与2077中的无异,基本上质量档与平衡档的画质跟原生4K十分接近,甚至不少文字细节会更清晰。不过性能档与超级性能档的画质就会有一点点损失,但是在赛车这种高动态的游戏里,基本不会被肉眼察觉。

这里同样放一段完整的视频给大家感受一下DLSS 3.0下的画质表现。

最后再看看《瘟疫传说:安魂曲》,这也是一款支持DLSS 3.0的大作。首先看看DLSS 2.0,不得不说仅仅开启DLSS 2.0就对游戏帧数有了不小的提升,想要体验4K@144Hz只需要开启平衡档即可。不过毕竟我们用的是索泰RTX 4090 PGF OC,有黑科技怎能不用。既然如此,那我们就试一下老黄的DLSS 3.0,开启以后帧数又有了大幅提升,平均每个档位相比DLSS 2.0时能够带来25-30%左右的性能提升,表现相当不错,质量档下就完全能够满足4K@144Hz的体验。

得益于DLSS 3.0的巨大优势,1%Low同样表现出色,光是4K画质下,1%Low就全部突破100 FPS,甚至已经摸到了120 FPS高刷游戏的门槛,可见DLSS 3.0对性能的影响究竟有多大。老黄的DLSS 3.0确实可以说是黑科技了,现在只希望能够有越来越多的3A大作适配DLSS 3.0,让更多的玩家感受新时代的游戏体验。

看完性能,来看看画质。在瘟疫传说中有五个档位可选,分别是质量档、平衡档以及性能档,以及超级性能档,其中质量档和平衡均有不错的表现,近处的斗车、中远景的岩石以及远处的树木细节基本与原生画质没有区别。如果你是索泰RTX 4090 PGF OC的用户,我建议你直接开启质量档即可,既有画质又有性能,可谓双赢。

从视频的动态效果中你更能看出DLSS 3.0的优势所在,这里也给大家看看动态下的效果展示。

当然我们也测试了其他游戏,可以看到有了DLSS 3.0的索泰RTX 4090 PGF OC如虎添翼,在各项游戏中都大展身手,开关DLSS 2与DLSS 3,游戏帧数竟有30-40 FPS的差距,这还只是跟它自己比较。如果你用索泰RTX 4090 PGF OC与前代卡皇相比,那简直就是降维打击,超强的性能让它可以4K@144Hz畅玩3A大作。

总结

看完了测试你一定觉得DLSS 3.0相当厉害,毕竟老黄的技术可不是开玩笑的。不过它也不是没有缺点,第一个就是目前支持的游戏还比较少,要说DLSS 2.0支持的游戏都几百款了,DLSS 3.0的游戏还不够100,妥妥的战未来技术;这第二个缺点就是RTX 40系显卡独占了。

不过瑕不掩瑜,NVIDIA的DLSS 3.0让我们实现了在4K超清分辨率下面全开光线追踪最高特效的自由。特别是配上索泰 GeForce RTX 4090 PGF OC后,游戏画面不仅更精美,帧数也能维持在丝滑流畅的水平,同时也得益于40系显卡的新架构与新制程,功耗控制得当。称它是地表最强卡皇都不为过。

在实测了多款DLSS 3.0游戏后,大家也见识到了索泰 GeForce RTX 4090 PGF OC的性能表现,4K画质下丝滑流畅,甚至有8K的一战之力。当然它强大的性能远不止于游戏,如果你想要一张AI算力强大的显卡,拥有512个第四代Tensor Core的RTX 4090更是你的得力干将。

最后,不得不说老黄的眼光是真的独到,我们现在能够在索泰 GeForce RTX 4090 PGF OC上用上如此黑科技的DLSS 3.0,这一切都得益于NVIDIA早早对AI人工智能项目的布局与深耕,DLSS 3.0不仅仅是全新ADA架构带来的技术红利,更加是人工智能运算改变游戏世界的里程碑。