显卡,性能

【AI时刻】不止游戏,AI杀疯了!体验史上最强游戏显卡的AI性能


【AI时刻】不止游戏,AI杀疯了!体验史上最强游戏显卡的AI性能

写在开头

这半年以来,除了RTX 40系显卡的DLSS 3给大家带来惊艳的效果外,AIGC的火爆程度也远超玩家想象。换作以前,根本没人想到GPU的强大算力能够用于AI。虽说相比大规模的AI计算集群,游戏显卡的算力不值一提,但是我们用它实现一些简单的AI应用还是相当不错的,当然,AI也能帮助你提高工作效率等,这些都是极具实用意义的体现。

想要实现AI应用也不难,现在你只需要一台高配置电脑就可以享受到。不过既然是体验,那我们怎么能用普通的显卡呢,我们刚好收到了索泰 GeForce RTX 4090 PGF OC显卡,作为地表最强的游戏显卡,其AI能力想必也是各大玩家好奇的重点。那么这块显卡的实际表现究竟如何呢?我们一起来看下。

引入Tensor Core

想要体验AIGC,首先就要了解显卡的内部构造。最开始游戏显卡并不能用来做AI训练,在以前它更多是一张纯正的游戏显卡。不过后续NVIDIA给游戏显卡引入了Tensor Core,因此显卡有了进步非常大的深度学习性能。这也让AI成为游戏显卡的另一大用处。

Tensor Core的官方叫法是张量计算核心,作用就是增加显卡的AI深度学习计算能力。我们本次所讲的AI应用其实就离不开这个Tensor Core。可以说自打RTX 20系显卡里加入它以后,显卡又开启了一扇新的大门,让玩家不仅可以玩游戏,还可以用AI创造更多可能。

第一代Tensor Core

不过第一张实装Tensor Core的显卡并不是Turing架构的RTX 20系,而是我们耳熟能详的Titan V,作为唯一的Volta架构显卡,它才是第一个吃上Tensor Core的。在RTX 20系显卡还没发布前,许多深度学习的从业者就是购买这张显卡进行深度计算的。

规格上,Titan V显卡仅配备了640个第一代Tensor Core,不过它支持FP16和FP32下的混合精度矩阵乘法,可提供每秒超过100万亿次(TFLOPS)的深度学习性能,是Pascal架构的5倍以上。与Pascal相比,用于训练的峰值teraFLOPS(TFLOPS)性能提升了高达12倍,用于推理的峰值TFLOPS性能提升了高达6倍,训练和推理性能提升了3倍。

第二代Tensor Core

搭载第一代Tensor Core的Titan V显卡其实不是我们常规意义上的游戏卡,真正让这项技术下放,还要是Turing架构的RTX 20系显卡,上到旗舰的RTX 2080 Ti,下到甜品级的RTX 2060统统都引入了Tensor Core。

正因为Tensor Core的引入,让RTX 20系显卡有了一定的深度学习能力,老黄才得以在RTX 20系显卡上完成光线追踪和DLSS。第二代Tensor Core相比第一代又有了进步,提供了一系列用于深度学习训练和推理的精度(从FP32到FP16再到INT8和INT4),每秒可提供高达500万亿次的张量运算。

第三代Tensor Core

在RTX 30系显卡,也就是Ampere架构的显卡中,NVIDIA的Tensor Core升级为第三代。采用全新精度标准Tensor Float 32(TF32)与64位浮点(FP64),以加速并简化人工智能应用,可将人工智能速度提升至最高20倍。

第三代Tensor Core中,NVIDIA还引入了稀疏化加速,可自动识别并消除不太重要的DNN(深度神经网络)权重,同时依然能保持不错的精度。首先原始的密集矩阵会经过训练,删除掉稀疏矩阵,再经过训练稀疏矩阵,从而实现稀疏优化,进而提高Tensor Core的性能。

所以最终的结果就是第三代Tensor Core在处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

第四代Tensor Core

而RTX 40系显卡上的Tensor Core已经进化到了第四代,最主要的变化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的张量处理性能,可以说深度学习性能得到了巨大的飞跃,这也意味着通过它可以实现新的技术想法,后面的DLSS 3我们会再次提到Tensor Core的功劳。

我们细说这个FP8低精度浮点数特性,其实可能很少有人注意到这个硬件升级,不过它对于AI领域的改变真的挺大的,有了FP8硬件加速之后获益最大的是近年新兴的一种 AI 基础架构,Transformer。这几年有名的语言AI,比如BERT、GPT,都用到了这个结构,当然我们熟悉的AI绘图领域也有用到这个结构。 

Transformer模型的架构

这类AI模型的特点就是大、而且参数多,而FP8数据格式可以帮它们减小空间占用,塞更多参数进去,算起来也更快。上面我们也提到了,Ada架构的RTX 40系显卡中负责FP8加速的硬件结构叫 Hopper FP8 Transformer Engine,Transformer都写在名字里了,足以见得其重要性。

当然你可别以为,AI只是用在GPT、AI绘图等领域,其实我们之前文章里讲到的DLSS 3.0技术也是AI应用的一种,因为DLSS中像多帧合成、补帧以及超分辨率等技术都是依靠深度学习后完成的。感兴趣的玩家可以点击【硬件编年史】DLSS技术到底有什么用,大力真的能出奇迹?浏览,看看老黄是如何把DLSS技术推到今天的神坛之上。

测试平台介绍

大家看完Tensor Core的介绍也好奇它经过四代传承,究竟能够带来怎样的AI深度学习能力吧?那我们也不吝啬,祭出目前RTX 40系显卡中Tensor Core最多的显卡——索泰 GeForce RTX 4090 PGF OC,带大家看看这么一张顶尖的游戏显卡在AI中有如何精彩的表现。

首先最抢眼的就是它的外观了,相比前代多了一丝优雅,圆润的外壳设计也多了许多流线型的柔美,为显卡注入了流动与韵律,打破使用尖锐线条勾勒显卡外观的传统。

黑白撞色设计在视觉效果上既时尚前卫,又带来了一种沉静之感与中和之意,静谧而平衡,同时也暗藏了一丝丝电竞硬核风格,设计相当超前。

旗舰级的显卡自然有旗舰级的配置,背板用上了全金属结构,同时还增加了合金加固骨骼结构部件,有利于巩固显卡、不易变型,而且还可以提升散热效能,加上背板末端设有开孔设计,有效加强风扇气流。

内部散热也是丝毫不虚,3风扇9热管的豪华配置,这是高端显卡才有的待遇。除此之外还有大面积的VC均热板和密密麻麻的散热鳍片,这个规格,核心想发热都难。不得不说,只有旗舰级的散热规格才对得起旗舰PGF的定位。

光有散热还不够,供电也得满上!这张索泰RTX 4090 PGF OC显卡采用了SEP 2.0供电系统。供电总相数来到了夸张的28相,其中24相为核心供电,4相为显存供电,并且供电集成度相当高,每相均采用了固态电容做输入输出,还有全封闭电感坐镇。

外部的电源接口则是全新的12VHPWR供电接口,一根12VHPWR的电源线就可达到供电需求。600W的供电能力完全能够喂饱这块530W TDP的性能巨兽。

视频输出接口同样是顶尖的存在,毕竟你都买索泰RTX 4090 PGF OC显卡了,怎么说也得配一个4K的显示屏吧,真4K才能体验真电竞。索泰这张卡上的3个DP1.4a和1个HDMI2.1就能很好的满足视频输出,支持4屏显示或最高8K@60Hz的规格完全“超速”了。

说了那么多,上面这些豪华的配置都是为了极致的性能释放,而性能的来源就是这颗AD102-301-A1核心,别看它只是小小的一颗芯片,其实它得益于TSMC 4N工艺,在里面塞下了763亿个晶体管,这个数量足足是RTX 3090 Ti的2.7倍!当然它还有384bit位宽、144个SM、96MB的L2缓存……这里的每一项都是在告诉你,拥有这颗核心,你就拥有了地表最强游戏显卡。

话不多说,这就上机实测给大家看看,一上机就见证到了索泰RTX 4090 PGF OC的绝美颜值。顶部的索泰ZOTAC信仰Logo灯率先亮起,同步闪烁的还有正面的灯带,围绕着三把散热风扇,犹如律动的音符一般。笔者也是被这张卡深深折服了,有颜又有性能,不愧卡皇之名。

用来测试它的硬件当然不能差,CPU用的是最新的Intel Core i9-13900KS,华硕的Z790 Hero主板搭配2根16GB的金士顿DDR5-6000高频内存,散热更是龙神2代360水冷,这套配置可以说是不存在瓶颈了,能充分发挥出索泰RTX 4090 PGF OC显卡的真正实力。

AI性能测试

介绍完了测试平台,就该开始今天的重点了。AI作为这个时代最前沿的技术之一,现在几乎所有人、所有行业都在谈AI,我们的老黄也不例外,在GTC上、在COMPUTEX 2023上都大谈AI,甚至说“现在就是AI的iPhone时刻”,为了让大家感受AI的魅力,更进一步推出了一系列AI产品与服务,震撼全场。事不宜迟,我们开始见证这张顶级的索泰RTX 4090 PGF OC显卡的AI性能。

AI绘画

提到AI绘画,就不得不提最近很火的Stable Diffusion,也就是大家俗称的AI画画,通过敲入一些关键字,让AI描绘出来大家脑海中想要的画面,这样的用法可谓相当神奇,不少原画师在见到这样的工具出现后都开玩笑的说未来我们将被AI取代。

Stable Diffusion是一种基于潜在扩散模型的文本到图像的生成器,使用者可以任意输入文本生成高质量、高分辨率、高逼真的图像。相比起同样火热的Midjourney工具,Stable Diffusion的优势在于开源免费和高可控性。这也是很多玩家在体验AI绘画的时候选择Stable Diffusion的原因。

不仅如此,Stable Diffusion还有一个巨大的优势,其支持本地运行,这意味着几乎所有人都可以使用自己的电脑进行AI绘画,使用门槛极低。这里我们就用索泰RTX 4090 PGF OC进行测试,为了方便知道其真实性能,我们会在后续测试中加入其他显卡供大家对比参考。

我们先来一个简单的测试,用NVIDIA提供的描述生成768 x 768大小的图片,画图的参数是:使用v2-1 768-emapruned模型;teps: 50;CFG scale: 7.5,一组10张图,每次绘画3组。实测下来可以看到索泰RTX 4090 PGF OC一骑绝尘,90秒就完成了该项测试,换算过来就是3秒种就能画出一张,这个速度相信让不少画师都心头一紧吧。

看完了开胃小菜,下面我们画点观众爱看的小姐姐,我们使用了majicmixRealistic_v6模型,搭配FilmVelvia2 Lora与修复眼睛、姿态的插件进行了生成式绘图。Steps: 50, 采集器: Euler, CFG : 7.5, Seed: 172450070, Size: 1024x768,共生成1组,6张图片。

毫无疑问,索泰RTX 4090 PGF OC依旧是天花板一般的存在,35秒的完成速度傲视群雄,相比较第二名的RTX 4080,已经有了10秒钟的优势,更不用说其他显卡了。换句话说就是,如果你也像我一样,喜欢AI绘画,那选择一张索泰RTX 4090 PGF OC就能满足你的所有想象。

AI高清化照片

看完AI绘画,你可能已经被AI惊人的表现所折服。其实AI的作用远不止绘图,它还能在处理照片领域发光发热。现阶段AI对照片进行无损放大是比较常见的做法。通过AI你可以将原本低像素的照片放大到更大的尺寸,同时分辨率也会有所提升。这对不少老照片简直是救命稻草般的存在。

不过AI其实并不是无脑的将分辨率提高,而是利用AI深度学习的功能,对画面内容进行猜测、填补,给画面带来更多细节。有点类似于我们之前讲到的DLSS中的补帧,AI有根据的猜和补能够让你的老照片焕发生机。

在AI应用软件ON1 Resize AI 2023中,我们使用AI将多张图片提升200%分辨率,此时索泰RTX 4090 PGF OC的速度为6秒一张,而上代的卡皇RTX 3090 Ti为9秒,其实你不要以为这是3秒的差距,如果你的工程量比较复杂,那快的这3秒累计起来那就是30%以上的性能提升。

AI提升视频分辨率

AI不仅可以高清化照片,对提升视频分辨率也有不小的贡献。NVIDIA在RTX 4090首发时还没推出提升视频分辨率的功能,直到后面RTX 4070系列上线,这项划时代的功能才正式上线。它就是号称视频版DLSS的RTX Video Super Resolution 视频超分辨率技术(RTX VSR)。现在刚好有索泰RTX 4090 PGF OC显卡,那就用这张显卡看看,顶级的性能加上超强的AI技术,究竟能不能将低分辨率的视频也提升到前所未有的效果。

首先开启RTX VSR需要你的显卡为30系或40系,在NVIDIA控制面板中找到视频图像设置,手动开启RTX Video enhancement即可启用RTX VSR技术,其中分为1-4档调节,数字越大质量越好。

实测环节,可以看到在开启RTX VSR技术之后,原视频里的人物线条由原本的模糊不清变得十分清晰锐利,甚至部分细节已经超越原生1080P了,并且低画质的视频也有不少噪点,在开启VSR 4档后,噪点几乎消失。

除此之外,由于是AI智能提升分辨率的缘故,字体在原生的480P视频中有些发虚,甚至字体边缘可以看到毛边,不过有了VSR的加持后,字体锐利可见,完全不输原生1080P的效果,不得不说VSR确实有点东西。

这里我们也给大家准备了对比视频,从视频里就可以看到VSR的效果之明显,最高级别的VSR 4跟原生480P相比就是一眼的区别,在开启RTX VSR技术后,部分图像质量有了显著提高,不仅锯齿和噪点几乎全部消失,颜色过渡也更为平滑,目前VSR能有这种表现堪称惊艳。

左:原生480P 中:VSR 4档 右:原生1080P

当然你除了在浏览器能够使用这项功能外,本地浏览器也能享受黑科技的魅力,VLC是目前首个支持RTX VSR技术的本地播放器,且能够支持多种视频格式播放,你硬盘里的老视频也能拥有清晰画质了!

我们将本地的360P画质视频进行RTX VSR 4档渲染,从画面上看,开启了VSR技术后,右侧的渲染视频确实比左侧原生的视频要清晰许多,并且肉眼可见噪点的减少,观感上要明显好于原生的360P视频。

如果你想知道本地VSR的效果,这里也有视频可以看到二者的差距,确实能够明显看出有VSR的加持后,不少细节重新清晰可见,对一些低分辨率视频确实有提升。

左:本地原生360P 右:VSR-4档

总的来说,索泰RTX 4090 PGF OC上的RTX VSR技术还是相当不错的,既有不错的观感,又有合适的功耗,有了这项全新的AI技术,将为玩家和视频观看者带来革命性的新体验! 

AI目标追踪

如果你是一位视频后期,那接下来介绍的功能对你一定有用。在最新的Davinci Resolve Studio 18里面,已经支持使用显卡加速功能,有了它你就可以利用AI识别和追踪视频中的目标,换作以前,如果要用人工来做,就需要逐帧把目标抠画出来,不仅效率低、做起来还相当繁琐,但现在有了AI的帮助,就变得简单太多了,能够极大提高你的工作效率,并且效果也比人工抠图好不少。

我们使用达芬奇AI ACCELERATED MAGIC MASK测试时发现,同一项目下,架构革新后的索泰RTX 4090 PGF OC有着更快的渲染时间,原本RTX 3090 Ti需要27秒才能完成的操作,现在索泰RTX 4090 PGF OC仅用17秒!效率足足提高了近50%,换装索泰RTX 4090 PGF OC确确实实能够为后期团队带来更高的效率。

这里也给大家看看实际效果,可以看到使用AI目标追踪后,人物边缘锐利,而且动作连贯,真的比手动省时又省力。

总结

光是看测试结果,想必你已经被索泰GeForce RTX 4090 PGF OC震惊了吧。虽然这是一张定位游戏的消费级显卡,但它的AI性能也不容小觑。像AI绘画、AI追踪目标、图片视频高清化等操作都有不错的加速效果。当然了,你要拿它跟专业的AI加速卡比那还有差距,不过作为个人用户来说,目前的加速效果已经能够让你提升不小的效率了。

当然,索泰GeForce RTX 4090 PGF OC之所以能够迸发如此强悍的AI性能,也离不开它的豪华配置,全面革新的Ada Lovelace架构下Tensor Core得以大放异彩,24GB的GDDR6X显存,提供了充足的舞台供AI尽情发挥。AI性能的飞跃也成为了索泰GeForce RTX 4090 PGF OC显卡的最大亮点。

不过RTX 40系显卡能够在AIGC中大放异彩,那还要属老黄的高瞻远瞩。一方面是因为NVIDIA占据了绝大部分的市场份额,另一方面更是NVIDIA早早就在AI市场深耕多年,由上至下地布局通过GPU加速AI的战略。这一点与如今的CUDA十分相似,超前的部署,让自己的生态得以完善,那玩家自然也会选择你的产品。

不得不说,现阶段你想要一款能够带你驰骋AI疆场的显卡,那索泰GeForce RTX 4090 PGF OC应该是你的不二之选。一方面它有强悍的性能,另一方面也有完善的软件生态支持,实用性相比其他显卡来说更佳。顶级的显卡,顶级的性能,造就无与伦比的创作潜力。