显卡,耕升

耕升 GeForce RTX 4060 踏雪显卡评测:高性能低功耗,再续甜品荣光


耕升 GeForce RTX 4060 踏雪显卡评测:高性能低功耗,再续甜品荣光

引言

老黄的GeForce RTX 40系自打推出以来就备受玩家关注,前有旗舰级的RTX 4090、RTX 4080,中端的RTX 4070与RTX 4070 Ti也亮相已久。而玩家心心念念的RTX 4060也姗姗来迟,不过俗话说得好“好饭不怕晚”,RTX 4060的出现,让更多的玩家能够用更低的价格感受新显卡的独特黑科技。

不过甜品卡甜不甜要测过才知道,而这次我们也是第一时间拿到了耕升推出的GeForce RTX 4060踏雪 8GB,作为60级别家族的甜品代表,这张RTX 4060能否延续30系的荣光?在性能、功耗以及性价比中找到完美的平衡,让玩家感受甜品之王的魅力。下面一起看看耕升交的这份答卷能否让你满意。

*下文“耕升GeForce RTX 4060 踏雪8GB”简称为“耕升RTX 4060踏雪”

规格对比

开始测试前,我们需要先对这张耕升RTX 4060踏雪有了详细的了解。首先就是显卡的核心心脏——AD107核心,这也是Ada RTX 40家族最小号的成员。它的面积仅为146平方毫米,和一颗GDDR6显存芯片大小相仿。

再看看它的内部构造,这款AD107核心内包含了3个GPC,不过每个GPC中仅包含4个TPC,因此SM单元总共只有24个,而CUDA则为3072个颗,L2缓存最大可至24MB。 

既然都说到缓存了,就不得不说说Ada存储子系统的创新之处。首先不得不提的就是缓存的重要性,作为GPU中广为应用的高速缓存,GPU可以更高效更快的进行数据访问与处理,一定程度上可以提高游戏性能和流畅性,同时还能降低功耗。

而GeForce GPU 在每个多单元流处理器(SM)中都有一个1级(L1)缓存(最接近和最快的缓存),每个GeForce RTX 40系列图形处理集群(GPC)中最多可以找到12个缓存,然而,由于L1缓存需要离内核非常近,它不可能非常大。

因此快速、更大的共享2级(L2)缓存就显得尤为关键了,与全新GeForce RTX 40系列 GPU 相比,上一代GeForce GPU的 L2 缓存要小得多,导致性能和效率相对较低。因为再GPU访问的过程中,首先会在L1缓存中找,如果没有再去L2缓存中找,如果没有将继续向下一级的显存查询,最后如果都没有,则会在SSD等存储设备中加载进系统,这样的策略看似没有问题,实则每一次通过显存层级结构的读写数据操作都会降低性能并消耗更多功率。

因此Ada存储子系统的创新之处在于提高L2缓存的容量,从而可以提高缓存查找数据时的命中率,一旦命中率提高,GPU则不需要多层级的向下去找数据,延迟降低的同时,还可以提高游戏性能和减少功耗。

并且由于新一代的GeForce RTX 40系GPU的L2缓存显著增加,这使得在处理核心和 L2 缓存之间传输更多数据成为可能。在各种游戏和综合基准测试中,性能的提升是显而易见的。与2MB二级缓存的性能相比,32 MB二级缓存将显存总线流量平均降低了50%以上,讲人话就是50%的流量减少可以让GPU最大化的利用显存带宽,因此游戏帧率也不输大位宽的显卡。

总的来说,在过去,显存位宽一直被用作确定新GPU的速度和性能等级的重要指标。然而,显存位宽本身并不能充分表明存储子系统的性能。相反,更全面的了解存储子系统设计及其对游戏性能的整体影响是有帮助的,这也是Ada存储子系统的精华所在。

其他参数上,AD107也不遑多让,核心旁是8GB的GDDR6 显存,可以在128bit总线接口上以17Gbps的速度运行,最终可提供272GB/s的带宽,更夸张的是RTX 4060的TDP 仅有 115W,这也意味着它比前代的RTX 3060省电不少。

外观赏析

耕升RTX 4060踏雪的外包装可以说是别具一格,不同于之前星极幻姬的包装,这次的更为简洁,包装上是精致的雪花图案,还有踏雪文字坐衬,辨识度相当高。

包装背面就比较简洁了,主要介绍了NVIDIA和耕升显卡一些卖点,比如光线追踪技术、DLSS 3深度学习超级采样、耕升自主研发的散热系统、耕升GW-SOUL软件等。

仔细看看这张耕升RTX 4060踏雪,配色绝对是它的一大亮点,珍珠白色不仅符合时下的白色主题海景房装机,观感上还给人以纯净和优雅的感觉,构成了一种既科技又时尚的视觉效果。

正面是两把92mm的超大散热风扇,超强的散热能力成为这个散热系统的护国神山。这些风扇采用了耕升特定的“炫风之刃”设计,配合精细的角度调整和扇叶排列,旨在提高风流效率,从而增强散热能力。

继续欣赏这张显卡,耕升RTX 4060踏雪还是熟悉的味道,背面采用了金属背板,对于显卡PCB可起到加强支撑的作用,并且由于金属良好的导热性,对于散热也有一定的辅助效果。

背板的尾部也进行了大面积的镂空,不仅美观,镂空设计还可让风流穿透散热鳍片带来更好的散热表现。

熟悉的"GEFORCE RTX"印刻在显卡顶部, 顶部还有低调而不张扬的RGB效果,通电后,GAINWARD LOGO亮起。当然神光同步肯定是支持的,不过它也可以使用耕升GW-SOUL软件单独调控。

耕升RTX 4060踏雪配备了单个8pin供电接口,结合PCIe插槽能给显卡提供150W+75W的功率上限,不过这对于一张TGP功耗只有115W的RTX 4060来说,就算是解锁功耗墙也绰绰有余了。

显卡视频输出接口还是3*DP 1.4a+1*HDMI 2.1的组合,整个RTX 40系显卡都是如此,直面超高清和多屏输出无压力。从这里还能看到显卡厚度回归正常,仅两槽位,兼容性不错。

显卡拆解

见识完它的颜值,就该看看它的内在了。一顿操作后,你就能见到耕升RTX 4060踏雪的PCB了,这块PCB相比之前我们见到的都要短一些,这也是它能够做成双风扇版本的原因之一,相比它的大哥们,已经可以用短小精悍来形容了。

翻到背面来看,这款PCB的精致程度更甚,密密麻麻的MLCC与控制芯片被镶嵌其中,而MLCC是显卡中重要的元器件,用于稳定电源、滤除噪声和电磁干扰,以确保显卡的正常运行,这里就可以看出耕升在显卡设计与制造上的精湛工艺。

回到正面,我们的主角AD107-400-A1核心安静的镶嵌在正中央。不过它的面积小了许多,但这并不影响它的性能发挥。配置上,其采用全新Ada Lovelace架构和TSMC 4N工艺,还有3072个CUDA以及逆天的24MB L2缓存,可实现高达2 倍的性能功耗比飞跃。

显存容量为8GB,位置在核心的四周,共有四颗GDDR6显存芯片在列,单颗2GB,由SK海力士提供,型号是H56G42AS6D,显存等效速率为17Gbps,可以实现272GB/s的显存带宽。

有了AD107核心,还得有驱动它的供电。耕升RTX 4060踏雪采用4+1相供电,这个规模带115W的显卡完全足够了。供电安排在PCB的左右两侧,4相为核心供电,1相为显存供电。

核心供电与显存供电的配置一致,每相供电都有自己的DrMos芯片,芯片来自台湾力祥,不过均采用一上一下两个MOSFET,型号分别是QN3103和QN3107。

PWM主控还是我们熟悉的老朋友,型号是uP9512U,负责核心与显存供电控制,常用在中高端显卡身上。

供电接口则是单8Pin接口,150W的理论供电能力带这张TDP 115W的耕升RTX 4060踏雪,那是完全没问题的。

散热方面,耕升RTX 4060踏雪也没有拉下,一拆开就看到了大面积的高效能均热板,中间还有两根热管直触核心,有利于热量快速带离。

并且耕升还为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热,可以说把散热拉满了。

眼尖的玩家应该已经看到两根6mm的镀镍复合热管了,它们贯穿了整个散热器,配合回流焊接工艺和金属外壳的高导热特性,整个散热器还有大面积的散热鳍片,散热性能可谓备受期待。

2把92mm的超大散热风扇承担着主动散热的工作,升级优化后的它们不仅风力强劲,还支持智能启停,GPU空闲时自动停转以减少噪音和功耗。

最后给大家看看整张显卡的拆解全家福,精致的外观下也蕴藏着豪华的配置。

测试平台介绍

话不多说,测试马上开始,本次的测试平台为了结合玩家的实际需求,CPU使用的是目前最新的13代——Intel i5-13600K处理器,主板为ROG Z790 Hero,搭配金士顿32GB DDR5-6000高规格内存。

硬件有了,显示器也不能落下。这里用的依旧是天花板级别的AGON PD32M保时捷联名款,4K@144Hz的高刷,虽然这是一张定位1080P高帧的显卡,但高分辨率的显示器一样能够带给你极致的视觉享受,感受丝般顺滑畅的3A体验。

大家对这款显卡的参数还没有大致的了解吧,我们先去GPU-Z中一探究竟,这张耕升RTX 4060踏雪的基础频率为1830MHz,不过它的Boost频率可比一般的RTX 4060高不少,达到了2550MHz,性能释放应该会更加优秀。再看看它的TDP设定,默认为115W,不过它可以解锁至130W,一会儿得好好试一试才行。

理论性能测试

为了让观众可以更好的了解到耕升RTX 4060踏雪这张全新的甜点卡与上一代RTX 3060的差距,在相关的测试上笔者也是进行了对比。

首先是3D Mark的理论测试,耕升RTX 4060踏雪上来就展现了RTX 40系应有的实力,相比较于上一代的RTX 3060,综合下来理论性能提升了13%左右。在DX 11为基准的Fire Strike系列测试中,28114的超高成绩比后者高出近6000分;而以DX 12为基准的TimeSpy测试也相当强势,超过了RTX 3060有近2000分。

不过提升最大的还要属光追性能与DLSS了,作为老黄的看家本领,耕升RTX 4060踏雪在Port Royal测试中,领先了前代RTX 3060有15%以上。再看看DLSS,即使是DLSS 2下,1080P与2K分辨率均超越RTX 3060 20%有多。更别说这张显卡还有一个DLSS 3的黑科技加持。

至于其他理论性能,我们也进行了详细的测试,从实测结果来看,在AIDA 64的GPGPU测试里,拥有Ada Lovalace架构的RTX 40系列显卡在算力上也有出色的性能表现。

游戏性能测试

理论性能表现还不错,那游戏表现又如何呢?这里我们也在两个分辨率下实测了多款游戏,基本上可以覆盖大部分RTX 4060玩家的使用日常范围,下面一起看看这张甜品卡到底甜不甜吧!

先看1080P分辨率下的游戏表现,不少游戏都能跑到100 FPS以上,少数的3A大作还可以做到120 FPS流畅运行,这也有赖于DLSS 2的加成。如果优化得当,像《古墓丽影:暗影》在开启DLSS 2后,帧数更是达到了181 FPS,超高的游戏帧数表明了耕升RTX 4060踏雪确实是一款1080P追求极致画质且高帧率的显卡。

而2K分辨率,显存位宽的削减对这张RTX 4060 其实影响不大,毕竟有超大L2缓存和最新架构加持,不少游戏依旧有60 FPS的表现,不要忘了这还只是开启DLSS 2的效果,现在已经有越来越多的游戏支持DLSS 3,打开后游戏性能还能更进一步。

总的来说,耕升RTX 4060踏雪虽然是一张定位1080P的显卡,但还是有一定的2K实力,在1080P下,性能至少是RTX 3060的1.2倍,即使到了2K也不弱,当RTX 3060没办法畅玩2K时,耕升RTX 4060踏雪开启DLSS 2已经实现了,并且性能还领先近20%。

DLSS 3性能测试

要说RTX 40系上最大的进步是什么,笔者觉得DLSS 3应该占有一席之地。DLSS早在RTX 20系显卡就已经发布了,其主要是让显卡在不影响画面质量的情况下提升游戏性能,目前DLSS已经更新至3.0版本,相比前代,新增帧生成和NVIDIA Reflex技术,据老黄所说,用上DLSS 3后可以实现游戏性能的翻倍提升。

3DMark DLSS 3理论性能测试

实测在3DMark的DLSS 3测试中,耕升RTX 4060踏雪的表现相当出色。2K分辨率下,开关DLSS 3性能差距能够达到2.8倍以上,帧数稳定在77 FPS以上,这与上面游戏测试一致,可以看到它是有2K游戏的能力的。4K分辨率下,开关前后差距足足有4倍,不过49 FPS的成绩还不能够支撑你的4K游戏体验。

游戏实测

光看理论性能大家也不过瘾,现在的DLSS 3游戏这么多,不实测一下怎么行。在国产FPS游戏《瘟疫传说:无罪》中,耕升RTX 4060踏雪开启DLSS 3后对RTX 3060简直是降维打击,1080P分辨率下比RTX 3060高出60多 FPS。另外整个游戏过程中,耕升RTX 4060踏雪的功耗仅116W,而隔壁的RTX 3060 基本在170W徘徊。用更低的功耗实现了更强的性能!这点不得不说老黄确实厉害。

1080P DLSS性能测试

有了DLSS 3的耕升RTX 4060踏雪真的脱胎换骨,大部分游戏都能达成120+ FPS,甚至不少游戏已经去到了160甚至180 FPS,相比RTX 3060那是几十帧的差距。另外这还只是一张115W TDP的显卡,功耗比你低,性能还比你强!你说气不气人?

我们也使用耕升RTX 4060踏雪在DLSS 2和DLSS 3两种模式下测试了多款游戏,从实测结果来看,DLSS 3确实有点东西,不少游戏的帧数都有明显提升。提升比较大的像《瘟疫传说》,DLSS 2下89 FPS,但是到了DLSS 3下就有135 FPS了,1080P高帧游戏轻轻松松。

更让人惊喜的是开启DLSS 3后,游戏的1% Low帧也有提升,这也意味着你在玩游戏时更稳定更丝滑。并且实测延迟也没有增长很多,老黄在发布会上吹的DLSS 3真的不错,实用性很强。

1440P DLSS性能测试

在一些要求苛刻的光追游戏里面,利用DLSS 3的帧生成技术,耕升RTX 4060 踏雪也能轻松在2K分辨率达到远超100 FPS的性能水平,要知道这可是上一代RTX 3060没有的黑科技。甚至不乏一些3A大作,帧数能够上到120 FPS,像我们熟知的《光明记忆:无限》,耕升RTX 4060踏雪在DLSS 3的作用下,2K@120Hz高刷畅玩完全能够实现。

RTX VSR测试

如果说DLSS给游戏体验带来质的飞跃,那RTX VSR技术就称得上是视频版的DLSS,这是NVIDIA在前段时间带来的RTX Video Super Resolution 视频超分辨率技术(RTX VSR),通过AI技术即可提高浏览器内的视频的分辨率,展现前所未有的显示效果。

今天我们也用耕升RTX 4060踏雪测试这项划时代的RTX VSR技术。使用相当简单,在RTX 30系和RTX 40系的NVIDIA控制面板中找到视频图像设置,手动开启RTX Video enhancement即可启用RTX VSR技术,其中分为1-4档调节,数字越大质量越好。

实测环节,可以看到在开启RTX VSR技术之后,原视频里的人物线条由原本的模糊不清变得十分清晰锐利,甚至部分细节已经超越原生1080P了,并且低画质的视频也有不少噪点,在开启VSR 4档后,噪点几乎消失。

从左往右依次为:原生480P、VSR 1x、VSR 4x、原生1080P

除此之外,由于是AI智能提升分辨率的缘故,字体在原生的480P视频中有些发虚,甚至字体边缘可以看到毛边,不过有了VSR的加持后,字体锐利可见,完全不输原生1080P的效果,不得不说VSR确实有点东西。

从左往右依次为:原生480P、VSR 1x、VSR 4x、原生1080P

这里我们也给大家准备了对比视频,从视频里就可以看到VSR的效果之明显,最高级别的VSR 4跟原生480P相比就是一眼的区别,在开启RTX VSR技术后,部分图像质量有了显著提高,不仅锯齿和噪点几乎全部消失,颜色过渡也更为平滑,目前VSR能有这种表现堪称惊艳。

从左往右依次为:原生480P、VSR 1x、VSR 4x、原生1080P

当然你除了在浏览器能够使用这项功能外,本地浏览器也能享受黑科技的魅力,VLC是目前首个支持RTX VSR技术的本地播放器,且能够支持多种视频格式播放,你硬盘里的老视频也能拥有清晰画质了!

我们将本地的480P画质视频进行RTX VSR 4档渲染,从画面上看,开启了VSR技术后,右侧的渲染视频确实比左侧原生的视频要清晰许多,并且肉眼可见噪点的减少,观感上要明显好于原生的480P视频。

如果你想知道本地VSR的效果,这里也有视频可以看到二者的差距,确实能够明显看出有VSR的加持后,不少细节重新清晰可见,对一些低分辨率视频确实有提升。

左:本地原生480P 中:VSR 4x 右:本地原生1080P

有玩家可能担心功耗的问题,这里我们也进行了实测,在VSR开启最高档4档的情况下,耕升RTX 4060踏雪的功耗仅有30W左右,显卡利用率也远没有网络上传得那么高。 

总的来说,耕升RTX 4060踏雪上的RTX VSR技术将为玩家和视频观看者带来革命性的新体验!无论是性能上还是技术上的创新,都称得上是流媒体时代的革命!

创作性能测试

创作生产也是不少用户换装新显卡关注的重点,不过生产力分为创作生产力与专业生产力两部分,这里我们选择PugetBench、PCMark 10、Blender等多款常见的测试软件,来测试耕升RTX 4060踏雪在日常办公、视频内容生产、专业渲染等方面的性能表现。

惯例,先理论性的测试一下,在PCMark 10 Extended中,耕升RTX 4060踏雪在多个项目均领先RTX 3060,不过领先最多的应该还是游戏这一项,领先幅度达到了20%,毕竟这是一张有DLSS 3的新显卡,性能强那也是意料之中。

视频创作方面,我们用PugetBench模拟大家使用Adobe、DaVinci等创作软件的情况。在Adobe的应用中,其实二者差距不大,这也是因为Adobe对硬件要求不高所致。不过值得一提的是DaVinci,作为首批支持AV1格式的剪辑软件,耕升RTX 4060踏雪在这款软件里可以说是如鱼得水,丝滑的剪辑体验以及战未来的格式编码都是RTX 3060无法比拟的。

在渲染能力方面,笔者采用到了V-Ray5 Benchmark 以及Blender Benchmark来对RTX 3060 以及耕升RTX 4060踏雪进行相关的对比。从两个项目的测试可以看到耕升RTX 4060踏雪的优势相当明显,相比较于RTX 3060拥有更好的表现,性能提升足足有40%。

在集成了众多工业软件基准测试的SPECviewperf2020中,耕升RTX 4060 踏雪也是形成了对RTX 3060的多方位提升,整体性能提升超过20%,对于有相关需求的用户来说更加适合购买。

在其他工业软件里,有了新架构加持的耕升RTX 4060踏雪也实力强劲,全方位超越RTX 3060,总的来说,在创作领域,RTX 40系显卡无论是甜品级的耕升RTX 4060踏雪还是高端旗舰都有不小的优势。

NVIDIA编码器测试

视频创作除了需要超强的性能用于剪辑,当然也需要优质的编码器用于导出。耕升RTX 4060踏雪内置了NVIDIA编码器,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它,像我们熟悉的达芬奇、剪映、B站等已经支持AV1编解码,未来AV1将会成为一个新趋势。

我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测同一段素材下,同样使用H.265编码,有NVIDIA编码器的加持下,耕升RTX 4060踏雪的效率比RTX 3060要快一些,如果使用AV1编码,那RTX 3060就更没法比了,毕竟AV1的编解码目前还是RTX 40系的独门秘技。

当然我们上面也提到AV1编码不止导出速度更快,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上,并且肉眼下几乎没有画质区别,单凭AV1的这些优点,未来将会是AV1的天下。如果你也想在未来的视频创作中立于不败之地,那换装一张耕升RTX 4060踏雪就是时下最优之选。

AI能力测试

在近期各类基于AIGC的应用也是非常的火热,而我们的老黄更是凭借AI赚得盆满钵满,甚至在前些时间,推出了地表最强算力显卡H100,未来像ChatGPT、AI绘画、AI换脸等新技术将不断冲击着我们的生活,笔者这里也相当好奇这张甜品卡的AI算力如何,下面我们一起见识一下。

先用达芬奇AI ACCELERATED MAGIC MASK测试一下耕升RTX 4060踏雪的AI算力吧,同样的项目,使用RTX 3060需要28秒,RTX 4060 Ti需要21秒,而耕升RTX 4060踏雪则以25秒的成绩位列其中,看似只是比RTX 3060快了3秒,但如果你遇到复杂的项目,那这3秒的差距就有可能演变为10-15%的效率提升。

上面我们提到的RTX VSR其实就是利用AI提升视频分辨率,但AI不仅能在视频中使用,图片也可以!在另一款AI应用软件ON1 Resize AI 2023中,我们使用AI将多张图片提升200%分辨率,此时耕升RTX 4060踏雪的速度为16秒一张,而上代的RTX 3060为18秒,而60级别的老大哥RTX 4060 Ti就是11秒一张了。 

再看看时下热门的AI绘画吧,在Stable Diffusion中,耕升RTX 4060踏雪显卡更是喜人,我们按照NVIDIA提供的描述生成50张小房子的图片,耕升RTX 4060踏雪每分钟可以生成4.72张图,作为对比,上代的RTX 3060则是每分钟4.19张,新架构高性能所带来的优势是前代显卡无法比拟的。

功耗与发热

一路测试过来,RTX 40系显卡的发热控制大家应该有目共睹,不少高端显卡的温度都低得不可思议,那这款耕升RTX 4060踏雪又如何呢?

在室温25℃的情况下,使用Furmark单烤近30分钟后,耕升RTX 4060踏雪的GPU核心能够长时间运行在2325MHz以上的高频,不过此时核心温度仅有61.1℃,看来穿透式散热系统设计与双热管加持对散热大有帮助。待机时就更厉害了,GPU核心的温度更是低至28.8℃,这个温度表现堪称优秀。

再看看功耗吧,一张性能强劲的甜品卡,功耗控制也是玩家关注的重点。烤机半小时,这张显卡的最大功耗仅有125W,平均下来更是低到105W左右,加上噪音控制也不错。如果你想入手一款性价比显卡,那我真的推荐你考虑一下耕升RTX 4060踏雪,性能不错的同时还有超低的功耗。

为了探究老黄的RTX 4060的功耗有多惊人,我们利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况。不测不知道,一测吓一跳,耕升RTX 4060踏雪在大多数的场景下均保持在115W左右,而隔壁的RTX 3060则是动辄169W,足足多出了50W的功耗,但性能还不及耕升RTX 4060踏雪。

实测完只能说Ada Lovelace架构加持下的RTX 4060确实有点东西,再配上TSMC 4N工艺,能耗比已经提升到了新的境界。用更少的功耗实现更强的性能,如果你也用上了RTX 40系显卡,想必你一定能理解我的惊讶。

超频潜力测试

在GPU-Z中我们就知道了这张耕升RTX 4060踏雪的Boost频率要比一般的RTX 4060高一截,那怎么能少得了超频呢,见识一下这款显卡的超频潜力到底如何?

开始超频前,先回顾一下这张显卡的默认状态性能,其Time Spy得分为10401分,GPU核心频率跑在2650MHz上下。

小超一下,先给耕升RTX 4060踏雪的核心加150MHz,此时TimeSpy中的显卡得分已经开始上升了,达到了11185分,核心有效频率也到了2910MHz。

既然顺利过测,那我们就要继续加码了,最终将GPU核心频率增加了280MHz,此时这张显卡在TimeSpy测试中刚好能够跑到3030MHz,显卡得分也达到了11444分,相比默频几乎暴涨1000分,可见这款显卡的性能与潜力还不错。

评测总结

NVIDIA自从推出RTX 4090开始,新架构新制程工艺所带来的性能提升与能耗比就给玩家带来了不小的惊喜。不过高昂的售价也让越来越多的玩家期待甜品级显卡的到来,而GeForce RTX 4060便是最好的答案,不错的配置、合理的售价、可观的性能集于一身,让这款中端显卡成功晋级最香甜品卡。

再看看这次测试的产品,实话实说,笔者已经很久没见过这么精致的显卡了,耕升GeForce RTX 4060踏雪的精致不仅体现在颜值上,还体现在性能释放与性价比方面。珍珠白的配色、时尚前卫的设计都是相当吸睛的存在,不过亮眼的还要属它的性能,无论是游戏、创作还是AI都全方位领先RTX 3060,不少项目的领先幅度更是达到15%甚至20%,这回的甜品卡是真的甜了,除此之外,它还支持3年的质保与个人送保,放心冲!

如果你也像我一样,并非狂热的发烧级玩家,只需一张中端的“甜点级”显卡产品,那么耕升 GeForce RTX 4060踏雪 8GB新一代的“甜点级”产品无疑是目前RTX 40系显卡中更好的选择。目前该卡已经在各大电商平台开售,售价2499元,同时还有多款耕升RTX 4060显卡同步上线,感兴趣的玩家千万不要错过了。

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦。

从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

全新的SM流式多处理器

Ada Lovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RT Cores、4个第四代 Tensor Cores(张量核心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32 计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,本次的主角GeForce RTX 4060拥有24个SM,3072个CUDA核心,跟上一代的RTX 3060 相比,虽然CUDA核心有所缩减,但得益于新架构的优势,性能完全可以说是遥遥领先。

另外缓存方面Ada Lovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX 4060 配备了24MB二级缓存,相比RTX 3060和RTX 2060可怜的4MB二级缓存,可以说是质的飞跃,足足提升了6倍之多。 

技术讲解:第三代 RTX Cores与第四代 Tensor Cores

以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上Ada Lovelace架构最大的提升还是在第三代 RTX Cores与第四代 Tensor Cores身上。

第三代 RTX Cores

RTX Cores用于光线追踪加速,第三代 RTX Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。

在Ampere架构中,第二代RT Cores支持边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。

所以在第三代 RTX Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,可以将 alpha 测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中,开发人员使用一些 Alpha 通道的素材来实现更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。

而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha 通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。

Displaced Micro-Meshes Engine

如果说Opacity Micromap Engine加速的是面处理,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTX Cores更低,效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂 。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就可以帮助BVH加速过程,减少构建时间和存储成本。

同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RTX Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用 GPU 资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。

第四代 Tensor Cores

Tensor Cores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代Tensor Cores新增FP8引擎,具有高达1.32 petaflops 的张量处理性能,超过上一代的5倍。

技术讲解:DLSS 3

或者说第四代Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS 3技术。

之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。

在DLSS 3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS 2)和NVIDIA Reflex。你可以理解为DLSS 3是在DLSS 2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForce RTX显卡都能使用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用使用上。

想实现DLSS帧生成可不简单,这需要配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助 GeForce RTX 40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。

从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS 3技术框架内实现精确和高性能的帧生成能力。 

另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS 2均可以让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS 3是建立在DLSS 2基础之上的,游戏开发者可以在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功能,所以DLSS 3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点:NVIDIA Reflex

NVIDIA Reflex也是DLSS 3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex 技术。

当GeForce RTX 40系列显卡和NVIDIA Reflex搭配上后,直接达到1440p分辨率360 FPS的体验,这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显示器将要发布,包括采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显示器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。

但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p 360Hz是很美好,但现实也是相当的骨感。

技术讲解:NVIDIA 编码器

GeForce RTX 40系列显卡还有一个全新的升级,那就是编码器NVENC。第八代的NVENC编码器不仅支持H.264与H.265,还支持开放式视频编码格式 AV1。

而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinci Resolve、以及Adobe Premiere Pro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1 编码器可将效率提高 40%,同时显卡的占用也更低。包括OBS Studio一代软件中也会增加AV1格式的支持。另外我们还能通过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。

包括我们上面测试时使用的游戏内录视频都是支持AV1格式,同时编码器NVENC在资源占用和适配上做得越来越好。