距离2022秋季GTC大会发布最新一代GeForce RTX 40系列桌面显卡后不到一个月的时间,NVIDIA正式解禁了GeForce RTX 4090 Founder Edition旗舰显卡的性能,至于明天10月12号将会是各大AIC厂商的性能解禁时间。
在讲述NVIDIA GeForce RTX 4090 Founder Edition显卡性能表现之前,我们再详细的来讲述此次GeForce RTX 40系列到底为我们带来何种提升?
本次NVIDIA将限量推出GeForce RTX 4090 FE版,于北京时间10月12日晚9点在京东首发上市,旨在为钟爱FE版设计的发烧级玩家带来无与伦比的体验。届时玩家可以选购来自NVIDIA FE版和来自顶级显卡供应商的RTX 4090 GPU标频版和超频版。【点击购买】
技术讲解:架构优势
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
在讲述核心架构前,我们先了解几个关键词:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm?、760亿个晶体管、2倍性能功耗比。
大家带着几个关键字来看上面的【显卡规格参数对比】表格,就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心, GeForce RTX 4090的核心是 AD102,目前Ada Lovelace架构核心中最为强大的,具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。
而GeForce RTX 4080 16GB核心代号为AD103-300,拥有9728个CUDA核心和16 GB高速美光GDDR6X显存,显存位宽也缩减到了256Bit;GeForce RTX 4080 12GB规格要低一些,核心代号为AD104-400,拥有7680个CUDA核心和12GB 美光 GDDR6X显存,显存位宽仅为192Bit。这里由于NDA原因这里我们不再多说GeForce RTX 4080 系列相关的信息。
得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺,GeForce RTX 4090核心面积仅是608mm?(上代RTX 3090 Ti 628mm?),在更小的核心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。
值得注意的是,制程工艺的提升不单能拥有更多的晶体管,其核心频率更是能跑得很高,GeForce RTX 4090 Boost频率就已经达到了2520MHz,这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。
从GTC2022秋季大会中,其实我们就已经发现了,目前GeForce RTX 4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和?个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。
再来看上面的GeForce RTX 4090架构图,和完整版本的AD102核心对比起来就很容易看出差别。首先,GeForce RTX 4090核心代号为AD102-300,其拥有9个完整规格的GPC (图形处理集群,每个内建6个TPC),与2个非完整的GPC (图形处理集群,每个内建5个TPC),共组成了64个TPC ,那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。
如果你还是不太懂,这里笔者就逐一为了Ada Lovelace架构显卡的构成。
刚才我们已经说到,一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC,而每个完整的GPC中包含了一个专用的Raster Engine(光栅化引擎),两组ROPs共16个ROP(光栅化处理单元),以及6个TPC与12个SM单元。