核心,架构

NVIDIA GeForce RTX 4090 FE首发评测:大杯的体积,超大杯的性能


NVIDIA GeForce RTX 4090 FE首发评测:大杯的体积,超大杯的性能

  距离2022秋季GTC大会发布最新一代GeForce RTX 40系列桌面显卡后不到一个月的时间,NVIDIA正式解禁了GeForce RTX 4090 Founder Edition旗舰显卡的性能,至于明天10月12号将会是各大AIC厂商的性能解禁时间。

 

 

  在讲述NVIDIA GeForce RTX 4090 Founder Edition显卡性能表现之前,我们再详细的来讲述此次GeForce RTX 40系列到底为我们带来何种提升?

  GeForce RTX 4090【建议零售价?12999元起】

  GeForce RTX 4080 16GB【建议零售价分别为?9499元起】

  GeForce RTX 4080 12GB【建议零售价为?7199元起】

  本次NVIDIA将限量推出GeForce RTX 4090 FE版,于北京时间10月12日晚9点在京东首发上市,旨在为钟爱FE版设计的发烧级玩家带来无与伦比的体验。届时玩家可以选购来自NVIDIA FE版和来自顶级显卡供应商的RTX 4090 GPU标频版和超频版。【点击购买】

  技术讲解:架构优势

  Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。

  从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时加入众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

  在讲述核心架构前,我们先了解几个关键词:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm?、760亿个晶体管、2倍性能功耗比。

  大家带着几个关键字来看上面的【显卡规格参数对比】表格,就可以更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构核心, GeForce RTX 4090的核心是 AD102,目前Ada Lovelace架构核心中最为强大的,具有760亿个晶体管、16384个CUDA核心和24 GB高速美光GDDR6X显存。

  而GeForce RTX 4080 16GB核心代号为AD103-300,拥有9728个CUDA核心和16 GB高速美光GDDR6X显存,显存位宽也缩减到了256Bit;GeForce RTX 4080 12GB规格要低一些,核心代号为AD104-400,拥有7680个CUDA核心和12GB 美光 GDDR6X显存,显存位宽仅为192Bit。这里由于NDA原因这里我们不再多说GeForce RTX 4080 系列相关的信息。

  得益于NVIDIA与台积电深度合作的TSMC 4N制程工艺,GeForce RTX 4090核心面积仅是608mm?(上代RTX 3090 Ti 628mm?),在更小的核心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。

  值得注意的是,制程工艺的提升不单能拥有更多的晶体管,其核心频率更是能跑得很高,GeForce RTX 4090 Boost频率就已经达到了2520MHz,这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

  从GTC2022秋季大会中,其实我们就已经发现了,目前GeForce RTX 4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12 个GPC (图形处理集群)、72 个TPC (纹理处理集群)、144 个SM (流式多处理器) 和?个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。

  再来看上面的GeForce RTX 4090架构图,和完整版本的AD102核心对比起来就很容易看出差别。首先,GeForce RTX 4090核心代号为AD102-300,其拥有9个完整规格的GPC (图形处理集群,每个内建6个TPC),与2个非完整的GPC (图形处理集群,每个内建5个TPC),共组成了64个TPC ,那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

  如果你还是不太懂,这里笔者就逐一为了Ada Lovelace架构显卡的构成。

  刚才我们已经说到,一个完整的Ada Lovelace架构AD102核心内部拥有12个GPC,而每个完整的GPC中包含了一个专用的Raster Engine(光栅化引擎),两组ROPs共16个ROP(光栅化处理单元),以及6个TPC与12个SM单元。