帖子详情 您在阅读帖子内容并对帖子进行投票之后,可发表回复。

NVIDIA新一代Ampere GPU架构和首发显卡简析

分享到: 分享到QQ  分享到Twitter
作者:BigLoser    访问次数:71    投票总数:0   
创建时间:2020-09-07 23:34:35   

今天不管对DIY硬件业界还是对游戏业界来说,都是个大日子,因为NVIDIA发布了新一代在性能上有巨大飞跃的RTX 30系显卡。首批的三张显卡在性能方面可谓是有着非常大的提升,就算其中定位最低的RTX 3070在官方宣传口径中都能有超过上一代旗舰卡RTX 2080 Ti的性能。那么,RTX 30系显卡是如何做到如此巨大的性能提升幅度的呢?本文就基于官方目前给出的信息对RTX 30系显卡的核心,也就是代号为Ampere的GPU进行简要的分析,由于官方尚未给出新一代显卡的白皮书,故本文只能挖掘到较为浅层的一些信息。

 

 

Turing架构是NVIDIA的初代RTX架构,它首次引入了RT Core,并升级了从Volta架构开始引入的Tensor Core。

 

 

它的意义在于将整个GPU的处理管线分成多个部分,早前的GPU只需要全力渲染画面即可,而在引入实时光线追踪特效之后,GPU中的处理核心需要分心去算光线追踪特效,偏偏这部分又非常吃算力,会让传统的GPU浪费非常多的算力。

 

 

于是NVIDIA想到为实时光线追踪引入独立的硬件处理管线,也就是RT Core。但在开启实时光线追踪的情况下,单靠RT Core在那边加速仍然没法达成高帧数的目标,所以NVIDIA研发了DLSS技术,也就是利用机器学习,通过AI升频的方式将低分辨率的游戏图像实时处理成高分辨率的图像输出。因为降低了实际的渲染分辨率,所以大幅减轻了GPU的计算压力,从而达成开启实时光追下的流畅游戏。

 

 

但是,Turing显卡的一大问题就是计算规模不够大,老黄在发布上也很坦诚的说,开了光追的Turing显卡表现和没开光追的Pascal差不太多(从图上甚至可以看到GTX 1080 Ti在非光追情况下的表现要优于光追场景下的RTX 2080 Super)。但是Turing GPU的工艺已经不允许NVIDIA往里面塞入更多的计算单元了,那么,是时候换工艺了。

 

 

与A100加速卡上那枚使用台积电N7工艺的GA100芯片不同的是,NVIDIA选择和三星合作,定制了基于三星8nm工艺的制程,称为Samsung 8N(N for NVIDIA)。在面积最大的GA102芯片中,NVIDIA塞入了280亿个晶体管,这个数字是TU102的1.5倍,但仍然比面向计算用途的GA100少很多(542亿)。

 

 

这多出来的1.5倍晶体管主要被用在加倍FP32单元上,从NVIDIA官网上的对比表我们即可看到这一明显的区别点。

 

 

以往在NVIDIA的GPU中,一个CUDA Core对应一个FP32计算单元,在Turing GPU上面,NVIDIA加入了独立的整数计算单元,它与传统FP32计算单元的比例是1:1,到了Ampere上,因为对算力有非常高的需求,NVIDIA直接选择把FP32单元的数量暴力翻倍。并且官方并没有采用一个CUDA Core对应两个FP32单元的计数方式,仍然保留了1:1的算法,所以我们看到了CUDA核心数量暴涨的一代显卡,下表对几代同级显卡的CUDA核心数量进行了对比:

 

首批RTX 30系显卡规格表

型号 RTX 3090 RTX 2080 Ti GTX 1080 Ti RTX 3080 RTX 2080 GTX 1080 RTX 3070 RTX 2070 GTX 1070
CUDA核心数量 10496 4352 3584 8704 2944 2560 5888 2304 1920
FP32单元数量 10496 4352 3584 8704 2944 2560 5888 2304 1920
INT单元数量 5248 4352 N/A 4352 2944 N/A 2944 2304 N/A
超 能 网 制 作

注:Ampere显卡的INT单元数量暂时按照1:2的比例计算。

 

从上表中我们可以感受到RTX 30显卡在计算规模上的暴增,不过这只是它性能增幅来源的一个部分。NVIDIA还引入了第二代RT Core和第三代Tensor Core。新的RT Core在处理光线追踪相关的计算时,可达到初代RT Core的1.7x效率,而GA100的同款Tensor Core则带来了2.7x的AI性能提升。

 

 

另外不得不提的还有新的显存。RTX 3080和RTX 3090都使用了来自于美光的GDDR6X显存,在显存带宽上逼近1TB/s的大关。这多个方面拼合到一起,让RTX 30系列显卡拥有了暴涨的性能表现。

 


第二代RT Core让RTX 30显卡在越复杂的实时光追场景下有更高的性能增幅

 

 

总的来看,Ampere GPU在能耗比上达成了一个1.9x的进步,在半导体制程提升日益困难的今天,这个进步幅度已经算是不小了。但是从上图我们也需要注意到,Ampere显卡在功耗上将会比Turing显卡去到更高的地步。

再来详细谈一谈这次发布的三张显卡。

首批RTX 30系显卡规格对比表

型号 核心 制程 CUDA核心数量 核心基础频率 核心Boost频率 显存种类 显存大小 显存位宽 显存频率 TGP 首发售价
RTX 3090 GA102 Samsung 8N 10496 1440 MHz 1700 MHz GDDR6X 24 GB 384-bit 19.5 Gbps 350 W ¥11999
RTX 2080 Ti TU102-300 TSMC 12FFN 4352 1350 MHz 1545 MHz GDDR6 11 GB 352-bit 14 Gbps 250 W ¥9999
RTX 3080 GA102 Samsung 8N 8704 1440 MHz 1710 MHz GDDR6X 10 GB 320-bit 19 Gbps 320 W ¥5499
RTX 2080 TU104-400 TSMC 12FFN 2944 1515 MHz 1710 MHz GDDR6 8 GB 256-bit 14 Gbps 215 W ¥5699
RTX 3070 GA104 Samsung 8N 5888 1500 MHz 1730 MHz GDDR6 8 GB 256-bit 16 Gbps 220 W ¥3899
RTX 2070 TU106-400 TSMC 12FFN 2304 1410 MHz 1620 MHz GDDR6 8 GB 256-bit 14 Gbps 175 W ¥3999
 

 

 

 

首先是RTX 3080,官方将其作为旗舰卡,而不是RTX 3090。官方标称它有2倍于RTX 2080的性能。

 

 

就算单看RTX 3080的CUDA核心数量,我也会信NVIDIA的说法,毕竟它有着三倍于RTX 2080的CUDA核心数量。但是这也带来了一个问题,三倍于RTX 2080的CUDA核心数量为什么只能带来两倍的性能?这个问题只能等到官方公布显卡白皮书的时候才能知晓了。

RTX 3080香不香?当然了,同样的起售价给你两倍的性能,能不让人高喊“NVIDIA YES”吗?但各位准备买新显卡的朋友需要注意两个问题,一个是供电,另一个是新卡的体积。

三星的8nm制程实际上是10nm的改良版,给GPU带来的省电效果是比从TSMC N16跨越到N7差得远了。庞大的GPU规模带来的必然是能耗和发热的大幅增加,公版的RTX 3080的标称TGP达到了320W,同时其GPU最高限温被抬高到了93℃。原本GPU的瞬时功耗就要比标称的TGP高上不少,现在基数都高了很多,那瞬时功耗还不得上天?这就给电源带来了很大的挑战,首先是瓦数要高,750W可能只能算是底线,上850W会更好,另外是电源的品质要好,能够应付新显卡的超高瞬时功率。那么功耗高了,发热量当然也会上去,这带来了第二个问题,为了即时散去热量,显卡厂商需要升级散热器,增大鳍片、加多风扇叶片数量这些都是常规操作了,自然会带来散热器体积的增加,进而增加了显卡整体的体积。官方给公版RTX 3080的标称厚度是双槽,不过就我们手上的显卡和今晚AIC们的发布来看,新显卡占到三槽的可以说是比比皆是。

 

 

再来说说大家都爱的RTX 3070。如果说RTX 2070是一代坑爹卡的话,那么这次的RTX 3070可以说是回归系列定位初心的一张卡。让我们回想一下,当年的各种x70显卡提供的是什么?是次旗舰级别的性能表现和平近易人的价格,最经典的就是GTX 970和GTX 1070 Ti了。那么这次的RTX 3070在性能上虽然仍被拉开了一个身位,次旗舰级别的性能表现无从谈起,但如果进行代际之间比较的话,它是比RTX 2080 Ti略强一点点的,换句话说,你可以用4000块钱买到一张RTX 2080 Ti级别的显卡,想想之前RTX 2080 Ti卖到多少吧。唯一的一个问题是,它仍然只有8GB的显存,在未来的4K游戏普及时代,这点显存可能会出现不够用的情况。

 

 

再说说这次的卡皇RTX 3090。老黄用了“BFGPU”这个自造缩写来描述这款显卡。它瞄准的,已经不再是简单的4K游戏,而是更高层次的8K游戏,而且一做,就要做到8K60。当然,这个目标是要通过DLSS技术来实现的,但也足以让人们惊叹了。24GB的显存也让它很适合用来当成一张创作卡,或者说,准专业卡。 最后,¥11999的售价看上去不怎么亲民,但想想上一代Titan RTX的定价……

 

当然,老黄是不是真的良心,我们抱持怀疑态度,因为这次的RTX 30系显卡采取如此有性价比的定价方案可能是受到AMD方面的压力了,RDNA 2可能真的不是省油的灯,所以NVIDIA需要通过提前布局市场来防范对手。

帖子投票

名称 是否有价值