16nm全新旗舰显卡 GTX 1080首发评测
Pascal GP104核心架构解析
NVIDIA在经历了四年基于28nm FinFET制造工艺的核心架构以后,基于Pascal GP104的GeForce GTX 1080首次迎来了16nm FinFET制造工艺升级。更高精度的“光刻”工艺允许GPU在单位面积的芯片上集成更多数量的晶体管,在同样的核心架构中,更加庞大的核心规模就意味着更强大的处理性能。所以16nm FinFET制造工艺能够给NVIDIA新显卡带来的能效提升是可以预见的,但是一直在超越自己的NVIDIA会满足于科技进步的必然结果吗?答案是否定的。革命性的Pascal GP104核心,不但让GeForce GTX 1080成为了有史以来性能最强的显卡,同时也让GeForce GTX 1080成为了前无古人的非常先进的显卡产品之一!
GTX 1080是新一代的显卡王者
基于16nm FinFET制造工艺的Pascal GP104核心打造GTX 1080,是NVIDIA GeForce GTX 1000系列首款显卡。拜Pascal核心架构所赐,作为一款旗舰级显卡产品的GTX 1080,其180W的TDP、单8pin的供电规模并没有成为性能大幅超越上一代旗舰GTX 980的瓶颈,如此高能效的GP104核心架构实在令人刮目相看!
GTX 1080的GP104核心内建4组GPC和8个显存控制器,每个GPC包含5个SM,1个SM中集成了128个CUDA单元、8个纹理单元、256KB的二级缓存、96KB的共享储存空间以及48KB的一级缓存。
SM流式多处理器能够高度协调其中的CUDA核心以及其他功能元件的工作,这20个SM会参与到几乎所有GPU执行的所有命令中。GeForce GTX 1080拥有8个位宽为32bit的显存控制器,每一个显存控制器配有八个ROP单元和256 KB二级缓存。所以,完整GTX 1080的GP104核心共有2560个CUDA单元、256bit显存位宽、64个ROP、160个TMU以及2MB二级缓存。
GP104的核心晶体管数量为7.2b,核心面积为314mm2,远远小于麦克斯韦家族的GM200,甚至比GM204还要小不少。得益于16nm FinFET工艺的应用,每平方毫米的晶体管数量达到了22.9m,远远高于GM200。这也是GP104能耗比如此高效的主要原因之一。此外,CUDA数量2560个,ROPs数量64个,TMUs数量160个,都介于GTX 980、GTX 980 Ti之间。
NVIDIA将GPU开发工作的重点放在了设计Pascal核心架构的每一个细节中。Pascal之所有能够成为有史以来能效最高的GPU,原因不仅仅是16nm FinFET带来的制造工艺精进,更得益于持续提高的核心效率。NVIDIA工程团队的一大精力投入重点是GPU核心运行频率,橡木桶定律那样,GPU核心运行频率是由数以百万计的设计电路中速度最慢的那一路径决定的,所以这一最慢路径的优化对于GPU核心运行频率的提高是至关重要的。经过NVIDIA工程团队在这一领域的不断钻研,GeForce GTX 1080的核心运行频率要比GTX 980高出40%之多!单靠16nm FinFET的制造工艺,是不能够带来如此高比例的核心频率提升的。
GDDR5X显存解析
相较于NVIDIA之前的显卡,显存由GDDR5升级为GDDR5X会带来显存带宽的巨大提升。得益于256bit显存位宽、10Gbps显存频率规格的GDDR5显存,GeForce GTX 1080的显存带宽要比GTX 980多出了43%,再加上显存压缩架构的改进,GeForce GTX 1080可使用的有效显存带宽是GTX 980的1.7倍!
经过NVIDIA显存工程师多年的潜心研究,使得GDDR5X显存的运行频率能够达到10Gbps,再加上GDDR5X IO电路的优化以及新的制造工艺,让GDDR5X显存在同样的能源消耗下获得43%的频率提升成为可能。
GPU芯片和显存芯片之间的通路也是提高显存带宽实际效率的重要因素。同样的,二者之间的信息交换速度也是由信号最弱的那条通路所决定,NVIDIA显存工程师将各个通路都进行了细致的调校,尽可能地排除信号的串扰情况和不连续性,以降低通路信号的损耗。
总而言之,NVIDIA在显存方面的工作成果,不仅是让GDDR5X显存获得了10Gbps的运行速度,而且还从设计上改善了GPU和显存芯片之间的信号通路。
NVIDIA GeForce GTX 1080的显存子系统使用无损压缩存储技术,可以减少DRAM的带宽需求,该技术可以带来如下几点好处:
1.减少了写入到显存中的数据量
2.减少了由显存转入至二级缓存的数据量,换言之就是增加了二级缓存的容量
3.减少了GPU中各个元件之间的数据传输量
GPU中的压缩管道有许多不同的压缩算法,GPU可以从中择优作为数据压缩的途径。这些算法中最重要的就是增量颜色压缩。GPU利用增量颜色压缩算法,计算一个范围里像素之间的差异,然后给这些像素加上基准δ值并存储下来。如果这种算法成功的话,这些数据将以2:1的比例存储下来。存储的数据经过压缩后,GeForce GTX1080所处理的每一帧画面需要提取的数据量就会显著减少。这样相当于提供了20%的额外显存带宽,再结合上GeForce GTX1080的10 Gbps频率的GDDR5X显存,最终使得GTX1080的有效显存带宽成为GeForce GTX980的1.7倍。