泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

最强GTX970诞生?索泰GTX970至尊评测

    泡泡网显卡频道10月24日 无论是对于CPU还是GPU,真正的指数性增长一般只存在于理论中或者实验室里,具体到产品总会受到种种环境因素的制约,很难成为现实。然而Maxwell架构产品的发布让我改变了原有的观点。

最强GTX970诞生?索泰GTX970至尊评测

    实际情况是架构革命带来的提升也有可能超越工艺进步!如果说在GM107发布的时候还有不少质疑的声音,那GM204的发布让所有人都见证Maxwell的强大,如果说GTX750Ti仅仅是小试牛刀,那搭载GM204的GTX980/970无疑是压轴之作了!

    NVIDIA于北京时间9月19日9点开始,举办一场全球性的 PC 游戏盛会Game24。这次的盛会同时给用户们带来了全新架构的GTX970和GTX980显卡。索泰作为全球一线的显卡制造厂商,凭借雄厚的实力,精心为用户设计推出了非公版的索泰GTX970-4GD5 至尊OC,今天就奉上这款次高端的详细评测!

    GTX970和GTX980都使用了Maxwell架构的GM204 GPU,Maxwell在流式多处理器(SM)方面采用了一种全新设计,可大幅提高每瓦特性能和每单位面积的性能。虽然Kepler SMX设计在这一代产品中已经相当高效,但是随着它的发展,NVIDIA的GPU架构师再次在能效比利用方面突破了难关。

1

    Maxwell SM设计实现证明了这一点,控制逻辑分区、负荷均衡、时钟门控粒度、编译器调度、每时钟周期发出指令条数等方面的改进以及其它诸多增强之处让Maxwell SM(亦称“SMM”)能够在效率上远超Kepler SMX。全新的Maxwell SM架构能够在GM107中把SM的数量增至五个(GK107中仅有两个),而芯片面积仅增加25%。下表提供了高级对比,对比双方分别为Maxwell以及上一代GK107 Kepler GPU:

1

    具体来说,首先Maxwell采用了容量大增的二级高速缓存设计,Maxwell核心架构中二级高速缓存容量为2048KB,而GK107中的容量仅为256KB。由于片上高速缓存容量更大,因此需要向显卡DRAM发送的请求更少,从而降低了整体显卡功耗、提升了性能。

    除了上述变化以外,NVIDIA的工程师还雄心勃勃地在晶体管水平上调整了Maxwell GPU中每个单元的实现方式,以便最大限度提高节能性。所有这些努力的最终结果是,采用相同的28纳米制造工艺,Maxwell能够提供相当于Kepler两倍的每瓦特性能!

    虽然说起来简单,但事实上这些就意味着Maxwell内部所有单元和横梁结构均得到了重新设计,数据流得到了优化,功率管理实现了大幅改变。

    虽然从图形特性的视角来看,第一代Maxwell GPU可提供与Kepler GPU相同的API功能,但从深层来上,Maxwell还在单个GPC(图形处理簇)内实现了多个SM单元,每个SM包含一个多形体引擎(Polymorph Engine)和纹理单元,而每个GPC包含一个光栅引擎(Raster Engine)。ROP依然与二级高速缓存片(L2 Cache Slice)以及显存控制器联系在一起。

1

GM204

    GM 204 GPU包含4个GPC、16个Maxwell流式多处理器(SMM)以及4个64位显存控制器(共256位)。这就是这一芯片的完整实现形式,规格大约是GeForce GTX 750Ti中的GM107的3倍。

1

新一代SMM 处理核架构解析

1

Maxwell SM框图

    而现在每个SM分为四个独立的处理块,每个处理块具备自己的指令缓冲区、调度器以及32个CUDA核心。新的划分方法简化了设计与调度逻辑、节省了晶体管与功耗、降低了计算延迟。

    总体而言,在这一全新设计上,每个“SM”的尺寸得到大幅缩减,而性能却能够达到一个KeplerSM的90%。更小的晶体管消耗让NVIDIA能够在每颗GPU中实现更多数量的SM。通过对比Kepler和Maxwell SM总数的相关指标可发现,后者的峰值纹理性能比前者高25%,CUDA核心数量多1.7倍,着色器性能大约高2.3倍。

SMM架构显存系统的改进

    对GM204来说,要在显存位宽与上一代Kepler架构核心相同的情况下实现性能大幅提升的目标,增强显存系统也同样重要。内部显存系统带宽实现了提升,效率也得到了改善。此外,2MB大容量二级高速缓存配置(比之前的任何GPU设计都大)十分有效地降低了显存带宽需求,确保了DRAM带宽不成为瓶颈。

    其他关于Maxwell架构的基本信息,例如通过Giga Thread引擎的主PCI Express接口数据流、Polymorph与Raster单元的基本操作等等过于晦涩的知识这里就不再赘述了。

0人已赞

关注我们

泡泡网

手机扫码关注