GCN再战开普勒通用计算能力谁更强？-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

GCN再战开普勒通用计算能力谁更强？

2012年06月04日 00:01作者：陈骋编辑：陈骋文章出处：泡泡网原创

这一代GCN架构的完整版HD7970拥有2048个流处理器，而开普勒架构的完整版GTX680则拥有1536个。两者的纹理单元、ROP数量一样，而显存位宽方面HD7970为384Bit，GTX680则为256Bit，这造成了两者显存带宽上264GB/s与192GB/s之间的差距。

GCN再战开普勒通用计算能力谁更强？

从GPU外围模块来看，AMD的Tahiti和上代Cayman相比变化不大，只是强化了曲面细分单元，加入了双异步计算引擎而已。最大的改变来自于流处理器部分，原有的SIMD引擎不见了，取而代之的是GCN阵列，那SIMD引擎与GCN阵列有什么本质区别呢？

代号为Tahiti的HD7970中，每个GCN阵列里面包括4个SIMD单元，每个SIMD单元内部包括16个1D标量运算单元。这样的话Cayman的SIMD引擎是16x4=64个流处理器，而Tahiti的GCN阵列是4x16=64个流处理器，总数量虽然没有变化，但架构上是截然相反的设计——Tahiti相对于Cayman来说革命性的改变就是把4D矢量运算单元改成了1D标量运算单元！

但是，GCN架构与NVIDIA的CUDA架构还是有明显的区别，那就是GCN里面包括了4个SIMD-16单元，标量流处理器被硬性拆分为4个小组，而NVIDIA的SM则没有这种设计，所有流处理器都一视同仁。

而NVIDIA方面，则是不停的对GPU的GPC、SM、CUDA核心等配比进行微调，在微调的过程中经历了两次突变：第一次是GT200到GF100，首次引出了GPC（图形处理器集群）的概念，GPC数量减少但SM数以及流处理器数量增加不少；第二次就是现在了，从GF100到GK104，SM数量减少，但流处理器数量暴增！

改变是为了适应形式的变化，解决此前出现的一些问题，那NVIDIA的架构有什么问题呢？此前我们多次提到过，虽然NVIDIA的GPU在效能方面占尽优势，但也不是完美无缺的——NVIDIA最大的劣势就是流处理器数量较少，导致理论浮点运算能力较低。当然这只是表面现象，其背后的本质则是MIMD（多指令多数据流）的架构，相当一部分比例的晶体管消耗在了指令发射端和控制逻辑单元上面，所以流处理器数量始终低于对手。

为了保证GPU性能持续增长，NVIDIA必须耗费更多的晶体管、制造出更大的GPU核心，而这些都需要先进的、成熟的半导体制造工艺的支持。NVIDIA之所以在GF100（GTX480）时代落败，并非架构或者研发端出了什么问题（GF110/GTX580的成功可以证明），而是核心太大导致40nm工艺无法支撑，良率低下漏电流难以控制，最终导致核心不完整且功耗巨大。如此一来，NVIDIA原有的架构严重受制于制造工艺，并非可持续发展之路。

为此，NVIDIA将芯片架构逐步转向了SIMT的模式，即Single Instruction Multiple Threads（单指令多线程），SIMT有别与AMD的SIMD，SIMT的好处就是无需开发者费力把数据凑成合适的矢量长度，并且SIMT允许每个线程有不同的分支。纯粹使用SIMD不能并行的执行有条件跳转的函数，很显然条件跳转会根据输入数据不同在不同的线程中有不同表现，这个只有利用SIMT才能做到。

SIMT在硬件部分的结构还是要比SIMD复杂一些，NVIDIA还是更注重效率一些，所以NVIDIA的流处理器数量还是要比AMD少，但差距已经没以前那么夸张了。

0人已赞

第1页：通用计算大比拼，GCN/Kepler再次交锋！第2页：架构对比分析：到底谁更优秀？第3页：测试说明：HD7970再战GTX680 第4页：Direct Compute & OpenCL测试第5页：Compute Mark测试第6页：GPU Caps Viewer测试第7页：Lux Mark测试第8页：Sandra 2012测试

GCN再战开普勒 通用计算能力谁更强？

关注我们

GCN再战开普勒通用计算能力谁更强？