性能与效率的飞跃:HD6970/50完全评测
除了线程处理器架构从使用了多年的5D架构改成了4D架构之外,HD6900为了提升通用计算性能,还采用了异步分配。
AMD以往产品命令队列流程图
在AMD过去的产品中,虽然已经可以实现同一时间内运行多个内核,并且将任务分配到核心当中,但执行的时候必须由仲裁器和定序器来决定任务执行的先后顺序,比如高优先级的指令可以直接插队立即执行,而低优先级的指令可以被暂时存放在高速缓存之中,等待空闲时机再进行处理。
但在HD6900系列中,AMD对这个架构进行了改进,采用了异步分配的方式。也就是说可以将多个命令流在同一时间提交给核心,让它们立即执行。每一个内核都拥有独立的还行缓冲区和FIFO,所有的命令队列是独立的,异步的,具有不同的优先级。这允许多个应用程序乱序提交工作规程,并获得返回结果。另外,AMD还为每个提交的内核配置有独立的虚拟内存,包括完整的页表,因此,所有这些命令队列可以进入用户空间,并且都是通过完整的内存子系统和高速缓存获得保护。
除了异步分配之外,AMD还建造了2个新的DMA,它们可以双向地让PCIe带宽充分饱和。可以大幅度的提高GPU的来回吞吐量和系统内存读取速度,和上一代产品相比,带宽有效地翻倍。核心还采用多种方式进行改进,如直接读取本地数据缓存而完全绕过ALU,改进了提取操作的性能。另外整合着色器读取和优化整合产出的写入将提高着色器的I/O。
最后,HD6900还提升了双精度运算的执行效率,此前的产品中,双精度性能位单精度性能的1/5,而HD6900的双精度性能为单精度性能的1/4,已经超过了600GFlops。可以看出,AMD在HD6900 系列产品的通用计算性能方面也花了很大的功夫来进行改进。
渲染器后端升级
HD6900的后端渲染方面主要有三大改进,分别是“整合写入操作”、16位整数(unorm/snorm)操作速度提升2倍、32位浮点(单/双精度)操作速度提升2-4倍。显卡抗锯齿性能将得到进一步的提升。