800SP怒吼!RV770核心HD4850全面评测
第二章:RV770核心架构全面解析
ATI对于GPU核心的编号很有规律,像R520、R580、R600这样的就是旗舰级核心;而中间带有V字的,像RV570、RV670都是定位要低一些,顶多算是中高端。现在大家就可以了解到,从RV670开始到RV770,ATI被AMD收购后已经完全放弃了旗舰GPU的研发,转而将精力投入到购买力最旺盛的中端和中高端市场,力图设计出最具性能价格比、性能功耗比的GPU,这就是AMD的主要设计理念,那么我们就来看看在这种设计理念的支配下,RV770的核心架构有什么变化。
第二章/第一节 从R600的失败说起,谈谈DX10显卡的核心架构
在之前的评测文章中,我们曾多次提到过ATI R6XX显卡的核心架构执行效率不如NVIDIA的G8X/G9X高,因而不得不依靠更先进的工艺、更高的频率、更多的晶体管来加以弥补——7.2亿晶体管的R600只能和6.81亿阉割版G80打平、3.9亿的RV630不如2.9亿的G84、6.66亿的RV670只能和5.05亿的G94打平……
● G80革命性的标量流处理器架构
不得不承认,NVIDIA从G80开始对GPU核心架构进行了革命性的改进,标量1D流处理器设计可以最大化晶体管利用率。理论上,不管执行任何类型的标量/矢量/混合指令,G80的128个流处理器都能够按照分配次序按部就班的完成,不存在流处理器闲置的情况,再加上超高的流处理器频率(达核心频率的两倍以上),GPU的执行效率得到了显著提升。
● R600传统型5D超标量Shader着色单元架构
AMD的R600虽然改进也不小,但它依然沿用了DX9时代的Shader Unit设计,只是将4D ALU改进为4D+1D的5D单元,在遇到复杂指令时的效率依然不够理想。5D ALU对于指令分配器的要求非常高,如果每个Shader Unit没有被分配到打包好的4D或者5D矢量指令,而是1D/2D这样的小指令,那么R600的执行效率就会非常低,高达320个流处理器也成为了一纸空文。
在DX10时代,混合指令所占比重越来越多,当R600遇到这种类型的游戏时,发挥失常就很容易理解了。而且R600没有分频设计,流处理器的频率只有G80的一半,因此执行效率差距挺大。
● R600架构的优势:较小的晶体管开销及持续可扩展性
R600架构的效率虽然不如对手,但它有一个巨大优势——持续可扩展性——AMD可以用较小的晶体管开销换取更大的Shader规模,比如这次的RV770核心,流处理器达到了800个之多,是RV670的2.5倍,而晶体管只有RV670的1.4倍,这种代价是非常划算的。
新一代的RV770与GTX200核心,虽然不是同一重量级,但两者的设计理念相同,都是想要将单GPU的性能翻倍。通过初步的测试数据来看,平均1.8倍的幅度完全可以向玩家们交待,但两颗核心所付出的代价却相差很远——RV770在RV670的基础上只要不到一半的晶体管就能实现性能翻倍的目标,而GTX200需要将晶体管翻倍才能实现性能翻倍的目标。
可以这么说,NVIDIA的标量流处理器架构虽然效率高超,但在扩充规模时晶体管开销太大,容易产生瓶颈。这颗拥有14亿晶体管的GTX200核心太过复杂,制造起来非常困难,良品率低、频率提升困难,成本及价格都非常高。
为什么RV770扩充流处理器如此容易,而GTX200就举步维艰呢?还是核心架构问题,R670/RV770的5D ALU共用一个指令发射端口,而G80/GTX200的每个ALU都要独占一个指令发射端口,因此在扩充流处理器规模时,周边辅助控制模块也同比膨胀。相比之下,A卡的架构更灵活一些,而AMD今后也将会在制造工艺允许的情况下,继续优化架构、扩充规模。