HD7970脱胎换骨全测试!5年架构大革命-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

HD7970脱胎换骨全测试!5年架构大革命

2012年01月09日 01:00作者：蒋尚文编辑：蒋尚文文章出处：泡泡网原创

泡泡网显卡频道1月9日 2012.1.9日注定成为显卡发展史上光辉的一天。这一天过后，全世界的骨灰玩家们不用再为选择GTX580还是HD6970而发愁了。脚踩28nm祥云，手持DX11.1利剑，2048sp的HD7970如约而至，发出的却不是高端显卡司空见惯的怒吼，而是沁人心扉的天籁梵音~

曾经与Intel“摩尔定律”齐名的NVIDIA“黄氏定律”称“在图形处理器领域，每过半年GPU的性能提高一倍”！但纵观2011年，不管是NVIDIA还是AMD，桌面显卡发展都陷入了一种形式化的怪圈，新品看似不断实则“不新”、定位看似精准实则混乱，架构工艺鲜有创新，性能体验踯躅不前。GTX500和HD6000均乏善可陈，反而让Intel集显在转码领域抢到一席之地。

乌云蔽日终有散时，就在今天，AMD厚积薄发，一举推出架艺双馨的旗舰产品，南方群岛系列显卡呼之欲出，显卡产业再次焕发生机！

泡泡网HD7970特别专题页面：点击进入

第一章 AMD和NVIDIA在显卡发展过程中遇到的困难

第一章/第一节半导体制造工艺制约GPU的发展

既然前面提到了“黄氏定律”，我们不妨来回顾一下“摩尔定律”，这条早在1965年提出的理论至今都依然有效，并且暗中左右着半导体芯片的发展，其大致内容是“集成电路上可容纳的晶体管数目，约每隔18个月便会增加一倍，性能也将提升一倍。”

图例：如果用1000nm工艺制造Core i7，其核心面积将会有一本书这么大

“摩尔定律”最基本的涵义就是：半导体工艺需要一年半甚至更多的时间才能前进一代。但对于芯片级企业来说，如果这么久的时间才推出一代产品的话，显然是无法满足市场需求的。于是Intel率先提出了Tick-Tock（工艺年-构架年）的战略模式，在半导体制造工艺停滞不前的情况下，通过改进架构来提升性能，而在架构保持不变的情况下，通过更新工艺来提升性能改善功耗，两种方案交替更新、相得益彰。

GTX260与HD4870卖同样的价钱，大核心显然要吃亏一些

近年来的GPU的发展也与CPU非常类似，GPU的晶体管规模比CPU更为庞大，更加迫切的需要先进制造工艺的支持。但目前只有台湾岛内的台积电这家公司才有能力制造高度复杂的GPU，而最近台积电在新工艺的研发方面遇到了些麻烦，进展不是很顺利。

其实台积电40nm工艺的投产就已经让AMD和NVIDIA很头疼了，它直接造成了HD4770以及HD5870/5770系列产能不足的局面，也让NVIDIA的巨无霸核心GF100良率低下、功耗超高。现在台积电又因故取消了32nm工艺的研发，转而直接上马28nm，不管是AMD还是NV，均为新工艺捏了一把汗。

AMD最初的规划就是代号为“北方群岛”(Northern Islands)的新一代图形架构，准备采用台积电32nm工艺制造，具体核心代号有Cozmuel、Kauai、Ibiza。但由于台积电取消32nm，AMD不得不更改计划，一边等待新工艺、一边使用现有成熟的40nm工艺、在上代产品基础上开发改进型产品。

于是就诞生了代号为NI-40过渡型HD6000系列，保持40nm工艺不变，在现有架构的基础上进行小修小补。HD6000系列相比HD5000系列，虽然核心架构和外围功能模块、甚至显示输出部分都有了增强，但性能却没有什么起色。

第一章/第二节皇位之争：AMD和NVIDIA的“巅峰对决”

两军交战，阵前能斩落敌方武将于马下，则士气大振，已然胜了一半。而在PC领域，处理器和显卡等核心产品线的战场上也是同样的道理，旗舰级显卡作为各自最强3D图形性能的代表，肩负着展示技术、树立形象、打击竞争的特殊使命。

NVIDIA和AMD两大巨头之间每一次优异产品的对决都可以用惊天地、涕鬼神来形容！对于消费者来说，新旗舰的性能总能给人惊喜，更让人激动的是那些首次应用的新技术和特效：革命性的架构往往就是从旗舰显卡开始！

NVIDIA很早就意识到了这一点，因此近年来他们对旗舰级显卡性能之王的宝座看得很重，明知台积电压力山大，也要在晶体管堆积上取得优势。

在两大图形巨头日渐白热化的竞争中，半年更新、一年换代早已成为显卡领域的“摩尔定律”。而每当新王者登基、改朝换代之时，我们也会于第一时间为大家献上详细的评测文章。

第二章南方群岛之 Tahiti 架构解析

作为显卡来说，AMD的Radeon自HD4000时代以来为游戏玩家提供了众多优秀的产品，HD5000/HD6000系列丝毫不输给NVIDIA同级产品，性能、功能、价格、功耗等各方面表现得都很不错。对于AMD下代HD7000系列，我们毫不怀疑它在3D游戏中会有更出色的表现。

但作为GPU来说，AMD的产品显然要逊色很多，不支持物理加速、Stream通用计算性能不如CUDA，支持GPU加速的软件也屈指可数，这已经成为AMD最大的软肋，并且成了NVIDIA和NFan们攻击的对象。

第一节 Radeon是一款好显卡，但不是颗好GPU

图形与计算那些事 AMD次世代架构解析

（本章图/文孙敏杰）

随着时间的推移，保守的AMD终于尝到了固步自封的苦果：当NVIDIA的CUDA计算课程进入高校学堂、Tesla杀进超级计算市场、Quadro拿下95%的专业卡市场份额之时，AMD的Radeon还只能游弋在3D游戏领域，苦守来之不易的半壁江山。

想当年AMD率先提出GPU通用计算的概念，但最终却在NVIDIA的CUDA手中发扬光大。很多人以为这是AMD收购ATI后自顾不暇的关系，其实根本原因还在于GPU的架构——传统基于3D图形处理的GPU不适合于进行大规模并行计算，AMD的GPU拥有恐怖的理论运算能力却无从释放。而NVIDIA则从G80时代完成了华丽的转身，逐步完善了硬件和软件的协同工作，使得GPU成为高性能计算必不可少的配件。

俗话说的好：苦海无涯、回头是岸，亡羊补牢、为时不晚。AMD终于在代号为Southern Islands（南方群岛）的新一代GPU中，启用的全新的架构，AMD称之为“Graphics Core Next”（GCN，次世代图形核心），并冠以革命性的称号。这是AMD收购ATI之后的近5年来第一次对GPU架构进行“伤筋动骨”的“手术”，而架构调整的核心内容则是为并行计算优化设计。

那AMD的“次世代图形核心”相比沿用了五年之久的架构到底有何改进？其并行计算性能相比对手NVIDIA有无优势？3D游戏性能会否受到影响呢？本文将为大家做一个全方位的解析，文中会穿插一些3D渲染原理以及显卡基础知识，并谈谈GPU图形与计算的那些事儿……

第二章/第二节成也微软败也微软：XBOX360阻碍显卡/游戏发展

微软的DirectX 9.0C是一个神奇的图形API，自2004年首款DX9C显卡GeForce 6800 Ultra问世以来，至今已有将近8年时间，之后虽然微软发布了DX10、DX10.1、DX11、还有现在的DX11.1等多个新版本，但DX9C游戏依然是绝对主流，DX10以后的游戏全部加起来也不过几十款而已！

因此，当年的DX9C显卡之战，很大程度上决定了此后很多年的显卡研发策略。从最开始X800不支持DX9C对抗6800失利，到X1800支持DX9C却性能不济，再到X1900登上顶峰，还有半路杀出来XBOX360这个程咬金，ATI被AMD收购前的经历犹如过山车般惊险刺激！

DXC如此长寿的原因，相信游戏玩家们已经猜到了，那就是游戏主机太长寿了——微软XBOX360以及后来索尼PS3使用的GPU都是DX9C时代的产品。游戏开发商的主要盈利来源在主机平台，所以根本没心思把PC游戏做好，尤其对提高PC游戏的画面及引擎优化提不起兴趣，个别以高画质而著称的PC游戏倍受打击，很多DX10游戏续作倒退到DX9C就是很好的证明。

可以说，这么多年来PC 3D游戏图形产业的发展，成也微软、败也微软。

XBOX360的GPU——Xenos，由ATI设计

图形与计算那些事 AMD次世代架构解析

Xenos的核心架构图

微软XBOX360的成功，给GPU供应商ATI发出了一个信号，那就是今后N年内的游戏都将基于XBOX360的硬件而开发。当时ATI与Xenos同时研发的一颗GPU代号为R580，俩者拥有相似的架构，而R580在当年也成为DX9C显卡的王者，这就让ATI更加坚定了维持现有架构不变的决心。

第二章/第三节从X1900XTX谈起：用3:1黄金架构做计算

下面我们就来看看R580的核心架构，也就是当年的王者X1900XTX/X1950XTX所使用的GPU，后来次高端RV570核心（X1950Pro）的架构也类似。

R580：8个顶点着色单元、48个像素着色单元、16个纹理单元

DX9C显卡还没有统一渲染架构的概念（XBOX360的Xenos是个特例），所以R580依然是顶点与像素分离式的设计。当时的GPU核心部分被称为管线，比如7800GTX拥有24条像素渲染管线，但X1900XTX却不能称为拥有48条像素渲染管线，因为它的像素与纹理单元数量不对等。

GPU的工作原理：

显卡的渲染流程是通过顶点单元构建模型骨架，纹理单元处理纹理贴图，像素单元处理光影特效，光栅单元负责最终的像素输出。

GPU的管线是什么：

在R580之前，GPU的像素单元与纹理单元还有光栅单元是绑定在一起的，数量一样多，整个渲染过程就是流水线作业，因此像素与纹理加起来称为一条管线。

什么是3:1架构？

R520核心（X1800XT）的像素与纹理都是16个，但R580核心在纹理单元维持16个不变的情况下，把像素单元扩充了3倍达到了48个之多。ATI研发工程师发现新一代游戏中使用像素着色单元的频率越来越高，各种光影特效（尤其HDR）吃掉了像素着色单元的所有资源，而纹理单元的负载并不高，继续维持像素与纹理1:1的设计就是浪费资源，于是ATI根据3D游戏引擎的发展趋势做出了改变，并把R580这种不对等的架构称之为3:1黄金架构，管线的概念至此消失。

像素(算数)与纹理的比例逐年提高

当年ATI前瞻性的架构在部分新游戏中得到了应验，比如在优品飞车10、细胞分裂4、上古卷轴4等游戏中X1900XTX的性能远胜7900GTX。此外ATI专为HDR+AA优化的架构与驱动也让ATI风光无限。

但事实上，从1:1大跃进到3:1有点太激进了，在包括新游戏在内的绝大多数主流游戏中，都无法充分利用多达48个像素着色单元的能力。于是ATI的工程师们又有了新的想法：何不用这些像素单元来做一些非图形渲染的计算呢？像素单元的核心其实就是ALU（算术逻辑单元），拥有十分可观的浮点运算能力。

蛋白质折叠分布式计算开启GPU计算大门：

2006年9月，在X1900XTX发布半年之后，ATI与斯坦福大学相关科研人员合作，开发了首款使用GPU浮点运算能力做非图形渲染的软件——Folding @ Home第一代GPU运算客户端。

Folding@home是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程。最开始F@H仅支持CPU，后来加入了对PS3游戏机的支持，但同样是使用内置的CELL处理器做运算。F@H因ATI的加入为GPU计算翻开了新的一页，当然F@H加入了对NVIDIA DX10 GPU的支持那是后话。

什么是通用计算？

当时的GPU计算被称为GPGPU（General Purpose GPU），传统的图形处理器可以被用来做通用目的计算项目。所谓通用计算的大体流程就是：待处理的数据—〉转换成图形数据—〉GPU处理—〉处理后的图形数据—〉转换成所需数据。其实通用计算就是把数据转换为GPU能够“看懂”的图形数据，实际上是作为虚拟硬件层与GPU通讯，由于需要前后两次编译的过程，因此想要利用GPU强大的浮点运算能力，需要很强大的编译器，程序员的开发难度可想而知，CPU的运算量也比较大。

除了蛋白质折叠分布式计算外，当年ATI还开发了AVIVO Video Converter这款使用GPU加速视频转码的小工具，虽然效果一般，但也算是开了个好头。

虽然GPU通用计算的实现难度很大，但至少GPU实现了非图形计算的目的，而且其性能确实要比当时的CPU快十几倍。小有所成的ATI被胜利冲昏了头脑，他们认为自己研发出了非常先进的、最有前瞻性的GPU架构，还找到了让GPU进行通用计算的捷径、还有了AMD这座靠山……最终促使AMD-ATI做出了保守的决定——下代GPU继续沿用R580的架构，不做深层次的改动。

第二章/第四节 HD2900XT走向不归路：超长指令集的弊端

R520->R580的成功，多达48个着色单元功不可没，这让ATI对庞大的ALU运算单元深信不疑。ATI认为只要继续扩充着色单元，就能满足新一代DX10及Shader Model 3.0的要求。

着色单元的结构：

在图形处理中，最常见的像素都是由RGB（红黄蓝）三种颜色构成的，加上它们共有的信息说明（Alpha），总共是4个通道。而顶点数据一般是由XYZW四个坐标构成，这样也是4个通道。在3D图形进行渲染时，其实就是改变RGBA四个通道或者XYZW四个坐标的数值。为了一次性处理1个完整的像素渲染或几何转换，GPU的像素着色单元和顶点着色单元从一开始就被设计成为同时具备4次运算能力的运算器（ALU）。

完美DX10!ATI新王者HD2900XT权威评测

数据的基本单元是Scalar（标量），就是指一个单独的值，GPU的ALU进行一次这种变量操作，被称做1D标量。由于传统GPU的ALU在一个时钟周期可以同时执行4次这样的并行运算，所以ALU的操作被称做4D Vector（矢量）操作。一个矢量就是N个标量，一般来说绝大多数图形指令中N=4。所以，GPU的ALU指令发射端只有一个，但却可以同时运算4个通道的数据，这就是SIMD（Single Instruction Multiple Data，单指令多数据流）架构。

R580的Shader单元结构

显然，SIMD架构能够有效提升GPU的矢量处理性能，由于VS和PS的绝大部分运算都是4D Vector，它只需要一个指令端口就能在单周期内完成4倍运算量，效率达到100%。但是4D SIMD架构一旦遇到1D标量指令时，效率就会下降到原来的1/4，3/4的模块被完全浪费。为了缓解这个问题，ATI和NVIDIA在进入DX9时代后相继采用混合型设计，比如R300就采用了3D+1D的架构，允许Co-issue操作（矢量指令和标量指令可以并行执行），NV40以后的GPU支持2D+2D和3D+1D两种模式，虽然很大程度上缓解了标量指令执行效率低下的问题，但依然无法最大限度的发挥ALU运算能力，尤其是一旦遇上分支预测的情况，SIMD在矢量处理方面高效能的优势将会被损失殆尽。

DX10时代，混合型指令以及分支预测的情况更加频繁，传统的Shader结构必须做相应的改进以适应需求。NVIDIA的做法是将4D ALU全部打散，使用了MIMD（Multi Instruction Multiple Data，多指令多数据流），而AMD则继续沿用SIMD架构，但对Shader微架构进行了调整，称为超标量架构。

R600的5D超标量流处理器架构：

作为ATI的首款DX10 GPU，架构上还是有不少改进的，DX10统一渲染架构的引入，让传统的像素渲染单元和顶点渲染单元合二为一，统称为流处理器。R600总共拥有64个Shader单元，每个Shader内部有5个ALU，这样总计就是320个流处理器。

R600的Shader单元结构

R600的Shader有了很大幅度的改进，总共拥有5个ALU和1个分支执行单元，这个5个ALU都可以执行加法和乘加指令，其中1个"胖"的ALU除了乘加外之外还能够进行一些函数（SIN、COS、LOG、EXP等）运算，在特殊条件下提高运算效率！

与R580不同的是，R600的ALU可以在动态流控制的支配下自由的处理任何组合形式的指令，诸如1+1+1+1+1、2+2+1、2+3、4+1等组合形式。所以AMD将R600的Shader架构称作Superscalar（超标量），完美支持Co-issue（矢量指令和标量指令并行执行）。

R600超长指令集的弊端：

从Shader内部结构来看，R600的确是超标量体系，但如果从整个GPU宏观角度来看，R600依然是SIMD（单指令多数据流）的VLIW（超长指令集）体系：5个ALU被捆绑在一个SIMD Shader单元内部，所有的ALU共用一个指令发射端口，这就意味着Shader必须获得完整的5D指令包，才能让内部5个ALU同时运行，一旦获得的数据包少于5条指令，或者存在条件指令，那么R600的执行效率就会大打折扣。

例如：指令一：a=b+c；指令二：d=a*e。这两条指令中，第二条指令中的a必须等待第一条指令的运算结果，出现这样的情况时候，两条指令大多数情况下就不能实现超标量执行了。

显然，想要完整发挥R600的性能必须满足苛刻的条件，这个条件不仅对驱动和编译器提出了额外的要求，而且要求程序必须让条件指令不存在任何关联性，难度可想而知。最终结果就是绝大多数情况下R600都无法发挥出的理论性能，而且其执行效率会因为复杂指令的增多而不断下降。

第二章/第五节 HD4870的救赎：暴力扩充流处理器

HD2900XT的失败来自于很多方面，GPU核心架构只是冰山一角，就算保守的AMD沿用了DX9C时代的老架构，性能也不至于如此不济。但无奈GPU架构已经定型，短期内是无法改变了，HD2000和HD3000一败涂地，AMD咬牙硬抗了两年之久。就在大家为R600的架构争论不休，大谈VLIW指令集的弊端有多么严重时，AMD终于迎来了翻身之作——RV770核心。

RV770核心：暴力扩充流处理器

RV770相比R600/RV670，核心部分依然没有任何变化，沿用了之前的Shader单元设计，只是将数量扩充了2.5倍，流处理器达到了800个之多！

RV670/R600是4组SIMD，每组16个Shader，每个Shader 5个流处理器；RV770是10组SIMD，每组16个Shader，每个Shader 5个流处理器。流处理器部分直接扩充了2.5倍！

虽然对流处理器部分没有改动，但AMD对流处理器以外的几乎所有模块都进行了改进，从而使得性能和效率有了质的提升，具体改动如下：

抗锯齿算法改变，性能大幅提升

纹理单元和光栅单元部分，和流处理器一样都是数量翻了2.5倍，但值得一提的是，抗锯齿算法已经由R600/RV670的流处理器部分转移至光栅单元部分，因此RV770的AA效率大幅提高，一举超越了N卡重现X1000时代的辉煌，这也就是RV770表现令人惊异的主要原因。

在纹理单元与显存控制器之间设有一级缓存，RV770核心相比RV670，L1 TC容量翻倍，再加上数量同比增加2.5倍，因此RV770的总L1容量达到了RV670/R600的五倍之多！

放弃环形显存总线，改用交叉总线

RV770还放弃了使用多年的环形显存总线，估计是因为高频率下数据存取命中率的问题，回归了交叉总线设计，有效提高了显存利用率，并节约了显存带宽。还有GDDR5显存的首次使用，瞬间将显存位宽翻倍，256Bit GDDR5的带宽达到了当时N卡512Bit GDDR3的水平。

总的来说，虽然流处理器部分没有做改动，但RV770的非核心架构部分有了很大的改良，上代产品许多设计失误得到了纠正，在流处理器数量暴增运算能力大大加强的情况下，消除了功能模块的瓶颈，从而使得性能有了大幅改进。

VLIW并未降低3D效率，只是妨碍了GPU计算

HD4870/HD4850打了一场漂亮的翻身仗，也让唱衰VLIW的人看傻了眼，之前大家普遍认为R600/RV670失败的主要原因是VLIW的低下效率，事实证明VLIW并没有错，其效率问题并没有严重到失控的地步，毕竟DX9C游戏还是主流，顶点与像素操作指令还是大头。AMD只是错误的判断了抗锯齿的算法和效率，导致第一代DX10 GPU性能不如预期。

但最关键的问题不在3D游戏性能方面，AMD对GPU并行计算依然没有投入足够多的重视，AMD一方面在鼓吹自家Stream通用计算并不输给CUDA，各种商业软件未来将会加入支持，另一方面GPU架构未做任何调整，API编程接口支持也举步维艰。结果就是Stream软件无论数量、质量、性能还是发布时间都要远远落后于CUDA软件。

第二章/第六节 HD5870的辉煌：在错误的道路上越走越远

R600的失败让AMD明白了一个道理：从哪跌倒要从哪爬起来；RV770的成功让AMD坚信：我们的架构是没有问题的，以前的失败只是一个小小的失误，R600的架构前途无量，应该加快脚步往前冲……于是乎RV870诞生了。

如果说RV770是翻身之作，那么RV870（Cypress）就是反攻之作，AMD抢先推出DX11显卡，在NVIDIA GF100陷入大核心低良率的泥潭时，大举收复失地。

RV870是AMD近年来最成功的一颗GPU核心，但它的成功是拜NVIDIA的失误所赐，RV870核心本身可以说是毫无新意，因为它完全就是RV770的两倍规格，除了显存控制器以外的所有模块统统翻倍，AMD沿用RV770暴力扩充流处理器的路线，继续提高运算能力，抢滩登陆DX11。

RV870核心架构图

把RV870与RV770的架构图放一起的话，可以发现其外围周边模块几乎完全相同，而流处理器部分是一分为二的设计，其中的一半正好就是RV770的规格。

除了加入DX11、ShaderModel 5.0的支持，赋予Eyefinity 6屏输出的功能外，RV870与RV770相比并没有本质改进。

既然流处理器部分还是维持R600的设计，那就不用期待它在并行计算方面能有什么改进。AMD依然我行我素的在搞通用计算，支持的软件还是那么几款。RV870理论浮点运算能力再创新高，但却没什么人用，中国最强的超级计算机天河一号曾经使用的是HD4870X2，但后来升级成天河一号A之后改用了NVIDIA的Tesla，就是活生生的例子。

第二章/第七节 HD6870的一小步：双超线程分配处理器

也许有人会问，如此暴力的扩充流处理器规模而不更改架构，R600架构会成为AMD的常青树吗？难道不会有什么瓶颈吗？当然会有，AMD也发现了，所以从HD6000系列开始又进行了一轮架构的微调，透过AMD架构微调这一结果，我们可以了解出现问题原因到底是什么？

HD6870的一小步：两个超线程分配处理器

Barts核心的HD6870率先问世，这颗核心定位中端，所以流处理器从Cypress的1600个精简到了1120个，流处理器结构依然没有任何变化，但是前端控制模块一分为二：

相信大家应该注意到了，以往AMD的SIMD架构则是整颗GPU共享单一的控制单元，自R600以来都是如此。

Cypress的单一图形装配引擎

但随着晶体管规模和流处理器数量的迅速膨胀，单一的控制单元已经无法满足大规模并行指令分配的需要，因此从Cypress开始，AMD采用了“双核心”的设计，将SIMD阵列一分为二，也就是类似于NVIDIA GPC的设计。与此相对应的，图形装配引擎虽然只有一个，内部却设计了两个Hierarchical Z（分层消影器）和Rasterizer（光栅器），但是其它的特殊功能模块均只有一个。

Barts和Cypress一样，依然保持了双核心设计，图形引擎也只有一个，内部的功能模块并没有太多变化。但是Ultra-Treaded Dispatch Processor（超线程分配处理器）却变成了两个，相对应的，超线程分配处理器的指令缓存也变成了两份。

Barts的图形装配引擎

我们知道，Barts的流处理器数量是Cypress的70%，按理说线程分配压力有所下降，那么设计两个线程分配处理器的目的只有一个，那就是提升效率。在DX11时代，几何着色再加上曲面细分单元引入之后，图形装配引擎会产生更多的并行线程及指令转交SIMD进行处理，因此指令派发效率成为了新的瓶颈。

SIMD架构的优势就是可以用较少的晶体管制造成庞大的流处理器规模，拥有恐怖的理论运算能力；但缺点就是流处理器执行效率比MIMD架构低，其效率高低完全依赖于分配单元的派发效率。因此Barts这种双线程分配处理器的设计意义重大。

双超线程分配处理器的意义：曲面细分性能翻倍

HD6000系列可以说是半代改进的架构，既然数量上维持不变，就只能从改进效率的方面考虑了。而改进的内容就是加强线程管理和缓冲，也就是“双倍的超线程分配处理器和指令缓存”。

根据AMD官方提供的数据来看，HD6870的曲面细分性能最多可达HD5870的两倍，这种情况出现在10级左右的中等细分程度，当曲面细分达到20级以上的时候，那么它们的性能就基本上没有区别了。

由此可见，Barts核心当中的Tessellator单元本身在性能方面应该没有改进，其性能提升主要源于两颗超线程分配处理器。中等级别的曲面细分在指令分配方面是瓶颈，Barts改进的架构消除了这一瓶颈，所以性能提升十分显著，但如果细分级别特别高时，Tessellator本身的运算能力将成为瓶颈，此时线程派遣器的效率再高，也无济于事。

看起来，AMD迫切的想要改进指令派发效率，以满足庞大规模流处理器的胃口，并且有效的提升备受诟病的曲面细分性能。AMD的做法就是继续保持现有架构不变，发现瓶颈/缺陷然后消除瓶颈/缺陷，这让笔者想起了一段老话：“新三年旧三年，缝缝补补又三年”。

第二章/第八节 HD6970昙花一现：北方群岛5D改4D返璞归真

相信有些读者很早就想问这样一个问题了：既然图形渲染的主要指令是4D矢量格式，那为什么R600要设计成5D的流处理器结构呢？还沿用了5代之久？有结果就有原因，通过对Cayman核心的分析，我们可以找到答案。

R600为什么是5D VLIW结构？

在5D VLIW流处理器中，其中的1个比较“胖”的ALU有别于其它4个对等的ALU，它负责执行特殊功能（例如三角函数）。而另外4个ALU可以执行普通的加、乘、乘加或融合指令。

Barts核心的流处理器结构

从R600开始的Shader是4D+1D的非对等设计，ATI这样做的目的是为了让顶点着色器更有效率，以便能同时处理一个4D矢量点积(比如w、x、y、z)和一个标量分量(比如光照)。

Cayman核心返璞归真，改用4D结构

随着DX10及DX11大行其道，AMD通过自己长期内部测试发现，VLIW5架构的五个处理槽中平均只能用到3.4个，也就是在游戏里会有1.6个白白浪费了。显然，DX9下非常理想的VLIW5设计已经过时，它太宽了，必须缩短流处理器单元(SPU)，重新设计里边的流处理器(SP)布局。

Cayman核心的流处理器结构

于是Cayman核心诞生了，胖ALU下岗，只保留了剩下4个对等的全功能ALU。裁员归裁员，原来胖ALU的工作还得有人干，Cayman的4D架构在执行特殊功能指令时，需要占用3个ALU同时运算。

5D改4D之后最大的改进就是，去掉了体积最大的ALU，原本属于它的晶体管可以用来安放更多的SIMD引擎，据AMD官方称流处理器单元的性能/面积比可以提升10%。而且现在是4个ALU共享1个指令发射端口，指令派发压力骤减，执行效率提升。双精度浮点运算能力也从原来单精度的1/5提高到了1/4。

效率更进一步：双图形引擎

前面介绍过，从RV770到Cypress核心，图形引擎和超线程分配处理器都只有一个，但图形引擎内部的Hierarchical Z（分层消影器）和Rasterizer（光栅器）分为两份。

到了Barts核心，超线程分配处理器从一个变成两个。现在的Cayman核心则更进一步，图形引擎也变成了两个，也就是除了分层消影器和光栅器外，几何着色指令分配器、顶点着色指令分配器、还有曲面细分单元都变成了两份：

两个曲面细分单元再加上两个超线程分配处理器，AMD官方称HD6970的曲面细分性能可以达到HD6870的两倍、HD5870的三倍。其它方面比如顶点着色、几何着色性能都会有显著的提升。

通用计算效能也有改进

和Cypress、Barts相比，Cayman在通用计算方面也有一定程度的改进，主要体现在具备了一定程度的多路并行执行能力；双路DMA引擎可以同时透过外部总线和本地显存读写数据；改进的流控制提高了指令执行效率和运算单元浪费；当然双精度运算能力的提高对于科学计算也大有裨益。

不过，这些改进都是治标不治本，VLIW架构从5D到4D只是一小步，只能一定程度上的提高指令执行效率，而无法根治GPU编程困难、复杂指令和条件指令的兼容性问题。总的来说，Cayman核心依然只是单纯为游戏而设计的GPU，AMD把5D改为4D也是基于提升3D渲染性能的考虑。

第二章/第九节 GPU的一大步：NVIDIA G80图形架构解析

AMD的GPU架构介绍了这么多，对于其优缺点也心知肚明了，之前笔者反复提到了“效率”二字，其参照物当然就是NVIDIA的GPU，现在我们就来看看NVIDIA的GPU架构有什么特点，效率为什么会比较高？为什么更适合并行计算？

SIMD效率不高的根本原因

无论AMD怎么调整架构，5D还是4D的结构都还是SIMD，也就是这4-5个ALU要共用一个指令发射端口，这样就对GPU指令派发器提出了很高的要求：如果没有把4-5个指令打包好发送到过来，那么运算单元就不会全速运行；如果发送过来的4-5个指令当中包含条件指令，但运行效率就会降至连50%都不到，造成灾难性的资源浪费。

解决方法也不是没有，但都治标不治本，需要对游戏/程序本身进行优化,尽量避免使用标量指令、条件指令和混合指令,驱动为程序专门做优化，难度可想而知。

而治本的方法就是抛弃SIMD架构，从源头上解决指令组合预分配的问题。

G80革命性的MIMD架构

NVIDIA的科学家对图形指令结构进行了深入研究，它们发现标量数据流所占比例正在逐年提升，如果渲染单元还是坚持SIMD设计会让效率下降。为此NVIDIA在G80中做出大胆变革：流处理器不再针对矢量设计，而是统统改成了标量ALU单元，这种架构叫做MIMD（Multiple Instruction Multiple Data，多指令多数据流）

G80核心架构，每个流处理器就是一个标量ALU

如此一来，对于依然占据主流的4D矢量操作来说，G80需要让1个流处理器在4个周期内才能完成，或者是调动4个流处理器在1个周期内完成，那么G80的执行效率岂不是很低？没错，所以NVIDIA大幅提升了流处理器工作频率（两倍于核心频率），扩充了流处理器的规模（128个），这样G80的128个标量流处理器的运算能力就基本相当于传统的64个（128×2?）4D矢量ALU。大家应该知道R600拥有64个5D矢量ALU，最终的性能G80要远胜R600。

当然这只是在处理4D指令时的情形，随着图形画面越来越复杂，1D、2D、3D指令所占比例正在逐年增多，而G80在遇到这种指令时可说是如鱼得水，与4D一样不会有任何效能损失，指令转换效率高并且对指令的适应性非常好，这样G80就将GPU Shader执行效率提升到了新的境界！

MIMD架构的劣势

G80的架构听起来很完美，但也存在不可忽视的缺点：根据前面的分析可以得知，4个1D标量ALU和1个4D矢量ALU的运算能力是相当的，但是前者需要4个指令发射端和4个控制单元，而后者只需要1个，如此一来MIMD架构所占用的晶体管数将远大于SIMD架构！

所以AMD的SIMD架构可以用较少的晶体管造出庞大数量的流处理器、拥有恐怖的理论浮点运算能力；而NVIDIA的MIMD架构必须使用更多的晶体管制造出看似比较少的流处理器，理论浮点运算能力相差很远。双方走的都是极端路线，AMD以数量弥补效率的不足，而NVIDIA以效率弥补数量的劣势。

第二章/第十节真正的并行计算架构：GT200只为计算优化

G80的MIMD架构开了一个好头，128个流处理器虽然听起来虽然没有AMD 320个那么多，但这些流处理器是可以媲美真正的CPU核心，在执行任何指令时都能发挥出接近理论值的性能，这样高效率的核心如果只是用来玩游戏岂不太可惜了？

于是在游戏市场大获全胜的NVIDIA并没有止步于此，而是将目光放在了更长远的高性能计算领域，一边着手开发基于GPU计算的应用程序中间件，帮助程序员以更高效的方式开发基于GPU硬件加速的软件，另一方面在G80的基础上继续优化核心架构，将MIMD架构高效率的优势发挥到极致！

GT200核心：真正的并行计算架构

G80依然只是为DX10 3D渲染而设计的，虽然MIMD架构本身能够胜任并行数据计算的需要，但NVIDIA发现图形架构还有继续改进的余地，只要在核心内部设计全新的控制模块，并对微架构进行专门的优化，就能将GPU的图形架构改造成更加适合非图形领域的并行数据处理架构。

开创视觉计算帝国GTX280/260权威评测

第一代统一渲染架构的主要目的是把原本像素着色、顶点着色以及新增的几何着色，统一交给流处理器来处理。而NVIDIA的GT200核心则被称为第二代统一渲染架构，其主要含义就是将图形处理架构和并行计算架构完美的结合起来，成为一颗真正意义上的通用处理器，超越图形处理器的概念！

GT200相对于G80，不止是把流处理器数量从128个扩充到240个这么简单，其实最关键之处是对TPC（线程处理器簇）和SM（流处理器簇）的改进：

新增Atomic原子操作：透过原子操作，硬粒化之后的线程操作管理将更加有序和具体，这也就意味着像素或者其他类型如通用计算应用的Thread的生成、仲裁、泵送、内存位置确定和执行过程都将变得更加精确和高效，Atomic单元和原子操作的引入也为未来NVIDIA构架最终实现并行化设计起到了关键的先导作用。

每个SM可执行线程上限提升：G80/G92核心每个SM（即不可拆分的8核心流处理器）最多可执行768条线程，而GTX200核心的每个SM提升至1024条，而且GTX200拥有更多的SM，芯片实力达到原来的2.5倍！

开创视觉计算帝国GTX280/260权威评测

每个SM的指令寄存器翻倍：GTX200与G80核心在SM结构上基本相同的，但功能有所提升，在执行线程数增多的同时，NVIDIA还将每个SM中间的Local Memory容量翻倍（从16K到32K）。Local Memory用于存储SM即将执行的上千条指令，容量增大意味着可以存储更多的指令、超长的指令、或是各种复杂的混合式指令，这对于提高SM的执行效能大有裨益。

DX10游戏会越来越多的使用复杂的混合式Shader指令，一旦排队中的超长指令溢出或者在N个周期内都排不上队，那么就会造成效率下降的情况，此时双倍寄存器容量的优势就体现出来了。由于Local Memory并不会消耗太多晶体管，因此将其容量翻倍是很合算的。

纹理单元数量提升，比率下降，达到了ATI当年鼓吹的3:1水平

开创视觉计算帝国GTX280/260权威评测

其它改进还有：几何着色性能提升，提高双指令执行（Dual-Issue）效率，达到93%-94%之多，支持双精度64Bit浮点运算，运算能力为单精度的1/8。

综合来看，GT200除了流处理器、纹理单元、光栅单元这些硬货数量增多对游戏性能大有裨益以外，其它细节部分的优化跟游戏关系不大。因为GT200是为并行计算而设计的，从GT200开始，GPU计算变得更加实用和普及，NVIDIA的Tesla开始进入科学实验室，并杀进超级计算机市场。

第二章/第十一节 DX11与并行计算的完美结合：GF100/110的野心

随着Tesla在高性能计算领域日渐深入人心，NVIDIA也在与科研工作者们进行深入的沟通，倾听一线用户的需求，以便在下代GPU核心中做出相应的优化改进。当时用户最大的需求有两点：第一，科学家和超级计算只看重64bit双精度浮点运算能力，GT200性能太低，只有单精度的1/8；第二：企业级用户对稳定性要求更高，传统的显卡不支持显存ECC（错误检查和纠正），计算出错后效率较低。

这就是下一代GPU的设计目标。而且，这次GF100不仅要满足并行计算的需求，还要兼顾DX11游戏性能，针对DX11新增的曲面细分、几何运算做出相应的改进，时间紧、任务重、压力大。

过于追求完美往往结果就会不完美，NVIDIA在GPU架构设计部分做到了近乎完美，但是在芯片制造端掉了链子——由于GPU核心太大，台积电40nm工艺还不够成熟，导致GF100核心良率低下，没能达到设计预期，最终的产品不仅功耗发热很大，而且规格不完整。所以虽然当时GTX480显卡的评价不是很高，但GF100核心的架构极其优秀的。等到工艺成熟之后的GF110核心以及GTX580显卡，就毫无疑问的站在了游戏与计算的巅峰！

GF100是“四核心”设计：4个光栅化引擎

GF100/110可以看作是四核心设计

如果我们把Cayman看作是双核心的设计，那GF100就是四核心的设计，它拥有四个GPC（图形处理器集群）模块，每个GPC都有各自的光栅化引擎（Raster Engine），而在以往都是整颗GPU共享一个Raster Engine。

GF100拥有16个多形体引擎

GF100与GT200最大的不同其实就是PolyMorph Engine，译为多形体引擎。每个SM都拥有一个多形体引擎，GF100核心总共有多达16个。那么多形体引擎是干什么用的呢？为什么要设计如此之多？

为什么要这么多的多形体引擎？

之前的GPU架构一直都使用单一的前端控制模块来获取、汇集并对三角形实现光栅化。无论GPU有多少个流处理器，这种固定的流水线所实现的性能都是相同的。但应用程序的工作负荷却是不同的，所以这种流水线通常会导致瓶颈出现，流处理器资源未能得到充分利用。

实现光栅化并行处理的同时还要保持API的顺序是非常困难的，这种难度阻碍了这一领域的重大创新。虽然单个前端控制单元的设计在过去的GPU中曾有过辉煌的历史，但是随着对几何复杂度的需求不断增长，它现在已经变成了一个主要障碍。

Tessellation的使用从根本上改变了GPU图形负荷的平衡，该技术可以将特定帧中的三角形密度增加数十倍，给设置于光栅化单元等串行工作的资源带来了巨大压力。为了保持较高的Tessellation性能，有必要重新平衡图形流水线。

为了便于实现较高的三角形速率，NVIDIA设计了一种叫做“PolyMorph”的可扩展几何引擎。每16个PolyMorph引擎均拥有自己专用的顶点拾取单元以及镶嵌器，从而极大地提升了几何性能。与之搭配的4个并行光栅化引擎，它们在每个时钟周期内可设置最多4个三角形。同时，它们还能够在三角形获取、Tessellation、以及光栅化等方面实现巨大性能突破。

这是Cayman的图形引擎，是双核心设计

AMD的Cayman核心是不分光栅化引擎和多形体引擎的，都可以算作是双核心设计，GF100与Cayman相比，光栅化引擎是4:1，多形体引擎（包括曲面细分单元）是16:2，GF100的几何图形性能有多么强大已经可以想象。

当NVIDIA的工程师通过计算机模拟测试得知几何引擎将会成为DX11新的瓶颈之后，毫不迟疑的选择了将单个控制模块打散，重新设计了多形体引擎和光栅化引擎，并分散至每组SM或每个GPC之中，从而大幅提升了几何性能，彻底消除了瓶颈。

GF100流处理器部分的改进

每一个CUDA核心都拥有一个完全流水线化的整数算术逻辑单元（ALU）以及浮点运算单元（FPU）。GF100采用了最新的IEEE754-2008浮点标准，2008标准的主要改进就是支持多种类型的舍入算法。新标准可以只在最终获取数据时进行四舍五入，而以往的标准是每进行一步运算都要四舍五入一次，最后会产生较大的误差。

GF100能够为32bit单精度和64bit双精度运算提供FMA（Fused Multiply-Add，积和熔加）指令，而GT200只在64bit时才能提供。FMA不仅适用于高性能计算领域，事实上在渲染紧密重叠的三角形时，新的FMA算法能够最大限度的减少渲染误差。

ATI所有的流处理器在执行整数型加、乘指令时仅支持24bit精度，而NVIDIA CUDA核心支持所有整数指令全32位精度，符合标准编程语言的基本要求。整数ALU还经过了优化，可有效支持64位以及更高精度的运算，这一点是对手无法比拟的。

GF100拥有双Warp调度器可选出两个Warp，从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的，所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行（Dual-issue）模式，GF100能够实现接近峰值的硬件性能。

GF100首次引入一级缓存与动态共享缓存

GF100核心拥有很多种类的缓存，他们的用途不尽相同，其中一级缓存、共享缓存和纹理缓存位于SM内部，二级缓存则是独立的一块，与光栅单元及显存控制器相连。

以往的GPU都是没有一级缓存的，只有一级纹理缓存，因为这些缓存无法在通用计算中用于存储计算数据，只能用于在纹理采样时暂存纹理。而在GF100当中，NVIDIA首次引入真正的一级高速缓存，而且还可被动态的划分为共享缓存。

在GF100 GPU中，每个SM除了拥有专用的纹理缓存外，还拥有64KB容量的片上缓存，这部分缓存可配置为16KB的一级缓存+48KB共享缓存，或者是48KB一级缓存+16KB共享缓存。这种划分方式完全是动态执行的，一个时钟周期之后可自动根据任务需要即时切换而不需要程序主动干预。

一级缓存与共享缓存是互补的，共享缓存能够为明确界定存取数据的算法提升存取速度，而一级缓存则能够为一些不规则的算法提升存储器存取速度。在这些不规则算法中，事先并不知道数据地址。

对于图形渲染来说，重复或者固定的数据比较多，因此一般是划分48KB为共享缓存，当然剩下的16KB一级缓存也不是完全没用，它可以充当寄存器溢出的缓冲区，让寄存器能够实现不俗的性能提升。而在并行计算之中，一级缓存与共享缓存同样重要，它们可以让同一个线程块中的线程能够互相协作，从而促进了片上数据广泛的重复利用并减少了片外的通信量。共享存储器是使许多高性能CUDA应用程序成为可能的重要促成因素。

GF100拥有一个768KB容量统一的二级高速缓存，该缓存可以为所有载入、存储以及纹理请求提供服务。二级缓存可在整个GPU中提供高效、高速的数据共享。物理效果、光线追踪以及稀疏数据结构等事先不知道数据地址的算法在硬件高速缓存上的运行优势尤为明显。后期处理过滤器需要多个SM才能读取相同的数据，该过滤器与存储器之间的距离更短，从而提升了带宽效率。

统一的共享式缓存比单独的缓存效率更高。在独享式缓存设计中，即使同一个缓存被多个指令预订，它也无法使用其它缓存中未贴图的部分。高速缓存的利用率将远低于它的理论带宽。GF100的统一共享式二级高速缓存可在不同请求之间动态地平衡负载，从而充分地利用缓存。二级高速缓存取代了之前GPU中的二级纹理缓存、ROP缓存以及片上FIFO。

GF100的缓存架构让各流水线之间可以高效地通信，减少了显存读写操作

统一的高速缓存还能够确保存储器按照程序的顺序执行存取指令。当读、写路径分离（例如一个只读纹理路径以及一个只写ROP路径）时，可能会出现先写后读的危险。一个统一的读/写路径能够确保程序的正确运行，同时也是让NVIDIA GPU能够支持通用C/C++程序的重要因素。

与只读的GT200二级缓存相比，GF100的二级高速缓存既能读又能写，
而且是完全一致的。NVIDIA采用了一种优先算法来清除二级缓存中的数据，这种算法包含了各种检查，可帮助确保所需的数据能够驻留在高速缓存当中。

第二章/第十二节 HD7970华丽登场：曲面细分性能大幅提升

之所以要对NVIDIA的GF100/110核心进行重点介绍，是因为它是一个很好的参照物，接下来要介绍的Tahiti核心很多方面都会与GF100进行对比，看看AMD所谓的GCN（次世代图形核心）到底有多么先进。

Tahiti的核心架构图

这是AMD官方公布的Tahiti核心架构图，第一眼看上去，我们就会发现他与以往所有的AMD GPU架构有了明显区别，无论图形引擎部分还是流处理器部分都有了天翻地覆的变化，如果没有右侧熟悉的UVD、CrossFire、Eyefinity等功能模块，很难相信这是一颗AMD的GPU。

先看看最上面的图形引擎部分

Tahiti的图形引擎部分

Cayman的图形引擎部分

这一部分Tahiti几乎没有什么变化，依然是双图形引擎的设计，几何着色指令分配器、顶点着色指令分配器、曲面细分单元、光栅器、分层消影器都是双份的设计。

毫不起眼但意义重大的改进：双ACE

除此之外，还有一个毫不起眼但是意义重大的改进，那就是在图形引擎上方加入了两个ACE（Asynchronous Compute Engine，异步计算引擎），这两个引擎直接与指令处理器、几何引擎及全局数据缓存相连，作用是管理GPU的任务队列，将线程分门别类的分发给流处理器。

ACE将会充当指令处理器的角色用于运算操作，而ACE的主要作用就是接受任务并将其下遣分配给流处理器（主要是分配的过程）。全新架构强化了多任务的并行处理设计，资源分配、上下文切换以及任务优先级决策等等。ACE的直接作用就是新架构拥有了一定程度的乱序执行能力，虽然严格意义上新架构依然是顺序执行架构，一个完整线程中的指令执行顺序不能被打乱，但是ACE可以做到对不同的任务进行优化和排序，划分任务执行的优先级别，进而优化资源。从本质上来说，这与很多CPU（比如Atom、ARM A8等等）处理多任务的方式并没有什么不同。

而且ACE的加入大幅提升了Tahiti的几何性能，并且使得通用计算时的指令分配更加有序和并行化，缓存使用率和命中率更高。

有针对性的强化曲面细分单元

单从数量上来看，Tahiti明显不如GF100的4个光栅化引擎（光栅器+分层消影器）以及8个多形体引擎（几何/顶点分配器及曲面细分单元等）。不过AMD有针对性的强化了曲面细分单元，通过提高顶点的复用率、增强片外缓存命中率、以及更大参数高速缓存的配合下，HD7970在所有级别的曲面细分环境下都可以达到4倍于HD6970的性能：

此前我们介绍过，HD6970的曲面细分性能是HD6870的两倍、HD5870的三倍。通过AMD的理论数据来看，Tahiti的曲面细分性能应该达到甚至超越了GF100/110。

看得出来，AMD的Tahiti在图形引擎方面依然沿用Cayman的设计，从Cypress到Barts再到Cayman，AMD稳扎稳打的对图形引擎进行优化与改进，AMD认为现有的双图形引擎设计足以满足流处理器的需要，因此只对备受诟病的曲面细分模块进行了改良，如此有针对性的设计算是亡羊补牢、为时不晚。

第二章/第十三节 GCN架构的精髓：流处理器完全重新设计

看了上页图形引擎部分的介绍，很多人可能会失望——基本没动嘛，还说什么次世代图形核心？别着急，好戏在后头。我们知道AMD历代GPU的瓶颈除了曲面细分以外，其实最重要的是5D/4D VLIW架构的效率问题。现在Tahiti的GCN架构就是要解决这个问题，它的流处理器结构已经面目全非了。

Tahiti彻底抛弃VLIW架构

通过Tahiti的整体架构图我们看到，传统的SIMD流处理器阵列消失了，取而代之的是GCN阵列，Tahiti总计拥有2048个流处理器，这样每个GCN阵列里面拥有64个流处理器。现在来看看GCN阵列的微观结构。

GCN与GF100的SM何其相似

Tahiti的GCN阵列微观结构

GCN阵列里有4组SIMD单元，每组SIMD单元里面包括16个流处理器、或者说是标量运算器。GCN架构已经完全抛弃了此前5D/4D流处理器VLIW超长指令架构的限制，不存在5D/4D指令打包-派发-解包的问题，所有流处理器以16个为一组SIMD阵列完成指令调度。简单来说，以往是指令集并行，而现在是线程级并行。

GF100的SM（流处理器簇）微观结构

可以这么理解，一个GCN阵列与GF100当中的一组SM相当，GF100的一组SM当中有4组共计32个流处理器，而Tahiti的一组GCN当中有4组共计64个流处理器。

缓存部分

每个SIMD-16单元都拥有64KB向量寄存器

每组GCN阵列拥有64KB的本地数据共享缓存，还有16KB的一级缓存

每组GCN阵列有一个标量运算单元，用于执行整数指令、媒体指令和浮点原子操作，这个标量运算单元拥有自己的4KB寄存器

而GF100的缓存设计得更加灵活，每组SM里面拥有总计64KB的共享缓存+一级缓存，这64KB缓存可以根据实际运算量来动态调整，如果把16KB分配给一级缓存的话，那剩下的48KB就是共享缓存，反之亦然。

一般来说，进行图形渲染时需要共享缓存比较多，而并行计算时则会用到更多的一级缓存。GF100这种灵活的缓存分配机制更适合做并行计算，而GCN架构更大的共享缓存会有更好的图形渲染性能，并行计算则会稍逊一筹。

更多的线程调度

从缓存部分的设计来看，虽然GCN拥有更大的缓存容量，但在并行计算领域经营多年的NVIDIA显然要棋高一手。

从线程级别来看，GCN与SM是不可分割的最小单元，GCN一次可以执行64个线程，而SM是48个（其实就是流处理器的数量）。

从多线程执行上来看，GCN可以同时执行4个硬件线程，而SM是双线程调度器的设计（参见架构图）。

如此来看，GCN架构的多线程性能会更好一些。

小结：AMD GCN借鉴NVIDIA SM架构

在流处理器部分，终于不用费劲的把AMD和NVIDIA GPU架构分开介绍了，因为GCN与SM已经没有本质区别。剩下的只是缓存容量、流处理器簇的数量、线程调度机制的问题，双方根据实际应用自然会有不同的判断，自家的前后两代产品也会对这些数量和排列组合进行微调。

AMD向NVIDIA的架构靠拢，GCN架构改动之大，前所未有！

第二章/第十四节 GCN架构的缓存：和GF100异曲同工

在流处理器部分，我们看到Tahiti与GF100如此相似，那么接下来看到缓存设计时，您可能会要惊呼了……看图说话：

Tahiti的缓存结构

Tahiti与GF100缓存的相同之处

先说最直观的，Tahiti有一个容量为768KB二级缓存，这个容量与GF100的L2完全相同，都可以进行读写操作。

上页说过，Tahiti的每组GCN阵列拥有16KB的一级缓存，GF100的SM里面也有16KB的一级缓存；每组GCN拥有64KB的本地数据共享缓存，GF100的每组SM拥有48KB。

Tahiti总共拥有32个GCN阵列，所以一级缓存共有512KB，而GF100拥有16个SM阵列，一级缓存共有256KB。但别忘了GF100的L1可以是48KB，这样总共就是768KB了。

Tahiti与GF100缓存的不同之处

虽然Tahiti的缓存层级设定与GF100非常相似，但区别也是有的：

Tahiti的每组GCN需要将16KB一级缓存当作纹理缓存使用，而GF100的每组SM当中设有专用的12KB纹理缓存；

一般来说非图形渲染不需要用到纹理缓存，而图形渲染时又不会用到一级缓存，所以Tahiti将一级缓存与纹理缓存合并的设计更优；但NVIDIA专门设计纹理缓存也不是没有道理，当GPU既渲染图形又要做计算时，分离式设计的效率会更高，比如PhysX游戏……A卡不支持所以AMD不会考虑这种情况。

Tahiti整个GPU拥有一个32KB的全局数据共享缓存，这个是沿用了Cayman的设计，但容量减半了，而GF100没有这种缓存。全局数据共享缓存主要用于不同GCN阵列间线程的数据交换，这块缓存只对编译器可见，所以使用率较低，容量减半相信也是处于这个原因。

第二章/第十五节 Tihiti其他方面的改进：AMD真是个激进派

最核心的流处理器和缓存部分介绍完毕，剩下的功能模块就简单了：

AMD头一次使用384bit显存控制器

我们先来回顾一下显存控制器的发展史：

NVIDIA：G80(384bit)-G92(256bit)-GT200(512bit)-GF100(384bit)

AMD：R600(512bit)-RV670(256bit)-RV770(256bit)-Cypress(256bit)-Cayman(256bit)

NVIDIA使用过两次384bit显存控制器，而AMD自R600 512bit兵败之后一直坚守256bit的设计，这次Tahiti是头一次使用384bit这种折衷的位宽。

AMD作为GDDR5显存标准的制定者之一，对于显存特性吃得比较透，因此同样的显存颗粒，A卡的显存频率一直都远高于N卡。此次AMD在位宽上追平NVIDIA，再加上更高的频率，显存带宽达到了264GB/s，基本上不会有什么瓶颈了。

光栅单元数量不变

Tahiti配备了32个ROPs，数量与Cayman，每个周期能完成32个色彩处理和128个Z/Stencil 处理，不过得益于有更高的显存带宽，在实际游戏中的性能要比理论值一样的Cayman快50%，比如抗锯齿方面。

● 率先支持DX11.1 API

AMD一直都是激进派，凭借与微软的深度合作，自DX10以后AMD总是能够第一时间发布支持最新API的显卡，DX10.1/DX11还有现在的DX11都是如此。关于DX11.1的改进细节，下文有专门章节陈述。

● PCI-E 3.0总线解析

PCI-E 3.0规范将数据传输率提升到8GHz|8GT/s(最初也预想过10GHz)，并保持了对PCI-E 2.x/1.x的向下兼容，继续支持2.5GHz、5GHz信号机制。基于此，PCI-E 3.0架构单信道(x1)单向带宽即可接近1GB/s，十六信道(x16)双向带宽更是可达32GB/s。

PCI-E 3.0同时还特别增加了128b/130b解码机制，可以确保几乎100％的传输效率，相比此前版本的8b/10b机制提升了25％，从而促成了传输带宽的翻番，延续了PCI-E规范的一贯传统。

新规范在信号和软件层的其他增强之处还有数据复用指示、原子操作、动态电源调整机制、延迟容许报告、宽松传输排序、基地址寄存器(BAR)大小调整、I/O页面错误等等，从而全方位提升平台效率、软件模型弹性、架构伸缩性。

至于PCI-E 3.0总线的意义，现在看来有些超前。目前只有Intel的X79+i7-3960X平台才会提供PCI-E3.0支持。根据经验和测试，PCI-E 3.0翻倍的带宽并不会给显卡带来性能提升，其主要意义还是进一步对于多卡的支持。试想，如果PCI-E 3.0 X4都可以满足HD7970的需求的话，那么现有的Z68（搭配IvyBridge处理器）就不会限制多路交火的性能表现，而X79插8块（如果主板有这么多插槽的话）HD7970做并行计算也不会因为接口带宽而产生性能瓶颈。

第二章/第十六节 GCN架构的真正意义：GPU计算效能大增

最后，再来强调一下AMD抛弃5D/4D VLIW改用全新GCN架构的意义

理想状态下毫不相干的四组线程执行情况

在VLIW的理想情况下，4个线程分别各自独立且毫不相关，可以看到新架构和VLIW的执行情况和类似，理论上效率都是100%。

非理想状态下，条件相关线程延迟执行

但对于VLIW架构来说，不理想的情况就是遇到相关的指令流，比如两个绿色线程，前三个线程可在一个周期内执行，最下方的蓝色只能独立执行。而对于新架构来说，则不存在这样的问题。也就是说，采用硬件调度之后，GCN和SIMD可以允许选择不同的线程乱序执行，这些线程可以来自同一任务，也可以是不同任务。当然，这种“乱序”也不是绝对的，基本的流程还是要遵守的，比如各个线程之间的指令必须按顺序执行，不能打乱也不能分割。

以上就是AMD官方提供的数据，HD7970的理论运算能力相比HD6970提升不过30%，但在GPU计算应用当中的性能提升相当显著，可达两倍以上！尤其在AES加密解密算法中，速度达到了4倍以上，架构的威力可见一斑！

HD7900会在WinZIP当中有更好的加密压缩解压性能

高清视频实时防抖处理

AMD在努力：支持GPU计算的软件越来越多

以往的VLIW架构在并行任务处理方面处于劣势，并且很依赖编译器和API的支持，扩展到OpenCL也受到很大限制。经过硬件架构的调整，新的GCN架构在并行计算方面有了很大提高。编译压力减轻，硬件调度的加入使编译器摆脱了调度任务；其次是程序优化和支持语言扩充更见容易；最后是不用在生成VLIW指令和相关调度信息，新架构最底层的ISA也更加简单。

第二章/第十七节浴火重生，新的开始新的期待

从DX10时代开始，也就是ATI被AMD收购之后，AMD的GPU架构一直都没有大的改动。从HD2000到HD6000，大家应该会发现GPU流处理器部分的结构没有任何改动，区别只是规模而已。这次AMD能够彻底抛弃沿用了5年之久的VLIW超长指令集架构，真的是让人眼前一亮，真可谓是浪子回头金不换。

对于AMD来说，这次真的是一次革命

Tihiti的GPU架构改得很彻底，换句话说就是AMD学得很快，NVIDIA花了5年时间循序渐进的把G80进化到了GF100的级别；而AMD只用了一年时间，就让Tahiti达到甚至部分超越了GF100的水平，真是可喜可贺！

但是AMD还有很长的路要走，硬件虽然很强大、全新的GCN架构也扫清了效率低下障碍，但软件和程序方面还需加把劲。让AMD欣喜的是OpenCL API的发展速度比想象中的还要快，以至于NVIDIA打算部分开放CUDA接口。可以预见的是，未来更多的商业软件将会直接使用OpenCL语言编写，对于GPU实现无差别的硬件加速支持，最终比拼的还是架构与效率，而不是谁支持的软件更多一些。

第二章/第十八节呼之欲出：南方群岛全系列发售前瞻

根据国外网站消息，所有Radeon HD 7700/7800/7900详细规格和售价已经全面曝光，其中双芯的Radeon HD 7990售价高达849美元。

整体上由于采用了全新的设计架构，新的南方群岛显得性价比稍微偏低，不过在中低端市场AMD也拿出了只有139美元的Radeon HD 7750，另外AMD还将推出HD 6000系列的28nm版本，型号将被更改为HD 7000系列。

HD 7000系列显卡包括New Zealand、Tahiti、Pitcairn、Cape Verde的11款产品，型号分别为Radeon HD 7990(6GB)、Radeon HD 7970（3GB）、Radeon HD 7950（3GB）、Radeon HD 7950（1.5GB）、Radeon HD 7890（1.5GB）、Radeon HD 7870（2GB）、Radeon HD 7850（2GB）、Radeon HD 7850（1GB）、Radeon HD 7790（1GB）、Radeon HD 7770（1GB）、Radeon HD 7750（1GB）。

其中Radeon HD 7990(6GB)、Radeon HD 7970（3GB）、Radeon HD 7950（3GB）、（1.5GB）、Radeon HD 7890（1.5GB）采用了Tahiti GPU，拥有384Bit显存位宽。

接下来的Radeon HD 7870（2GB）、Radeon HD 7850（2GB）、Radeon HD 7850（1GB）基于Pitcairn GPU，都配备了256Bit显存位宽。而Radeon HD 7770（1GB）、Radeon HD 7750（1GB）则采用了Cape Verde GPU，只有128Bit的显存位宽。

除了刚刚发布的HD7970和1月26号发布的HD 7950（3GB），AMD将于2012年2月发布性能级别的Radeon HD 7870（2GB）、Radeon HD 7850（2GB）、Radeon HD 7770（1GB）、Radeon HD 7750（1GB）。

而重量级的Radeon HD 7990将在3月12日正式发布，同时发布的还有Radeon HD 7950（1.5GB）、Radeon HD 7850（1GB）版本。最后两款特殊的产品Radeon HD 7890（1.5GB）和Radeon HD 7790（1GB）分别基于Tahiti LE和Pitcairn LE，流处理器数量得到进一步缩减，上市日期将在2012年第二季度。

第三章南方群岛应用篇

第一节 DDM Audio 技术解析

HD5000系列的标准接口配置是双Dual-Link DVI、DisplayPort、HDMI，其中两个DL-DVI占据了4个显示通道，DP和HDMI各一个，这样就把Eyefinity的6个通道都用完了。

而HD7970的标准接口配置则是一个Dual-Link DVI、一个HDMI、两个Mini-DP。外观上是把一个Dual-Link DVI和DP替换成了两个Mini-DP，实际上是将原来的DL-DVI做成了一路mDP输出。样做的好处就是，一片显卡可以直接接驳任何类型的数字显示设备而不需要转接，另外让三路独立Audio输出成为可能。这就是传说中的DDM audio技术。

上一代显卡只能同时输出一路音频

独立数字多点音频(Discrete Digital Multi-Point Audio)，简称DDM Audio。以前的GPU只支持单独一条音频流，因此在同时使用三台集成音箱显示器的时候，只会有一个发声。

新一代显卡Radeon HD 7900则是第一款支持多频音频流同步独立输出的GPU，可以同时输出三路独立的数字音频。

每个音箱上都会有声音，而且可以完全不同，远程视频会议一卡搞定！

当然了，DDM Audio技术支持音频和视频的绑定和同步切换，所有音频和视频都是完全无缝同步的。一部正在播放的视频从一个显示端切换到另一个显示端，音频信号智能迁移而无需手动更改。

第三章/第二节南方群岛应用篇：EYEFINITY“2.0”解析

Eyefinity历史回顾：

－ 2009年9月，Eyefinity惊艳登场，震惊业内。

－ 2010年2月：催化剂10.2加入了交火系统对Eyefinity的支持。

－ 2010年3月：催化剂10.3支持边框补偿、显示器单独色彩调整、多屏分组、改进多屏配置切换。

－ 2010年4月：六屏版Radeon HD 5870 Eyefinity 6发布。

－ 2010年7月：催化剂10.7，交火系统支持垂直模式的Eyefinity，同时增强HydraVision。

－ 2011年4月：催化剂11.4，配置界面改版。

－ 2011年5月：催化剂11.5，HydraVision继续增强。

很显然，Eyefinity的进步是与催化剂驱动息息相关的，未来也是。

Eyefinity 2.0新特性：催化剂11.10就已经支持的有新的多屏布局配置、弹性的边框补偿、16K×16K超高清分辨率。

催化剂11.12和明年催化剂12.1/12.2将会陆续支持的则有：Eyefinity+HD3D多屏立体技术、自定义分辨率(等待太久了!)、预设管理改进、桌面和任务栏重新定位。

最后一项，之前三屏系统上桌面图标会停留在第一屏，任务栏则横跨三个屏幕，看起来很费劲，今后则会全部集中在中央屏幕上，就像单屏那样。

第三章/第三节南方群岛应用篇：HD3D技术解析

必须承认，NVIDIA是一家很有远见的公司，一年多前就研发成功的3D Vision立体显示技术，现在已经成为整个IT业界的发展趋势。但AMD的3D立体显示技术从HD6000开始也获得了长足的进步，而在HD7000上已经越来越成熟。

首先在硬件方面，只要能够支持120Hz刷新率的输出，就可以在PC上实现3D显示技术。而想要在平板电视和投影仪上实现3D输出、120Hz刷新率、1080p全高清的3D立体游戏，左右眼各有60Hz，都能达到60FPS的流畅帧率，就需要高带宽的HDMI 1.4a标准的支持，上一代显卡中HD6870/6850率先做到了，而HD7000更是不在话下。

DisplayPort 1.2 HBR2、HDMI 1.4a都有超高带宽，单个接口即可满足4K×4K分辨率输出，显示设备方面的支持不是问题，市面上主流的3D电视、投影仪，还有120Hz LCD或者双面板LCD都能支持ATI显卡，尤其是三星和LG都有多款型号早已上市。

支持AMD HD3D立体技术的游戏正在越来越多，现已超过600款，而且可以选择第三方的iZ3D、DDD或者原生的HD3D等不同方案，其中原生的有：《尘埃3》、《战地3》、《杀出重围3：人类革命》、《两个世界2》。

目前AMD的3D显示技术，无论效果、兼容性还是软件支持度方面，都丝毫不差于3D Vision。无论是对于3D游戏的立体化，还是2D视频的3D化，都得到了主流媒体播放器的支持，而且AMD的新一代UVD3引擎还能支持3D蓝光硬解码，可以说已经相当成熟了。

第三章/第四节南方群岛应用篇：AMD APP 加速并行技术

CUDA是NVIDIA显卡的一大卖点，它能够将GPU庞大的运算能力释放出来，对非3D游戏应用软件进行加速，实现比纯CPU运算更快的效能。CUDA目前虽然有很多种类的软件，但最主要的应用还是集中在视频编辑和转码方面。

Radeon HD 7900系列上的APP加速技术包括三个方面：独立的硬件高清视频加速引擎、增强的计算硬件和软件、基于AMD APP SDK开发包的应用生态系统。

AMD此番带来了新的高清编码技术“视频编码引擎”(VCE)，其核心功能是一个多流硬件H.264高清编码器，编码速度甚至超过1080p@60FPS的播放速度，而且支持完全固定、混合计算两种编码模式。

质量方面支持4:2:0色彩取样，针对游戏和视频场景变化做出优化，并且可以自行控制压缩质量。此外还支持音频视频复合，显存输入用于转码、视频会议，GPU显示引擎输入用于无线显示。

TotalMedia Theatre 5.2(简称TMT 5.2)，特别针对AMD技术优化，支持MVC编码硬件加速(蓝光3D节目)、MPEG-4 ASP UVD硬件加速解码、基于AMD APP SDK重新编写的OpenCL SimHD高清差值插件。

TMT 5.2还进行了新概念的重新设计，包括Alpha混合用户界面、本地与在线媒体管理、电影元数据搜索、DVD电影和视频片段智能菜单、2D-3D实时转换插件Sim3D等等。

WinZip 16.5，通过Corel、AMD的合作，针对A卡优化，现在可以利用OpenCL进行Deflate压缩、Inflate解压、AES加密的加速，并且能够同时利用处理器、集成/独立显卡的资源。官方宣称，APU使用集显或独显的测试证明，WinZip 16.5 AES加密的速度提升了两三倍。

AMD APP生态系统：浏览器与插件、消费级视频编辑、办公与地图、流行媒体播放器。

还有新的媒体处理指令SAD(绝对差值和)，这是多项关键视频与图像处理算法的关键操作，包括动态监测、姿态识别、食品与图像搜索、深度提取、计算机视觉等等。

Radeon HD 7900系列支持4×1 SAD、4×4 QSAD，每个时钟周期可处理最多64个像素，其中Radeon HD 7970每秒钟能处理18多万亿个像素。此外还有MQSAD，可以忽略背景像素、加速移动物体的隔离。

Steady Video技术也将进化为2.0版本，不过这里AMD只是介绍了基本原理，没有公开新特性，据说支持QSAD硬件加速、隔行模式视频、左右对比模式。

第三章/第五节 AMD再度领跑：DX11.1规范详解

一如其在DX10.1上的率先支持一样，HD 7970的发布也让AMD再一次在DX规格支持上获得领先。DX11.1，相比目前广泛应用的DX11规范，它的升级能带来什么样的技术改变，需要什么样的软件平台，什么时候才有支持DX11.1的游戏或者应用呢?

GCN架构图中明确指示说支持“下一代图形API”，也就是DX11.1了

●　DX11.1升级了什么?

　　从小数点后的步进来看，DX11.1只是一次版本上的小步快跑而非大步飞跃，所以不会有什么激动人心的功能变化，但是这不代表DX11.1没有亮点，相反DX11.1的看点还是挺多的。

　　1.加入3D立体支持

　　DX11发布后的这两年，DX图形技术没啥变化，但是伴随3D电影兴起的3D游戏也火了起来，体验过3D游戏之后大多数人都会觉得很震撼(也有人觉得很晕)，栩栩如生的感觉不再是“科幻”。DX11.1很重要的一点改进就是增加了D3D 3D API，可以让开发者通过D3D实现3D渲染。

微软提供通用3D立体显示支持可谓DX11.1众多新功能中最耀眼的一个了

　　之所以这么说是因为目前实现3D立体显示的技术要么是部分绕过D3D API而使用四倍缓冲器(Quad Buffer)实现3D游戏或应用，要么就是利用驱动/中间件实现的。在DX11.1中，3D渲染可以通过新增的D3D API实现，而且微软的D3D 3D API并非排他性的，依然支持其他驱动/中间件方案。换句话就是DX11.1之后，开发者多了一个实现3D的选择。

　　2.支持TBDR渲染

　　TBDR(Tile Based Deferred Render，延迟渲染贴图)也是DX11.1中新增的一个操作指令。它原本是Power VR公司使用的3D渲染技术，主要用在智能手机以及平板、游戏机等设备上。与传统z缓冲的渲染过程相比，TBDR不需要渲染不可见像素，这样极大地减少了数量运算量，非常适合移动设备使用。

　　这项技术对桌面图形计算来说并没有太大意义，只是DX11.1并不只会用在桌面显卡上，还承载着微软扩张移动领域疆土的希望，TBDR依然是DX11.1中的重要功能，低功耗设备的福音。

　　3.TIR目标独立光栅化

　　TIR(Target Independent Rasterization，目标独立光栅化)的功能要求有所不同，因为前面的两项技术只需升级DX11.1运行时程序即可，而TIR却需要更改硬件设计，因此只有新一代显卡才能支持，无法在原有显卡上直接升级。

　　Rasterization光栅化是图像处理的后期过程，DX11.1支持目标独立光栅化，可以将原本CPU负责的工作完全转移到GPU上，进而提高D2D的抗锯齿性能。

　　4.支持双精度浮点运算

　　双精度浮点运算(Double-precision shader functionality)或者叫FP64不仅在GPU计算上意义非凡，在图形渲染中也大有用武之地。虽然DX11中其实已经包含了FP64双精度支持，但是功能有限，DX11.1中才真正实用化。

　　5.图形与视频之间的操作性更灵活

　　DX11.1强化了图形、视频等各种资源之间的操作灵活性，比如计算渲染器(Compute Shader)可以通过Media Foundation处理视频(video)，并将以前的D3DDX9、D3DX10视频处理全部统一到D3DX11中去，可以简化编程，提高效率。

　　以上列举的只是DX11.1规范功能升级的一部分，在微软的MSDN页面上有详细的DX11.1功能介绍，不过里面的内容主要针对开发者/程序员，普通读者读起来肯定头大，我们也不需要搞这么复杂。

　　简单来说，DX11.1相对DX11只是一次优化升级，但是从DX10到DX10.1性能有提升的经验来看，DX11.1可能也有小小的惊喜，即便画质上没有提高，性能也会因效率的提高而受益多多。

● DX11.1什么时候发布，支持平台如何?

　　微软之前称DX11.1将伴随Win8一起发布，不过Win8开发者预览版上还是DX11，至少也要等到Win8 beta之后了，时间上差不多是明年2月份，最惨的就是要等待正式版发布了，这个就没准了。由于软硬件平台都没准备好，所以目前还没有一个基于DX11.1的游戏或者demo，不知道一向敢为人先的Unigine公司什么时候放出第一个DX11.1 demo。

DX11.1走向实用还要等Win8发布之后

　　综上来看，DX11.1只是显卡架构升级中的小甜点，不能当成大餐，不过甜点也有自己独特的味道，就看厂商如何应用了。AMD先发制人，又一次用行动证实了自己在支持DX11规范上的领先。

第四章首批参测 Radeon HD7970显卡一览

第一节蓝宝HD7970曝光

来自一线AIB大厂的——蓝宝旗下的一款HD7970产品，蓝宝作为最为A卡的优异品牌，多次在业内引领潮流，此次推出的Radeon HD 7970自然也不例外，下面就让我们一起来看看此款显卡。

蓝宝Radeon HD 7970，采用全新GCN架构的Tahiti XT核心，28nm工艺制程，32个CU单元(总计2048个流处理器)，128个纹理单元，支持DirectX 11.1API的图形显卡、理论性能相对HD6970提升了40%以上。

供电方面采用采用，公版的5+1相数字供电设计，全固态电容的用料为稳定性提供了保障。外接供电接口采用6pin+8pin设计，并且支持全新的eroCore Power”(核心零功耗技术)，使得待机功耗仅为3W。

显存方面则配备了12颗GDDR5高速显存颗粒组成384bit显存规格。默认核心显存频率为925MHz/5500MHz，由于是基于公版打造，此款显卡的超频能力不容忽视。

在散热方面依然采用的是，涡轮风扇+真空腔均热板的设计，全公版的外形配合7MM的涡轮风扇，在散热方面的表现也十分的出众。

在输出接口方面，蓝宝Radeon HD 7970提供了DVI+HDMI+双Mini Display Port的输出接口设计，通过转接头可满足大众用户的使用需要。其中，HDMI+Display Port双接口的加入，满足了用户组建Eyefinity多屏系统的需要

第四章/第二节首测显卡曝光：迪兰HD7970

作为一线的AIB厂商，迪兰也在第一时间为大家推出了一款Radeon HD 7970显卡。此款显卡采用纯公版设计，基于全新的架构、全新的PCI Express 3.0接口，以及3GB的海量GDDR5显存，384bit位宽，在性能上表现出色。

迪兰Radeon HD 7970基于公版制造，采用AMD最新28nm的Tahiti XT图形核心，拥有2048个流处理器，128个纹理单元和32个光栅单元，支持最新的AMD Eyefinity 2.0多屏技术，支持扩展扩展高达16K*16K分辨率显示输出，同时支持多种自定义排列位置。

在供电方面，采用6+2相数字供电设计，供电接口为6pin+8pin 。除此之外还支持AMD的ZeroCore Power”(核心零功耗技术)，待机功耗仅为3W。

迪兰Radeon HD 7970在显存方面，板载3GBGDDR5显存，位宽为384bit，核心与显存默认频率925/5500MHZ。

散热方面，采用了高端的热均板散热器，配合70MM涡轮风扇。

迪兰Radeon HD 7970在输出接口方面，采用了全屏蔽输出接口，2xDP+HDMI+D全接口输出，并且还支持多音轨输出、AMD Eyefinity 2.0多屏技术，全新PCI-Express 3.0接口也带来了速度方面质的提升。

第四章/第三节首测显卡曝光：镭风HD7970

强劲的Tahiti XT核心为镭风HD7970龙蜥版带来了质的提升。作为首款支持DirectX 11.1API的图形显卡，令游戏开发更简单，同时支持新的DirectX 驱动模型，WDDM 1.2 完美支持未来操作系统和新款游戏。

镭风HD7970 龙蜥版采用AMD最新28nm的Tahiti XT图形核心，拥有2048个流处理器，128个纹理单元和32个光栅单元，板载高达3GB的海量GDDR5显存，位宽为384bit，核心与显存默认频率925/5500MHz。

镭风HD7970 龙蜥版在供电方面，采用6相数字供电设计，其中的五相为显存部分供电，一相为核心供电。在用料方面使用的是，优异的URL固态电容，是普通电容寿命的一倍。

　　镭风HD 7970 龙蜥版采用了成本高昂的大面积热均板散热器，大量铝片在热均板上整齐排列，70MM涡轮风扇通过风压排除热量。

镭风HD7970 龙蜥版采用了全球最新28纳米核心。得益于全新的制造工艺，晶体管数在跃升至43.1亿，相对于HD 6970 的26.4亿提升了63%，核心面积并没有出现增长，相反还出现了些许的下降。

　　风HD7970 龙蜥版采用了全屏蔽输出接口，2xDP+HDMI+D全接口输出，赠送DP转DVI，HDMI转DVI原厂转接线各一条。支持最新的AMD Eyefinity 2.0多屏技术，支持扩展扩展高达16K*16K分辨率显示输出，同时支持多种自定义排列位置。

　　镭风HD 7970龙蜥版采用了PCI Express 3.0全新的接口。全新的带宽架构，相对于PCI Express 2.0规格，信号强度从5GT/s提升到了8GT/s,理论带宽从16 Gb/s提升至32Gb/s工程师采用了128b/130b编码方案，使PCI Express 所浪费带宽从20%下降至1.538%;主机板若有2个以上PCI-Express界面并搭配合适芯片晶片即可串联AMD显示卡使用Cross模式让多个GPU实现联合运算。

第四章/第四节首测显卡曝光：讯景HD7970

作为知名的A卡厂商，XFX讯景集团一口气为我们推出两款HD7970系列产品。其中FX-797A-TDB酷魂黑卡基于非公版打造，采用独创的高端散热系统，3D设计立体选材，全铝面盖尖端打磨，双静音悬浮风扇，加大型均热板，一体式浮雕托盘。

　　核心和显存部分，讯景FX-797A-TDB酷魂黑卡搭载全新GCN架构的Tahiti XT核心，28nm工艺制程，32个CU单元(总计2048个流处理器)。

　　在PCB设计和供电方面，讯景FX-797A-TDB酷魂黑卡延续讯景一贯的黑色PCB设计，配备两个交火接口最高支持3路交火，并搭配双bios切换按钮。5+1相数字分离式供电设计，全部采用高规格供电元件，配置6+8pin电源接口。

　　散热方面，讯景FX-797A-TDBC酷魂黑卡则搭载全新的酷魂散热系统，3D式散热设计，打磨全铝面盖，非公增大型真空均热板，大口径静音双风扇。另外它还配置了创新一体式浮雕托盘，在增强散热效能的同时加固PCB，让显卡运行更加稳定高效。

　　输出方面，讯景FX-797A-TDB酷魂黑卡提供了DVI+HDMI+双Mini Display Port的输出接口设计，通过转接头可满足大众用户的使用需要。输出接口处采用了“XFX”字样设计，可以将热量充分排出，达到了更好的散热效果。

第四章/第五节首测显卡曝光：讯景HD7970

除了非公版外，XFX讯景还推出了纯公版产品，讯景FX-797A-TNF上将就是一款基于公版打造的产品。

　　核心和显存部分，讯景FX-797A-TNF上将显卡搭载全新GCN架构的Tahiti XT核心，28nm工艺制程，32个CU单元(总计2048个流处理器)。

　　在PCB设计和供电方面，FX-797A-TNF上将显卡延续讯景一贯的黑色PCB设计，配备两个交火接口最高支持3路交火，并搭配双bios切换按钮;5+1相数字分离式供电设计，全部采用高规格供电元件，配置双6pin电源接口，完全能够满足HD6970的运转需求。

　　散热方面，FX-797A-TNF上将显卡搭载跟之前HD6970同样的涡轮风扇+真空腔均热板设计，有效的保证了显卡的散热需求。

显存方面则配备了12颗GDDR5高速显存颗粒组成384bit显存规格;FX-797A-TNF上将显卡默认核心显存频率为925MHz/5500MHz

　　输出方面，FX-797A-TNF上将显卡提供了DVI+HDMI+双Mini Display Port的输出接口设计，通过转接头可满足大众用户的使用需要。其中，HDMI+Display Port双接口的加入，满足了用户组建Eyefinity多屏系统的需要。

第四章/第六节首测显卡曝光：双敏HD7970

　　双敏，这个几乎是性价比代名词的品牌也是第一时间推出了自己的HD7900。

　　AMD HD7970显卡作为HD7900系列第一款发布产品，发布之时，双敏就在第一时间到货市场，产品命名无双 HD7970 DDR5 (3G)黄金版。面对如今高端缺货的市场尴尬，虽然前段时间双敏及时补充了一批优异显卡到市场，但仍无法抑制玩家对优异显卡的渴望，无双 HD7970 DDR5 (3G)黄金版的发布上市，正是优异玩家所迫切期望的。

　　相比HD6000系列产品，双敏无双 HD7970 DDR5 (3G)黄金版无论在工艺上还是在架构上，都做了明显的优化调整，使产品功耗更低的同时，晶体管和流处理器数量增加，使性能更加突出。

　　借助28nm工艺，双敏无双 HD7970 DDR5 (3G)黄金版图形芯片将晶体管数集成到了恐怖的43.1亿个，再创业界新高，如此恐怖的晶体管集成规模，已经数倍于当前的高端CPU处理器。

　　双敏无双 HD7970 DDR5 (3G)黄金版在架构上做了全新优化，采用全新GCN架构，虽然GCN架构仍属于AMD开发的第三代图形芯片架构，是HD6000系列“VLIW5”芯片架构的优化版本，但是其缩短了指令执行周期、提升了架构执行效率。同时借助28nm新晶体管蚀刻工艺，GCN微架构也可以在发热量上有显著降低，从而提升芯片运行效率。而且芯片运行频率也可以由此收益、获得提升，从而达成更强性能。

　　作为全新标准，PCI-E 3.0新标准将信号传输率提高到了8GT/s，两倍与PCI-E 2.0，同时增强了信号、数据完整性优化等，其中包括收发均等。PLL改进、时钟数据恢复、支持拓扑通道增强等等。新标准的改进，加速了硬件间数据传输，有效提升整体平台的性能。

　　在诸多革新中，双敏无双 HD7970 DDR5 (3G)黄金版核心改进还是用于3D游戏开发的Direct3D 11.1。全新的API DX11.1除了在原DX11的基础上改进自身细节外，加入了对目标独立光栅化的支持，这是HD5000/HD6000所不支持的。目前3D立体的实现要么绕过D3D，向游戏、应用软件呈现一个四缓冲，要么借助驱动程序、中间件，间接控制渲染过程。而DX11.1却可以让3D立体技术直接被D3D API所支持，从而成为一种通用标准，让游戏开发变得更加简单，图形解码更迅速。

　　此外，双敏为实现3D显示和多屏显示的便利化、经济化，随卡附送双敏“睿视3D宽域套件”，包括支持HDMI1.4数据线，详细的设置说明书和软件光盘，让你轻松知道如何组建自己的3D显示和三屏显示。而现在用户只需要购买双敏无双 HD7970 DDR5 (3G)黄金版，就能免费获得这套价值199元的“睿视3D宽域套件”。

　　双敏无双 HD7970 DDR5 (3G)黄金版依旧支持HDMI1.4，轻松实现3D电视，DisplayPort1.2接口，单卡多屏轻松组建，UVD3.0解码引擎，轻松惬意看3D蓝光，而其开创的显卡史上几个第一，28nm新工艺、GCN新架构、PCI-E 3.0新标准，以及新的API DX11.1。

第四章/第七节其他首发显卡曝光汇总展示

AMD终于正式发布了业界翘首期盼的新一代单卡旗舰产品——HD7970。作为AMD中国大陆地区的其他核心合作伙伴，第一时间也都纷纷推出自己的产品，限于篇幅这里不再详细评测，汇总展示如下。

华硕HD7970

盈通HD7970

微星HD7970

HIS HD7970

铭瑄HD7970

祺祥HD7970

昂达HD7970

第五章显卡性能全方位测试

第五章/第一节测试平台与测试方法说明

● 测试模式与测试方法：

此次发布的显卡定位高端游戏玩家，性能十分强劲，测试时所有游戏中开启全部特效，包4X抗锯齿（AA）和16X各向异性过滤（AF）。虽然很多游戏提供了更高精度的AA，但由于实用价值不高，且没有可对比性，所以不做测试。

为了做到全面客观，有对比和参考，分辨率测目前最主流的1920x1080，和更高阶的2560x1600。目前也有部分显示器是（1920x1200），游戏在这种分辨率下的性能表现与1920x1080差不多，FPS稍低一点点，使用这种显示器的朋友依然可以参考我们的测试成绩。

● 测试平台配置：

HD7970

此次测试平台选择了Intel最高端的六核心处理器，搭配最新的X79芯片组，与Radeon HD7970系列强强联手，定位旗舰卡皇之战。

AMD此次发布的新品HD7970，我们自然会拿它与自家上代产品HD6970和HD6990进行对比。至于N卡方面，则选择了单芯最强的GTX580进行对比，同时奉上HD7970超频和交火的成绩，总计六款显卡项目测试。

除了OC项目外，其他参测显卡都使用NVIDIA和AMD双方的公版规格和公版频率，这样测得的性能和功耗发热数据最有参考价值。

第五章/第二节 DX10基准测试：《3DMark Vantage》

软件介绍：做为目前最为权威的性能测试软件，3DMark Vantage在3D基准性能测试，可以全面准确的得出显卡的真实性能，所以在历次测试中都少不了它的加盟。3DMark Vantage所使用的全新引擎在DX10特效方面和《孤岛危机》不相上下，但3DMark不是游戏，它不用考虑场景运行流畅度的问题，因此Vantage在特效的使用方面比Crysis更加大胆，“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨。

旗舰显卡不是主角！来自次神460的救赎

画面设置：3DMark Vantage中直接内置了四种模式，分别为Extreme（旗舰级）、High（高端级）、Performance（性能级）和Entry（入门级），只有在这四种模式下才能跑出总分，如果自定义模式就只能得到子项目分数了。我们此次测试选择了Extreme（旗舰级）进行测试。

● 3DMark Vantage Extreme模式成绩：

DX10的标杆，兼顾DX9的性能，时至今日，Vantage作为老游戏的代言人，依然无法被替代。HD7970默认频率在本项目测试中超出GTX28.87%，而超频后更是超越了HD6990!

&nb

第五章/第三节 DX10游戏性能测试：《孤岛危机》

Crysis（孤岛危机）无疑是DX11出现之前对电脑配置要求最高的PC游戏大作。作为DX10游戏的标杆，Crysis的画面达到了当前PC系统所能承受的极限，超越了次世代平台和之前所有的PC游戏。Crysis还有个资料片Warhead，使用了相同的引擎。

旗舰显卡不是主角！来自次神460的救赎

画面设置：Crysis只有在最高的VeryHigh模式下才是DX10效果，但此前所有高端显卡都只能在低分辨率下才敢开启DX10模式，如今的DX11显卡终于有能力单卡特效全开流畅运行。为了让不同用户都能找到参考的成绩，我们测试了1920X1080和1680X1050两种分辨率+NOAA和4AA两种模式。

测试方法：Crysis内置了CPU和GPU两个测试程序，我们使用GPU测试程序，这个程序会自动切换地图内的全岛风景，我们跑两遍得到稳定的平均FPS值。

● 1920X1080分辨率性能测试

● 2560X1600分辨率性能测试

作为DX10的一朵奇葩，当年有显卡危机诨号的Crysis现在依然是显卡资源占用大户，尤其是开启2560分辨率以后资源要求惊人，HD7970也仅仅跑出32帧的平均速率，而上一代的HD6970和GTX580则难以流畅运行！

第五章/第四节 DX10.1游戏测试：《孤岛惊魂2》

游戏介绍：自《孤岛惊魂》系列的版权被UBI购买之后，该公司蒙特利尔分部就已经开始着手开发新作，本作不但开发工作从Crytek转交给UBI，而且游戏的故事背景也与前作毫无关系，游戏的图形和物理引擎由UBI方面完全重新制作。

画面设置：借助于蒙特利尔工作室开发的全新引擎，游戏中将表现出即时的天气与空气效果，所有物体也都因为全新的物理引擎，而显得更加真实。你甚至可以在游戏中看到一处火焰逐渐蔓延，从而将整个草场烧光！而且首次对DX10.1提供支持，虽然我们很难看到。

测试方法：游戏自带Benchmark工具。

● 1920X1080分辨率性能测试

HD7970

● 2560X1600分辨率性能测试

HD7970

Farcry2在本次测试中完全沦为打酱油，因为所有显卡都毫无压力。

第五章/第五节 DX11基准测试：《3DMark11》

时至今日，依然没有任何一个测试软件或者游戏能够取代3DMark在游戏玩家心目中的地位。但是到了《3DMark11》，因为A/N显卡测测试成绩和游戏成绩有不小出入，质疑之声四起。

3DMark11权威测试！22款DX11显卡排行

显卡决战3DMark11

3DMark11的测试重点是实时利用DX11 API更新和渲染复杂的游戏世界，通过六个不同测试环节得到一个综合评分，藉此评判一套PC系统的基准性能水平。

● 3DMark 11的特色与亮点：

1、原生支持DirectX 11：基于原生DX11引擎，全面使用DX11 API的所有新特性，包括曲面细分、计算着色器、多线程。

2、原生支持64bit，保留32bit：原生64位编译程序，独立的32位、64位可执行文件，并支持兼容模式。

3、全新测试场景：总计六个测试场景，包括四个图形测试（其实是两个场景）、一个物理测试、一个综合测试，全面衡量GPU、CPU性能。

4、抛弃PhysX，使用Bullet物理引擎：抛弃封闭的NVIDIA PhysX而改用开源的Bullet专业物理库，支持碰撞检测、刚体、软体，根据ZLib授权协议而免费使用。

● 3DMark 11 Extreme模式成绩：

真正的DX11性能标杆无疑还是非3Dmark11莫属，93%以上的交火效率也是非常可观。大量特效堆砌出来的以假乱真的画面让HD7970 CF也不能完全流畅运行它，只能说本项目的测试可以真实的反应显卡的真正实力。

第五章/第六节 DX11游戏性能测试：《尘埃3》

赛车游戏中，轰鸣的发动机声、风驰电掣的急速快感，足以让无数玩家肾上腺素飙升。也许正是如此，才使得《科林麦克雷:尘埃3》在众多游戏中备受玩家青睐。

　　《尘埃3》采用与《F1 2010》同样的Ego引擎，拥有更加拟真的天气系统及画面效果。游戏将包含冰雪场景、动态天气、YouTube上传、经典的赛车、分屏对战、party模式、开放世界、更多真实世界中的赞助商和车手等特点。

相比首款DX11游戏的《尘埃2》，《尘埃3》在诸多DX11游戏特效的力助下，游戏画质表现更加出色。无论是日出还是日落，下雨还是干燥，看上去都非常逼真。背景的烟花和观众让游戏代入感非常强。车身会随着比赛的进行染上泥土或者雪，一辆崭新的赛车或许会在比赛完成之后，变成一辆被泥土覆盖的“垃圾车”。

　　图像方面，《尘埃3》是该系列至今为止最漂亮的一款。《尘埃3》中的驾驶感相当不错，6种调整选项也足以应付各种地形。而且，在芬兰、密歇根、挪威、洛杉矶、肯尼亚和摩纳哥驾驶赛车狂飙真的是一种享受。赛车会对相当细微的操作做出回应，在雪地或泥地中，这一点尤其重要。而当你的对手把雪花和泥浆弹到你的挡风玻璃上时，你只能依靠自己的直觉和细微的操作不至于翻车。而游戏中，雪花、雨滴和夜晚驾驶不仅仅是外在的装饰而已，和现实生活一样，你需要各种赛车配件来应对这些情况。

● 1920X1080分辨率性能测试

● 2560X1600分辨率性能测试

依然是HD7970的showtime，OC灭到HD6990，而HD6970和GTX580只有在后面吃灰的份了……

第五章/第七节 DX11游戏性能测试：《战地3》

　　由EA DICE工作室开发的《战地3》采用了最新的“寒霜2”引擎，完美支持DirectX 11，并且拥有强大的物理效果，最大的亮点还是光照系统，其渲染的场景已近乎乱真的地步，视觉效果堪称绝赞。游戏还支持即时昼夜系统，为玩家营造一个亲临现场的真实环境。

索泰2GB显卡测试

寒霜2引擎最大的特点便是支持大规模的破坏效果。由于考虑到游戏的画面表现以及开发成本，DICE放弃了以只支持DX9的WINDOWS XP操作系统。另外由于该引擎基于DX11研发，向下兼容DX10，因而游戏只能运行于WINDOWS VISTA以上的的操作系统。

在《战地3》中，“寒霜引擎2”内置的破坏系统已经被提升至3.0版本，对于本作中的一些高层建筑来说，新版的破坏系统将发挥出电影《2012》那般的灾难效果，突如其来的建筑倒塌将震撼每一位玩家的眼球。

　　《战地3》采用了ANT引擎制作人物的动作效果。在此之前，ANT引擎已在EA Sports旗下的《FIFA》等游戏中得到应用，不过在FPS游戏中使用尚属首次。相较于Havok等物理引擎，用ANT引擎可以花费较少的精力制作出逼真的效果。举例来说，战士在下蹲时会先低头俯身、放低枪口，而不是像以前的游戏那样头、身、枪如木偶般同时发生位移。此外，ANT引擎也可以让电脑AI的行动更加合理。但这款大作目前并不能良好的兼容120Hz3D以及红蓝3D模式。

● 1920X1080分辨率性能测试

● 2560X1600分辨率性能测试

寒霜2引擎年度大作战地三，是为数不多的画面可以挑战Crysis的游戏大作，而对核心和显存的要求已经超越了Crysis！

第五章/第八节 DX11游戏性能测试：《AVP》

AVP原始版本并不支持AA，但升级至1.1版本之后，MSAA选项出现在了DX11增强特效当中，当然还支持Tessellation、HDAO、DirectCompute等DX11招牌特效，游戏画面相当出色。

游戏介绍：《Aliens vs. Predator》同时登陆PC、X360和PS3，其中PC版因为支持DX11里的细分曲面(Tessellation)、高清环境光遮蔽(HDAO)、计算着色器后期处理、真实阴影等技术而备受关注，是AMD大力推行的游戏之一，但是这样的主题难免让本作有很多不和谐的地方，暴力血腥场面必然不会少！发行商世嘉在2009年11月就曾明志，表示不会为了通过审查而放弃电子娱乐产品发行商的责任，因为游戏要维持“异形大战铁血战士”这一中心主题，无论画面、玩法还是故事线都不能偏离原著。

测试方法：游戏带Benchmark，其中测试画面颇代表意义，很好的体现了Tessellation异形身体以及HDAO等高级特效，希望这些特效能让系统发挥所有潜力。

● 1920X1080分辨率性能测试

● 2560X1600分辨率性能测试

抛开游戏娱乐性不谈，这款应用了不少DX11特效的作品画面还是可圈可点的，当然也是非常吃显卡资源。开启全部特效以后HD6970力不从心，其他显卡顺利过关。

第五章/第九节 DX11游戏性能测试：《地铁 2033》

游戏介绍：《地铁2033》(Metro 2033)是俄罗斯工作室4A Games开发的一款新作，也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine，支持当今几乎所有画质技术，比如高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。

开启景深，模拟镜头感

画面设置：《地铁2033》虽然支持PhysX，但对CPU软件加速支持的也很好，因此使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏由于加入了太多的尖端技术导致要求非常BT，以至于我们都不敢开启抗锯齿进行测试，只是将游戏内置的效果调至最高。游戏自带Benchmark，这段画战斗场景并不是很宏大，但已经让高端显卡不堪重负了。

测试说明：如果说是CRYSIS发动了DX10时代的显卡危机，那地铁2033无疑是DX11时代的显卡杀手！地铁2033几乎支持当时可以采用的所有新技术，在画面雕琢上大肆铺张，全然不顾显卡们的感受，和CRYSIS如出一辙。然而CRYSIS靠着特效的堆积和不错的优化，其惊艳绝伦的画面和DX9C游戏拉开了距离，终究赚足了眼球；而地铁则没有这么好运了，画面固然不差，BUG却是很多，招来了大量的非议。

抛开游戏性不讲，这款DX11作品作为测试3D性能的工具还是很有价值的，我们考虑到能玩这款游戏的玩家至少拥有1080P的屏幕，所以放弃了1680X1050的测试。而开启DOF景深效果对显卡负载太大，同样放弃。

● 1920X1080分辨率性能测试

● 2560X1600分辨率性能测试

地铁2033，一款销量惨淡，游戏性被人遗忘但却家喻户晓的游戏，怀疑开发小组成员是从3Dmark小组中跳槽过来的人士，抑或是N年以后穿越来到现在的代码？总之和目前显卡不甚相容，DX11游戏中的奇葩。

第五章/第十节 DX11游戏性能测试：《孤岛危机2》

《孤岛危机2》是《孤岛危机》的续作，游戏采CryENGINE 3引擎所制作。在游戏内容上与一代也有很大变化，已经从秘密的丛林作战转向了公开、大规模的现城市战争。故事发生在距一代3年后的2023年。外星人在地球上的大片区域挑起了战争，各大城市都遭到攻击，人口锐减，玩家将要进行捍卫地球的末日战争。

CE3拥有不逊于CE2的画面表现，并且带来了诸多的新特性和强大的SandBox3编辑器，同时新引擎也能适应目前的PS3/XBOX360家用机平台，带来家用机上的高水准发挥，同时代表作Crysis2将登陆PC/XBOX360/PS3平台，引擎支持DirectX9/DirectX10/DirectX11,DX11版本仅PC,且要下载补丁。由于是一款NVIDIA的THE WAY游戏,所以此游戏DX11版本优化了N卡。

● 1920X1080分辨率性能测试

● 2560X1600分辨率性能测试

打上高级纹理补丁，Crysis2的显存占用非常惊人，而本作中OC对成绩提高不太明显，双卡CF效率却是非常之高。

第六章/第一节曲面细分专项测试：《石巨人》

在另一款标杆性DX11游戏《Stone Giant》中，通过曲面细分+置换贴图达到了的画质提升同样非常显著，整个场景的细节程度获得大幅加强，让画面更加逼真。

游戏介绍：游戏引擎开发商BitSquid与游戏开发商Fatshark近日联合公布了一个展示DX11强大技术的DEMO。这个名为《StoneGiant》（石巨人）的DEMO，可以让玩家来测试自己PC显卡的DX11性能。BitSquid Tech即将提供PC平台的引擎，并且大概在今年第三季度将提供PS3和Xbox 360等其他平台的引擎。

置换贴图由于需要大量的顶点去进行位移，所以需要模型具备足够数量的多边形，而曲面细分做的事情也正是如此，这也就成为了它提升画面质量的第二重作用。

画面设置：StoneGiant是一款重量级的DX11测试软件，之所以这么说是因为它大量使用了DX11的招牌特效：曲面细分和景深特效，可以让显卡的DX11性能表露无遗。进入之后可以选择开启关闭Tessellation以及DOF（DX11级别景深）进行测试，这两项技术都十分消耗资源，尤其是同时打开时。其中Tessellation技术对画质的改善最为明显，测试时默认开启Tessellation、打开DOF进行测试。

● 1920X1080分辨率性能测试

● 2560X1600分辨率性能测试

石巨人是一款比较偏重tessellation曲面细分和DOF景深效果的DX11性能测试软件，A卡的“压力”依然很大。虽然AMD官方声称HD7970曲面细分性能是HD6970的四倍，是HD5870的12倍（换算得来），但本项测试中GTX580还是捞到了些许优势。

第六章/第二节曲面细分专项测试：《Heaven 2.5》

Tessellation如此重要，所以首款DX11测试程序——Heaven Benchmark中，几乎所有的场景都是由Tessellation技术动态生成的，地图中央的飞龙，和周围凹凸不平的砖墙、石阶和瓦片给人留下了深刻的印象。

Unigine Engine率先发布了首款DX11测试/演示程序——Heaven Benchmark，其中大量运用了DX11新增的技术和指令，在DMark11面世之前，Heaven曾经是DX11性能测试的非常好的选择。

Heaven Benchmark2.5的Tessellation效果

在这幅图中，大家注意观察左侧的墙壁（以及凸出石块的阴影）、右侧的台阶和下方的鹅卵石路，Tessellation技术生成的是实实在在的顶点和曲面，所有的岩石、台阶和石块都是独立存在，而不再是平面上的虚拟贴图而已。

画面设置：2.5版本进一步强化了Tessellation技术的应用，细分精度更高，画面更上一层楼。

● 1920X1080分辨率性能测试

● 2560X1600分辨率性能测试

HD7970脱胎换骨全测试!5年架构大革命

相比石巨人，天堂的Tessellation程度更加变态，其实曲面细分太高以后一些模型失真度过高、性能损失也大，实际游戏中使用效果并不好，但我们为了测试显卡的Tessellation性能，还是特意将它开到最高的Extreme。果然，在这个项目中HD7970代表A卡终于扬眉吐气了一回！

第六章/第三节 PhysX特效专项测试：《BatmanAC》

在经历了两年前阿卡姆疯人院带来的震撼后，Rocksteady终于在今年年底带来了蝙蝠侠的续作——阿卡姆之城。这款游戏也在上市之初让我们见识出了正统版权的威力，有华纳兄弟的赞助与发行，完全再现电影和小说中的原著桥段不再是梦，100%的高还原度让玩家犹如身临其境，再现了一个荧幕上真实的蝙蝠侠或许也是这部游戏的成功所在。

《蝙蝠侠：阿卡姆之城》仍然建立在《阿卡姆疯人院》的气氛上，不过这次上升至阿甘之城——高谭市内戒备森严的，关押了大量暴徒的监狱之中。而且新作还汇集了众多明星参与的配音阵容以及蝙蝠侠中的极度凶残的恶棍，并改进和加强了一游戏特点，让玩家们拥有像《蝙蝠侠前传2：黑暗骑士》一般的终极游戏体验。

阿卡姆之城的画面，绝对是当今次时代游戏中数一数二的，但是其开发引擎却依旧是虚幻3，这着实让许多玩家感叹，到底虚幻3引擎还有多大潜力可以发挥。虽然虚幻3引擎目前来看最大的问题就是画面普遍油腻感十足，但是在阿卡姆之城中，少许的油腻感却成了点睛之笔，让蝙蝠侠更加贴近漫画、电影。

除了虚幻3的引擎外，蝙蝠侠从上一代作品中就加入了NVIDIA的PhysX物理加速引擎。在游戏的细节中，更加贴近真实效果，烟雾、灯光、人物的衣服、报纸等等细节全部通过PhysX物理引擎计算，游戏中的破碎、打击效果随之表现的也不在那么匪夷所思。但是，凡事都有两面，真实的受力表现换来的则是大量的资源占用，这也使得蝙蝠侠这个虚幻3引擎的游戏一下成为了硬件杀手，如果达到非常好的游戏表现，恐怕非GTX580这样的旗舰单卡莫属了。

● 1920X1080分辨率、PhysX high性能测试

● 1920X1080分辨率、PhysX off性能测试

● 2560X1600分辨率、PhysX high性能测试

● 2560X1600分辨率、PhysX off性能测试

PhysX的确是个好技术，可惜支持PhysX的游戏大作目前真没几款能拿得出手，Batman系列算是凤毛麟角。虽然这样，我们还是详细的测试了这款争议游戏，以获悉HD7970和GTX580的性能差距。

测试结果倒是出人意料，有了6核12线程的3960X加盟，HD7970在2560 Physx higt模式下居然力压GTX580！

第六章/第四节

● 《文明5》纹理压缩

HD7970

得益于全新的GCN架构，图形计算性能相对VLIM5和VLIW5提升非常大，在《文明5》纹理压缩对比中性能领先Radeon HD 6970多达58%，对比GeForce GTX 580也领先了12%。

● SmallLuxGPU光线追踪

HD7970

在SmallLuxGPU光线追踪测试下，Radeon HD 7970表现更加惊人，对比Radeon HD 6970、GeForce GTX 580分别高出74%、72.5%，仅比Radeon HD 6990慢了9%。

第六章/第五节

● DX11 SDK CS流体模拟

HD7970

由于网格搜索测试基于CUDA而开发，NVIDIA显卡占有绝对的优势，即使是Radeon HD 7970相对Radeon HD 6970提升了47%，依然和GTX 580有不小的差距。

● 蒙特卡罗算法

蒙特卡罗算法基于OpenCL，测试结果为模拟400步执行所需的时间。这是Radeon HD 500系列以来A卡的长项，Radeon HD 7970又进一步比Radeon HD 6970提升了14％，明显领先。Radeon HD 6900系列其实还要比Radeon HD 5800系列稍慢一些，可能是VLIW4架构的缘故。

第六章/第六节

● AES加/解密

HD7970

在AES加/解密表现中，Radeon HD 7970虽然相对上代Radeon HD 6970领先71%，不过依然不敌GTX 580。

总体来说采用了GCN架构的Radeon HD 7970，在很多通用计算性能方面实现了质的飞跃，只是在一些NVIDIA优势项目上依然落败GTX 580，总体表现相当出色。

● 3DMark Vantage 像素纹理填充

HD7970

测试中使用3DMark Vantage来测量像素填充，通过利用ROP单元尽量混合更多的像素。理论上Tahiti XT可以在每个时钟周期完成32个色彩的处理，也就是说925MHz的Radeon HD 7970可以获得29.6Gpix/s的速率，不过任何架构并不是100%执行的，实际测试中Radeon HD 7970像素填充率为13.33Gpix/s。

如果按照理论计算（参照Radeon HD 7970），那么Radeon HD 6970为28.16Gpix/s，不过实际中Radeon HD 7970却领先Radeon HD 6970多达51%。虽然ROP的执行效率离100%差距甚远，不过相对Radeon HD 6970执行效率提升非常大，这大概也是AMD不在Tahiti XT上面继续增加ROP的目的吧！
<

第七章附加测试项目与成绩汇总

第一节附加测试：显卡功耗

我们的功耗测试方法是直接统计整套平台的总功耗，既简单、又直观。测试仪器为微型电力监测仪，它通过实时监控输入电源的电压和电流计算出当前的功率，这样得到的数值就是包括CPU、主板、内存、硬盘、显卡、电源以及线路损耗在内的主机总功率（不包括显示器）。

待机为windows7桌面下获得的最小值；满载是以1440X768模式运行Furmark时的最大值，Furmark能够让显卡稳定的以100%满负载模式运行，测得的功耗值比一般的游戏要高一些。

● 显卡空闲整机功耗测试（显示器除外）

HD7970

● 显卡满载整机功耗测试（显示器除外）

HD7970

HD7970待机功耗仅101W，远小于HD6990和GTX580，基本和集显功耗相当，可见AMD在空闲功耗控制方面有了突破性的技术进步。

满载功耗方面，HD7970控制的也是非常出色，即使超频以后性能飙升，功耗依然低于GTX580，表现非常完美。双卡CF以后CPU负载也略有上升，所以功耗增长不全是来自于第二块HD7970。

第七章/第二节成绩汇总：Radeon HD7970 PK GeForce GTX580

HD7970脱胎换骨全测试!5年架构大革命

AMD新君HD7970对比NVIDIA卡皇GTX580完全是压倒性的性能优势，在几乎所有的游戏中都保持较大的领先幅度，而在2560大分辨率的考验下，拥有3GB显存的HD7970优势更加明显，就算加权N卡优势项目，平均值依然领先GTX580 1.5GB 27.39%之多！只在Tessellation Benchmark和PhysX的部分测试中告负。

可能有些人会说，HD7970无论核心频率还是显存频率，都要比GTX580高不少，这样对比会否有失公允？如果您有这个疑虑的话，那么不妨看看表格最下方的功耗测试，无论是待机功耗还是满载功耗，HD7970比GTX580都要低一些。

这就意味着，A卡无论单位功耗下的性能、还是显卡整体性能，都已经完胜N卡了。

第七章/第三节成绩汇总：Radeon HD7970 PK Radeon HD6970

HD7970脱胎换骨全测试!5年架构大革命

上一代的AMD单芯卡皇HD6970无论规格还是架构，都无法和HD7970相提并论，因此性能表现也难以同日而语，HD7970整体性能领先HD6970 47.03%。

而且仔细看来，HD6970能跑出这个成绩也属侥幸了，主要是在一些对CPU要求很高的物理游戏或者对显卡要求相对低的游戏中，FPS达到极限，CPU成为瓶颈。否则会输的更惨！

总体来看，长江后浪推前浪，HD7970完全秒杀上一代的HD6970！虽然因为规格的大幅提升，满载功耗上升而来16.98%，但能耗比依然是大幅提升。当然这里并不是说HD6970废柴一条！HD7970价格定位本身也高出HD6970不少，HD6870依然有自己的用户定位和市场空间。

第七章/第四节 Radeon HD7970 PK Radeon HD6990

HD7970

遁世修行的HD6990双芯高人出马果然名不虚传，终于略挫HD7970的锐气。整体来看，HD6990相比HD7970优势还是比较明显的，除去BatMan2以外，平均领先15.84%。

但是为何要除去BatMan2？因为在BatMan2测试时，驱动和游戏版本并没有最完善版本，双芯并没有发挥作用，反而拖累了性能表现。如果加入BatMan2的成绩，HD6990领先幅度将大打折扣。

既然明知有Bug，为何还要放上成绩？小编这里其实想借机告诉想多GPU集联的朋友，近年来双芯显卡抑或双卡CF虽然效率出众，性能爆表，但并非完美。并不是所有游戏的不同版本都能兼容。存在即为合理，我们测试就不得不考虑到这种情况而加以说明。

第七章/第五节成绩汇总：Radeon HD7970 CrossFire交火效率

HD7970

可以看出，在几款要求十分苛刻的游戏当中，双HD7970交火系统相比单卡的性能提升高达90%以上，这说明AMD交火驱动已经做得非常完善了，而对于提升超过100%的天堂2.5来说也属正常。因为理论上交火性能是有可能突破100%的。

不过，在部分要求不高的老游戏、或者是CPU瓶颈效应比较严重的游戏中，双卡性能提升幅度并不明显。正是这些游戏拖累了交火的整体性能提升幅度。除去双卡性能失效的Batman2，平均提升幅度85.02%，相当强大！

第七章/第六节成绩汇总：Radeon HD7970 超频效能测试

HD7970

HD7970作为AMD定位旗舰的显卡，默认频率高达925/5500MHz。但28nm的工艺极限并不在此。和此前显卡测试不同，前面所有的效能测试中我们均特意加入了1125/6300MHz的成绩，原因有三：

1、Radeon HD7970 超频之后，性能表现非常稳定，在所有测试项目中均无花屏死机或者驱动停止响应的情况发生。

2、Radeon HD7970 超频1125/6300MHz，并不需要更改核心和显存电压，而功耗增加也非常少，基本可以忽略。

3、Radeon HD7970 超频至1125/6300MHz，相对于默认频率功耗增加非常小，基本可以忽略。

很显然GTX580已经不是HD7970的对手，因此我们不应该停留在单纯对比性能与价格这种初级阶段了，在本文的最后，我们来回顾和总结一下HD7970的几大特点。

● 非常先进的28nm工艺

GPU的制造是一项极为复杂的过程，GPU制造工艺的先进与否决定了GPU的性能优劣。事实上GPU的发展史也可以看作是制作工艺的发展史。更先进的制造工艺意味着更高的集成度，更高的性能。说制作工艺的改进是GPU发展带来最强大的源动力亦不为过。

● 最高的能源效率

工艺和架构的革新让Radeon HD7970拥有更低的能源利用效率，而这也是首次旗舰显卡拥有个位数的待机功耗。

● 最快的PCI-E速度

● 最新的DirectX API支持

Radeon HD7970是第一款支持Microsoft DirectX 11.1的显卡，新版API支持的诸多新特性是未来Win8中各项应用保持领先的前提。

● 更好的应用体验

在应用体验方面，南方群岛在上一代北方群岛的基础上更上层楼。更加先进的Eyefinity2.0和HD3D技术无疑让A卡用户有了更高端的视觉享受机会。

● 南方群岛向NVIDIA发出强有力的挑战

AMD曾经背负效率低下骂名的SIMD架构，在HD6000终于笑到了最后。凭借超大规模的流处理器、以及改进的双超线程分配处理器，HD6000的效率比起HD5000有了明显的提升。如果继续优化扩充的老路，28nm工艺、43亿个晶体管的HD7000性能飙升也是可以预期的。

反观NVIDIA架构想要扩充流处理器的话，需要耗费更多的晶体管，由此导致NVIDIA的GPU核心面积要比AMD同级别产品大不少，而大核心除了成本较高之外，还得面对良品率较低、功耗较大的负面影响。既然如此，为何AMD还要进行大规模的架构革新？

随着技术的发展，图形和计算的概念已经不再像以往分的那么清楚了，进入DX11时代时候，全新API新特性赋予GPU更多的任务和使命。“通用计算”这一专业术语越来越多的现于新闻、见诸报端。AMD作为全球领先的GPU制造厂商，为高性能计算做出了巨大的贡献，而这次AMD下定决定进行大规模的架构革新很大程度上也是为了这方面做出的考虑。

AMD能够在架构革新的同时，进一步降低功耗与发热，还能提升性能、增强功能实在难能可贵，而各方面都非常优秀的HD7970无疑让下一代NVIDIA旗舰的压力增加不少！而2012显卡市场注定不会寂寞！■<

0人已赞

HD7970脱胎换骨全测试!5年架构大革命

关注我们