性能与效率的飞跃:HD6970/50完全评测
泡泡网显卡频道12月16日 今天,AMD再一次更新了其高端显卡产品线,推出了两款面向高端市场的新单核心显卡——Radeon HD6970与Radeon HD6950。值得一提的是,今天距离AMD上一次更新产品线仅仅一个半月的时间,其产品推出陈新的速度非常罕见。
由于西方的购物季即将到来,NVIDIA和AMD近两个月都在高端市场上连续推出新产品。首先是10月份AMD发布了HD6870与HD6850,紧接着NVIDIA也在11月中旬推出了高端新旗舰GTX580。一周前,NVIDIA又推出了GTX570以弥补3000元以内市场的空白。今天,AMD又目的非常明确的推出了HD6950与HD6970这两款产品。
价格决定定位,HD6970的官方建议零售价为2999~3099 RMB,目标直指NVIDIA一周前刚刚发布的GTX570;而HD6950官方建议零售价格为2299~2399RMB,有意思的是在这个价位段上NVIDIA基本没有产品,所以从某种程度上来说HD6950不存在有实质性的竞争对手。
旗舰级市场,双核心的HD5970目前仍然是世界上最快的显卡。虽然其采用双核心设计,但价格却与NVIDIA目前最快的显卡GTX580保持一致。整体来看,AMD依旧在延续着“田忌赛马”的策略,并且仍然有着非常不错的效果。
首先我们来看一看HD6970与HD6950显卡的规格:
HD6970和HD6950都采用AMD最新的Cayman核心,基于台积电40纳米工艺,拥有26.4一个晶体管,晶体管数量相对于HD5870更高,比前一段时间发布的HD6800系列显卡就多多了。值得一提的是,两款产品都采用了2GB容量的GDDR5显存,显存位宽为256Bit。
核心内部,HD6970拥有1536个流处理器、96个纹理单元和32个ROPs,显存频率高达5.5GHz;较低规格的HD6950拥有1408个流处理器,88个纹理单元,ROPs单元也是32个,显存频率高达5GHz。
需要注意的是,由于HD6900系列显卡采用了全新的功耗控制方式,所以使用了 PowerTune 功耗来代替了之前的TDP热设计功耗。新的功耗控制方式更加能够有效的利用GPU的资源,同时也能达到节能的目的。这部分内容的详细信息我们将在后文进行介绍。
自从DX10时代以来,ATI在架构上就一直没有太大的变化,即使到了DX11时代的HD5000/HD6000系列产品上,其核心架构仍然延续了当年R600的设计。当然,虽然整体架构没有太大变化,但每一代产品都对细节进行了改进,以满足游戏对显卡性能越来越苛刻的需求。
HD6970/HD6950核心架构图
这一次发布的HD6900系列从整体架构上来说也没有什么变化,和之前的几代产品都差不多。不过在一些细节的改进上,采用 Cayman 核心的 HD6900可以说是改进最多的一款产品,最大的改进之一就是抛弃了沿用数年的VLIW5架构(俗称5D),而采用了VLIW4架构。
其实之前就有传闻HD6800系列就会采用VLIW4架构,但等到产品发布之后我们并没有看到有这样的改变。反而,HD6800系列产品在核心整体的规格方面还相对HD5000系列有一定程度的降低,所以HD6800系列产品也被称为“半代升级”产品,虽然架构上有很多细节的改进,但在部分传统游戏中的性能相反还不如HD5000系列的高端产品,最大的提升仅仅是DX11中的 Tesselation 执行效率。
我们始终没有想到AMD会将大量的改进应用到HD6900系列产品上来,因为按照AMD的风格,一旦产品有较大的改进,必然会对产品的总型号数字提升一个等级,比如HD4000到HD5000,HD5000到HD6000。然而,这次发布的HD6900虽然从型号上来说看起来像是HD6800系列的升级版,但在架构上的改进以及性能方面的提升都是巨大的,甚至可以说是空前的。
接下来,我们就先来看看HD6900系列改进最大的一项:VLIW4架构
全新的 VLIW4 线程处理器
为了让大家更加容易理解,我们首先来介绍一下之前(HD2000—HD6800)产品的线程处理器架构。在AMD进入DX10时代之后的所有产品中,流处理器都是最小的单位,再高一层的单位叫做线程处理器,更高一层的叫做 SIMD 阵列,接下来的一层已经可以被称为流处理器模块了,比如HD5000之后的高端显卡都采用了两组流处理器,可以被称为双核心。
HD6800核心架构图
前面我们已经说到,HD6900系列产品最大的改进是采用了全新的VLIW4线程处理器,很明显这个就是在线程处理器这一个层次上进行的改进。我们用下面的两张图来对比一下之前产品的线程处理器和 HD6900 的线程处理器有什么不同。
HD5870所采用的VLIW5结构图
上图是 RV870核心(HD5870)的线程处理器结构图,我们可以看到它主要分为三个部分:红色的流处理器(Stream Cores)、黄色的分歧执行单元(Branch Unit)以及白色的通用寄存器(General Purpose Registers)。
其中流处理器是在分歧执行单元的控制下处理数据流和条件运算,在通用寄存器中存取或输出数据,但并不存放指令。需要注意的是,上图中红色的流处理器一共有5个,也就是说一个线程处理器中有5个流处理器,包括一个个头比较“胖”的。这种设计就是我们之前一直所说的5D架构,也可以称为VLIW5。接下来我们来看HD6900的线程处理器结构。
HD6870/6950的VLIW4结构图
上图就是 HD6900 的线程处理器结构图,我们可以看到结构中红色的流处理器部分从之前的5个变成了4个,看起来像是少了一个比较“胖”的流处理器,这就是这里所说的VLIW4,即4D架构。虽然每个线程处理器内仅仅是少了一个流处理器,但这对于沿用多年5D架构来说,已经是重大的升级了。
VLIW4线程处理器的工作原理
之前产品所采用的 VLIW5 架构线程处理器中,5个超标量ALU每个都拥有不同的功能。而在HD6900系列产品上,所有的ALU都拥有同样的功能、同样的能力和同样的执行效率。它们在单位时钟内的处理能力分别如下图所示:
那么,很多人可能会问,之前执行超越指令的那个稍“胖”的ALU没有了,怎么办呢?很简单,由于改进的VLIW4架构中的每一个ALU都不再有具体的功能分别,所以它们可以以类似于通用计算的方式分配到所有的 ALU。
VLIW4架构线程处理器的好处
AMD官方对这个架构的改变是这样解释的:虽然在许多情况下VLIW5达到良好的利用,但是平均来说,我们不能让所有5个单元都处于忙碌状态。 3至4个单元处理忙碌状态较为典型。现在把单元数量从5降低到4,实际上提升了每渲染管线性能,同时它将我们的ALU/BW比值降低一点,因此它实际上比较接近典型应用的要求。
而事实上,4D架构还有更多的优势,比如非对称特性的VLIW5更难编译,借助VLIW4对称特色,编译器有一个更简单的工作方法,可以转化为更优的性能。还有可以提升每平方毫米核心面积的性能,或者降低核心面积。另外调度和寄存器管理还可以实现优化等等。
除了线程处理器架构从使用了多年的5D架构改成了4D架构之外,HD6900为了提升通用计算性能,还采用了异步分配。
AMD以往产品命令队列流程图
在AMD过去的产品中,虽然已经可以实现同一时间内运行多个内核,并且将任务分配到核心当中,但执行的时候必须由仲裁器和定序器来决定任务执行的先后顺序,比如高优先级的指令可以直接插队立即执行,而低优先级的指令可以被暂时存放在高速缓存之中,等待空闲时机再进行处理。
但在HD6900系列中,AMD对这个架构进行了改进,采用了异步分配的方式。也就是说可以将多个命令流在同一时间提交给核心,让它们立即执行。每一个内核都拥有独立的还行缓冲区和FIFO,所有的命令队列是独立的,异步的,具有不同的优先级。这允许多个应用程序乱序提交工作规程,并获得返回结果。另外,AMD还为每个提交的内核配置有独立的虚拟内存,包括完整的页表,因此,所有这些命令队列可以进入用户空间,并且都是通过完整的内存子系统和高速缓存获得保护。
除了异步分配之外,AMD还建造了2个新的DMA,它们可以双向地让PCIe带宽充分饱和。可以大幅度的提高GPU的来回吞吐量和系统内存读取速度,和上一代产品相比,带宽有效地翻倍。核心还采用多种方式进行改进,如直接读取本地数据缓存而完全绕过ALU,改进了提取操作的性能。另外整合着色器读取和优化整合产出的写入将提高着色器的I/O。
最后,HD6900还提升了双精度运算的执行效率,此前的产品中,双精度性能位单精度性能的1/5,而HD6900的双精度性能为单精度性能的1/4,已经超过了600GFlops。可以看出,AMD在HD6900 系列产品的通用计算性能方面也花了很大的功夫来进行改进。
渲染器后端升级
HD6900的后端渲染方面主要有三大改进,分别是“整合写入操作”、16位整数(unorm/snorm)操作速度提升2倍、32位浮点(单/双精度)操作速度提升2-4倍。显卡抗锯齿性能将得到进一步的提升。
自从AMD进入DX11时代以来,其低下的几何性能以及曲面细分(Tesselation)就成为了 NVIDIA 讽刺的对象,其实HD5000以及HD6000的几何性能并不差,但确实是竞争对手太强大了。为了获得更好的几何性能,NVIDIA也付出了巨大的代价,其首款DX11产品GTX480竟然比AMD的首款DX11产品HD5870晚了半年,那时候AMD的HD5000系列全线产品都快铺齐了,NVIDIA才迈入DX11时代。
NVIDIA的首款DX11显卡GTX480比HD5870晚了半年
当然,在这一件事情上,到底AMD和NVIDIA谁对谁错,用户们也都有自己的看法。AMD的粉丝自然喜欢AMD能够及时推出新产品,但NVIDIA的粉丝则认为它们更期待NVIDIA来颠覆这个世界。其实,两家的官方口径也很有意思,AMD认为在DX11游戏还没有完全普及的情况下,特别强大的几何性能(尤其是Tesselation)用处不大;而NVIDIA则说要保证用户的每一分钱投资都是值得的。
Tesselation效果
如果说AMD之前所谓的Tesselation性能用处不大的言辞还能够让玩家接受的话,那么现在再来这一套恐怕玩家真的不会买账了。在这短短一两年的时间里,DX11游戏如雨后春笋般一个接一个发布,现在伸出两个手掌数数,恐怕还得动用脚趾头。
最重要的是,即使玩家能够接受,恐怕AMD自己也不能接受。因为在大量的DX11游戏中,AMD由于Tesselation性能不佳和NVIDIA的显卡差距越来越大,尤其是NVIDIA发布GTX580之后,这样的差距更为明显。是时候来解决这个问题了!
其实,AMD早已经意识到了这个问题,在之前发布的HD6800系列显卡中,就已经从架构方面进行了改进,Ultra-Treaded Dispatch Processor(超线程分配处理器)从HD5870的一个变成了两个,相对应的,超线程分配处理器的指令缓存也变成了两份。
HD6870/HD6850预图形装配引擎结构图
然而,这样的改进性能提升幅度仍然不够,下面就我们来看看HD6900是如何从核心架构上提升几何性能的。
前面我们已经说到,AMD在HD6800上对核心架构进行了改进,主要是采用了两个超线程分配处理器,但整个Graphics Engine(图形装配引擎)仍然只有一个,其中的Tessellator(镶嵌器)、Vertex Assembler(顶点装配器)、Geometry Assembler(几何装配器)都只有一个。其中的Rasterizer(光栅器)和Hierarchial-Z(多级Z缓冲模块)在HD5800时代就已经是两个了。
很显然,如果不进行架构的重新设计,那么仅仅靠小修改已经很难提升几何性能。所以,HD6900在这一部分采用了完全不同的设计,设计理念很简单——全部乘以2。
HD6970/HD6950图形装配引擎结构图
上图就是HD6900的Graphics Engine(图形装配引擎)部分,我们可以看到在这款产品中 Graphics Engine(图形装配引擎) 已经从HD5800—HD6800的一个升级成了两个,相对应的 Tessellator(镶嵌器)、Vertex Assembler(顶点装配器)、Geometry Assembler(几何装配器)也都升级成了两个。
改进的架构将会给HD6900带来巨大的性能提升,根据AMD的官方资料,主要性能提升点如下:
单位时钟内可处理两个图形基元:
-两倍的转换和隐面消除速度;
-平衡基于图块的曲面细分负载;
两个第八代曲面细分单元:
-片下缓冲区性能提升,支持更高级别的曲面细分;
-曲面细分性能最高可达HD5870的三倍;
两个光栅器:
-单位时钟内最高可输出32个光栅化像素;
可以说,以上的每一项提升都可以给游戏玩家带来直观的流畅感受,其中最让人兴奋的莫过于最高3倍于HD5870的曲面细分性能了,但到底真的是否能达到这个性能,我们后面的测试将会对其进行验证,不过AMD官方给出了一页资料:
从AMD官方给出的这个数据中我们可以看到,在几大热门的DX11游戏中,除了《天堂》(其实不算游戏)提升幅度达到69%以外,其余游戏的性能提升都大概在30-45%之间,看来也并不是特别理想,而且这是AMD官方提供的数据,所以只能用作参考。
但不管怎样,在现有的整体架构不变的情况下,HD6900系列已经对这个架构最大化利用了,双图形装配引擎必定会带来明显的性能提升,这也是AMD在几何性能以及曲面细分方面的重大改进。具体效果如何,请看后文的评测数据。
在HD6800系列显卡发布的时候,AMD给我们带来了MLAA(形态抗锯齿)功能,和传统的多重采样抗锯齿(MSAA)和超级采样抗锯齿(SSAA)不同,形态抗锯齿属于一种后期处理效果,是在渲染阶段全部完成之后才应用于输出图像的。简单地说,就是首先让显卡正常渲染每一帧,然后再借助DirectCompute硬件加速技术,进行一次着色器处理来执行过滤。打个比方,MLAA就像是在Adobe Photoshop里对一张图片使用某种特殊滤镜。
这样一来,MLAA的应用范围就要比MSAA、SSAA等广泛得多,比如全面支持DX9/10/11级别游戏,无需游戏专门优化;可提供全屏抗锯齿,而不限于多边形边缘、Alpha测试表面;能用来消除静态图像的锯齿,当然在动态画面上效果优秀。最重要的是,它还可以与之前任意一种抗锯齿方法并用,因为它完全是在渲染后进行处理的,和之前的抗锯齿并不冲突。
让我们没有想到的是,AMD在HD6900系列显卡中又给我们带来了一种新的抗锯齿技术——增强质量抗锯齿(EQAA),这种抗锯齿技术的目的依然是提升抗锯齿的效能。其原理也很简单:
如上图所示,在传统的MSAA(多重采样抗锯齿)当中,颜色样本和覆盖样本的数量以及坐标都是一样的,从画质上来说确实非常优秀,但执行效率不佳,尤其是在开启高倍抗锯齿的环境下运行一些大型游戏时,性能下降幅度非常明显。而最新的增强质量抗锯齿(EQAA)其实是再次寻求性能与画质平衡的一种做法,即在原有的MSAA基础上提供两倍的覆盖样本以提升画质,而保持颜色样本数量不变。
但是,这种抗锯齿技术的画质确实不如MSAA,属于一种有损抗锯齿技术。打个比方,之前4x的MSAA的效果现在只需要2x的EQAA就可以实现近似的效果(注意是近似),但对显存的消耗却和2xMSAA一样,因为你只需要存储两个颜色样本就可以了。
其实从另一个角度来说,EQAA也可以说是MSAA的“改进版本”,因为它让MSAA在每一个像素内的覆盖样本可以高达16个(颜色样本仍然是8个)。而且,EQAA还可以单独对颜色样本以及覆盖样本数量进行控制,并且可以让用户指定过滤器。总之,EQAA就是一种可以让你使用较低的内存获取更高画质的一种抗锯齿技术。
从AMD官方提供的数据中我们可以看到,开启和关闭EQAA之间的性能差距非常小,甚至可以忽略不计。从这一点上,EQAA在很大程度上都足以挑战NVIDIA引以为豪的CSAA了,我们期待HD6900及以后显卡在AA效能上的表现。
除了前面的改进之外,AMD还从HD6900系列显卡开始加入了全新的电源/功耗控制功能。新的功耗控制允许用户对显卡的功耗进行控制,并且实现在指定的功耗水平上获取最大的性能。
这是一个非常有意思的功能。大家知道,几乎所有比较耗电的电脑配件都有一个叫做TDP的参数,全称为“Thermal Design Power”,翻译成中文叫做“热设计功耗",但这个参数仅仅反应的是显卡在极端工作环境下的最大功耗,并不能代表在平时游戏中应用中的功耗。
在典型的游戏和3D应用中,虽然说GPU的功耗变化非常频繁,但很少有达到真正的满负载,也就是说很少有上升到热设计功耗的峰值。但是,在这个过程中功耗虽然一直在变化,但频率不会有变化,功耗的变化仅仅是随着应用程序对GPU不同的负载而产生的变化,这就出现了一个问题——
在游戏过程中GPU负载较低的情况下,游戏其实并没有获得最大的性能,因为显卡的频率并没有变化(甚至可能变低),这个概念听起来有点抽象,或者说有点拗口。为了便于大家理解,笔者徒手画了下面的这个示意图:
上图中,x轴表示时间,y轴表示功耗,而曲线表示显卡在一段时间内的功耗变化情况(和在典型游戏应用中的情况类似),大家可以看到我截取了两个功耗消耗最低的时间点T1和T2。在这两个时间点上,功耗消耗较低,同时也反应显卡的负载也较低,但显卡的频率仍然是不变的。
而PowerTune的作用就是,在功耗消耗较低的情况下,自动提升显卡的频率,以提升性能。打个比方,GPU核心的频率原本为500MHz,在T1或者T2的时候(显卡有一个硬件模块专门以时钟周期为单位监控功耗),PowerTuner技术会使其频率自动提升至600MHz,这样就可以有效的保证在应用程序对GPU负载较低的时候,也能以高频率换来更高的性能。
前面所说的这种以功耗为准的性能获取办法虽然很新颖且很有意思,但对于普通用户来说,我们平时完全没有必要以显卡的最大功耗(这里可以理解为TDP)为准,因为显卡如果长期在热设计功耗状态下运行,对显卡的寿命难免会有损害,而且发热量、噪音也都会长期保持在很高的水平上。
为此,AMD给了用户一个可以自己定义功耗标准的方案,即通过驱动程序的催化剂控制中心面板对功耗标准进行设定。
在驱动程序中,用户可以自己在显卡默认功耗限制下最高提高/降低20%的功耗限制,如果你运行的应用程序对功耗要求比较高的话,可以将划块往右拖动,降低显卡对功耗的限制(增加可用最大功耗),反之亦然。
不过,催化剂控制中心对功耗还是有所限制的,NVIDIA在GTX580以及GTX570显卡上也采用了类似的做法,且NVIDIA似乎限制更加严格一些。但是AMD表示HD6900的功耗调节功能也可以通过超频工具来调节,预计很快就会有第三方超频工具推出突破功耗限制的工具。
不得不说,这种对GPU性能利用的理念是超前的,平时我们往往都是以超频来获得更好的游戏性能;而在HD6900显卡上,你可以"超功耗"来获得更好的性能。
上面我们都只说了如何“提高性能”,但实际上HD6900这个功耗控制设计还有“降低功耗”的作用。如果你平时运行的都是一些不会浪费太多功耗的应用,那么你完全可以在催化剂控制面板中将最大功耗值下降到最低,以达到节能、降温的目的。
AMD豪华的公版产品
默认频率高达880/5500MHz的显存与核心,核心代号为Cayman,显存来自Hynix
强大的恒温版结构散热器,底座采用全铜设计,涡轮式散热风扇
供电部分全部采用数字供电系统,用料极度奢华
豪华的公版HD6950显卡
核心仍然是Cayman核心,但流处理器数量比HD6970少,显存仍然是Hynix的GDDR5颗粒
散热器和HD6970的一样,都是采用真空腔恒温板散热技术,纯铜底座、涡轮风扇
供电部分依旧采用了数字供电,不过外接供电接口从HD6970的8+6Pin变成了双6Pin
● XFX讯景 Radeon HD6970
完全采用非公版方案
显卡输出接口处有XFX LOGO的散热窗
● XFX讯景 Radeon HD6950
完全采用非公版方案的HD6950
输出接口部分同样有散热窗
显卡、包装一览
● 迪兰恒进Radeon HD6970
迪兰恒进的HD6970与HD6950也全部采用公版方案,给用户提供了Mini-DP转标准版DisplayPort转接头,为用户考虑的非常周到。
● 镭风Radeon HD6970
● 镭风Radeon HD6950
镭风出货的HD6970与HD6950也同样都采用AMD参考板型,也就是说和公版产品完全一样。
● 蓝宝
蓝宝 Radeon HD6970
蓝宝 Radeon HD6950
● 华硕
ASUS Radeon HD6970
ASUS Radeon HD6950
● 微星
微星Radeon HD6970
微星Radeon HD6950
由于本次测试的主体以及参加测试的对比显卡都是目前的高端产品,为了尽量避免处理器和内存出现性能瓶颈,本次测试采用了目前非常优异的i7 965处理器搭配6GB内存,主板采用了当前最豪华的华硕玩家国度X58。测试显示器为DELL 3007 30吋液晶显示器,并分别测试1920×1200和2560×1600两个分辨率。
为了能够直观的体现出目前各个高端单核心显卡的性能,本次测试还加入了上一代的GTX480、GTX580以及AMD的HD5870、HD6870以及HD5970等产品对比测试,关于双核心以及双卡平台的测试,我们将在近段时间内单独撰文。
软件环境方面,本次测试依然采用windows7 x64操作系统,N卡驱动采用262.99,A卡测试驱动则采用AMD提供的测试版 8.79.6.2.RC2。
下面,我们就一起来看看HD6970与HD6950在游戏性能方面的表现!
游戏介绍:原计划于11月30日发布的3DMark11,因为一些特殊的原因被推迟到了12月7日发布,根据Futuremark官方的解释,他们的目标是让3DMark 11在发布伊始就能够提供准确可靠而有一致性的测试结果。因此,他们需要多花一些时间来解决几个较严重的BUG,而不是选择在发布后立即推出修正补丁。
完全基于DX11开发的3DMark 11已经在一周前正式发布,发布之后马上就成为了考验DX11显卡综合游戏性能的重要基准软件,本次测试自然忘不了它。
此前的Heaven Benchmark和StoneGaint这两款DX11测试软件都片面注重于Tessellation性能,以致于遭到了AMD和部分游戏玩家的不满。而3DMark11则提供了多种负载的测试场景,更加均衡的考验了显卡的DX11性能,因此其测试结果将更具代表性一些。
在这一个测试中,HD6970也已不小的性能优势领先竞争对手的GTX570显卡,HD6950则基本与GTX480在同一档次,从分数上来看略低一些。
游戏介绍:3DMark Vantage所使用的全新引擎在DX10特效方面和《孤岛危机》不相上下,但3DMark不是游戏,它不用考虑场景运行流畅度的问题,因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨,号称“显卡危机”的Crysis也不得不甘拜下风。
画面设置:3DMark Vantage中直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级),只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了。我们为这次的优异卡对决选择了最高的Extreme模式,它其实就是最高画质1920x1200分辨率再加上4AA16AF模式。
3DMark Vantage 是目前验证显卡DX10性能较好的工具,不过由于其采用了PhysX物理加速技术,导致N卡总分偏高,但大家可以直接参考GPU得分。在这一轮测试中,HD6970稍稍落后于GTX570,HD6950也遗憾不敌GTX480。
软件介绍:3DMark06作为DX9C权威的理论测试工具,包括了两个SM2.0测试和两个SM3.0测试场景,基本上达到了DX9C的画面最高境界。虽然当今显卡已全面进入了DX11时代,但考虑到至今仍有不少新游戏依然采用DX9C引擎,加入3DMark06的测试结果对于很多主流游戏都有参考价值的。
画面设置:如今3DMark06已经难不倒高端显卡了,高端显卡在3DMark06中难分高下,所以我们只能最大程度的提高它对系统的要求,比如说提高分辨率开启抗锯齿等。这里我们直接测试2560×1600分辨率并开启8AA16AF下的性能。
3DMark 06虽然年代久远,但到现在都还是测试DX9C游戏最标准的测试程序。从测试结果中我们可以看到,HD6970在这一轮测试中完胜了竞争对手GTX570,不过DX9游戏主要考验的是流处理器数量,所以流处理器数量较少的GTX570性能不足也没什么奇怪的。
游戏介绍:Unigine Engine率先发布了首款DX11测试/演示程序——Heaven Benchmark,其中大量运用了DX11新增的技术和指令,看来在新版3DMark面世之前,Heaven将会是DX11性能测试的非常好的选择。
画面设置:2.1版本进一步强化了Tessellation技术的应用,细分精度更高,画面更上一层楼,测试时所有特效全开最高,包括Extreme级别的Tessellation。
测试方法:自带Benchmark。
《天堂》其实只能算一款基准测试软件,主要考验显卡的DX11性能,尤其是在我们的测试中将Tesselation级别开到了Extreme级别,对显卡的曲面细分性能要求非常高。我们可以看到,虽然HD6970与HD6950采用了两个图形引擎,但性能方面仍然没有比NVIDIA领先,可见NVIDIA的多个多形体引擎确实非常强大。
不过从这个测试结果中我们也可以看到HD6900系列显卡在这方面的质的提升,比如大幅度领先了HD5870甚至HD5970,从这一点上来看双图形引擎确实发挥了它的作用。
游戏介绍:《科林麦克雷》系列游戏是为纪念去世的英国拉力赛车手科林·麦克雷(Colin McRae)而制作的,因此在游戏过程中不难见到许多麦克雷过往的身影。与一年一款的优品系列赛车游戏不同,DiRT2距离前作已经两年之久,目前《科林麦克雷:尘埃2》主机版早已上市,几乎登陆所有的主机和掌机平台、好评如潮,而PC版由于支持DX11的缘故,所以被延期数月。
画面设置:DIRT2堪称DX11游戏代表作,DX11的五大关键特性在这款游戏中都有体现,但却没有得到大范围的应用,都是点到为止。比如Tessellation主要体现在水洼和旗帜上,而赛车过程中也就那么几处采用了该技术,因此这款DX11的要求并不高,特效全开的话中端显卡都能跑动。
测试方法:游戏自带Benchmark程序,会自动跑完一个固定的赛道,非常接近于真正玩游戏的模式。
在这一款DX11游戏中,A卡整体表现不如N卡,但落后幅度不大。而且, 即使在2560×1600这样的分辨率下,参测的几款A卡都可以非常轻松的跑到60FPS以上的帧率,所以完全没有必要计较N卡快还是A卡快。
游戏介绍:《Aliens vs. Predator》同时登陆PC、X360和PS3,其中PC版因为支持DX11里的细分曲面(Tessellation)、高清环境光遮蔽(HDAO)、计算着色器后期处理、真实阴影等技术而备受关注,是AMD大力推行的游戏之一,但是这样的主题难免让本作有很多不和谐的地方,暴力血腥场面必然不会少!发行商世嘉在2009年11月就曾明志,表示不会为了通过审查而放弃电子娱乐产品发行商的责任,因为游戏要维持“异形大战铁血战士”这一中心主题,无论画面、玩法还是故事线都不能偏离。
画面设置:AVP原始版本并不支持AA,但升级至1.1版本之后,MSAA选项出现在了DX11增强特效当中,当然还支持Tessellation、HDAO、DirectCompute等招牌。该游戏要求不算太高,所以笔者直接将特效调至最高进行测试。
测试方法:游戏自带Benchmark。
《异形大战铁血战士》也是一款纯DX11游戏,虽然也采用了大量的曲面细分技术,但没有像《天堂》的Extreme模式要求那么高。
在这款游戏中,我们已经可以看到HD6970全面领先GTX480以及GTX570,甚至连定位更低端的HD6950都达到了接近GTX570的性能,改进的架构带来的DX11性能提升非常明显。
游戏介绍:《战地:叛逆连队2》(Battlefield: Bad Company 2),是EA DICE开发的一款第一人称射击游戏。开发商EA已经于本月2日正式同步发售了Xbox 360、PS3、PC版。该游戏是EA DICE开发的第9款“战地”系列作品,也是《战地:叛逆连队》的直接续作,在继承前作特性的基础上,强化了多人联机载具对战和团队合作元素的设定。游戏使用加强版的寒霜引擎,加入了建筑物框架破坏和物体分块破坏的支持。
测试方法:游戏不带Benchmark,笔者选取了单人任务模式下的一段无需手动干涉的过场动画进行测试,其中包括大量激烈的轰炸爆破激战场面,完全可以反映真实的游戏性能。
《战地:叛逆连队2》这款游戏也是一款DX11游戏,但这款游戏对显卡要求不是太高,而且很好玩,所以备受推崇。在这款游戏中我们看到1920分辨率下HD6970比GTX570稍有落后,但在2560分辨率下追了上来并且反超了GTX570。
游戏介绍:《地铁2033》(Metro 2033)是俄罗斯工作室4A Games开发的一款新作,也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine,支持当今几乎所有画质技术,比如高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。
画面设置:《地铁2033》虽然支持PhysX,但对CPU软件加速支持的也很好,因此使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏由于加入了太多的尖端技术导致要求非常BT。
测试方法:选用第三方Benchmark程序,这是一小段地铁隧道中的战斗场景,场面复杂战斗激烈,对显卡提出了严峻考验。
《地铁2033》是一款对显卡DX11效能要求非常高的游戏,即使像HD5970这样的双核心优异显卡,也很难在全特效高分辨率下流畅运行。在本次测试中,1920分辨率下HD6970表现还能勉强超越GTX570,但到了2560分辨率下就不行了。
游戏介绍:《失落的星球2》的游戏舞台是前作故事发生后十几年之后经过温暖化改变的EDN-3rd,这里将新增丛林等新场景,主人公也并非前作那样为一人,而是以“雪贼”们不同的视点展开故事。
画面设置:与前作相同,《失落的星球2》采用CAPCOM公司原创引擎MT Framework的最新版VER.2.0进行开发,游戏世界的表现将更加细致和美丽。而不仅仅是画面上的进化,本作将会在前作玩家要求基础上追加大量全新要素,新场景、新角色、新武器等自不必说,角色的动作也比前作更加丰富多彩。
测试方法:游戏自带Benchmark,测试A场景。
《失落星球》自第一代起就和NVIDIA结成了很好的伙伴,AMD的显卡在失落星球中一直都比较吃亏。现在到了采用DX11 API的《失落星球2》也同样如此,尤其是双核心HD5970显卡甚至不如GTX580的性能表现。
但是,凭借着双图形引擎架构以及效率上的提升,HD6900系列产品在这款游戏中表现还是相当不错的,虽然说小幅度落后于N卡,但即使在2560×1600这样苛刻的分辨率下也能够流畅运行游戏。
游戏介绍:Crysis(孤岛危机)无疑是DX11出现之前对电脑配置要求最高的PC游戏大作。Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏。Crysis还有个资料片Warhead,使用了相同的引擎,只是多了一个关卡,因此我们还是使用原版做测试。
画面设置:Crysis只有在最高的VeryHigh模式下才是DX10效果,但此前所有高端显卡都只能在低分辨率下才敢开启DX10模式,如今的DX11显卡终于有能力单卡特效全开流畅运行。
测试方法:Crysis内置了CPU和GPU两个测试程序,我们使用GPU测试程序,这个程序会自动切换地图内的全岛风景,得到稳定的平均FPS值。
虽然显卡已经更新换代数次,但《孤岛危机》仍然是目前的杀手级游戏,
游戏介绍:《冲突世界》将带领玩家返回著名的冷战时期,玩家每一个决定均影响游戏中人物和情节。可于游戏中感受不一样的团队精神,与队友于阴森恐怖的战场上一同作战。《苏联进攻》是其最新的资料片,收录全新角色、扮演苏联军队、10套新影片和全新多人联机地图等等。
画面设置:《冲突世界》是首批DX10游戏之一,采用了自行研发的MassTech引擎,支持多种当前的主流显示特效,如容积云,景深效果,软阴影等,光照系统也表现出色,尤其是半透明的容积云特效营造出了十分逼真的户外场景,物理加速结合体积光照渲染出了最逼真的爆炸效果。
测试方法:内置Benchmark是一段非常华丽的过场动画作为测试程序,最终得出最大、最小和平均FPS,测试结果非常精确。WIC最高支持4AA,因此我们只测试4AA16AF模式。
《冲突世界》是一款非常华丽的DX10游戏,但引擎优化的不错,基本难不倒目前的高端显卡。我们可以看到即使在2560×1600这样的极限分辨率下,所有的显卡都能够流畅运行。虽然在1920分辨率下HD6970小负于GTX570,但在2560分辨率下凭借着2GB的显存,很轻松的就追上来了。
游戏介绍:自《孤岛惊魂》系列的版权被UBI购买之后,该公司蒙特利尔分部就已经开始着手开发新作,本作不但开发工作从Crytek转交给UBI,而且游戏的故事背景也与前作毫无关系,游戏的图形和物理引擎由UBI方面完全重新制作。
画面设置:借助于蒙特利尔工作室开发的全新引擎,游戏中将表现出即时的天气与空气效果,所有物体也都因为全新的物理引擎,而显得更加真实。你甚至可以在游戏中看到一处火焰逐渐蔓延,从而将整个草场烧光!而且首次对DX10.1提供支持,我们在这里依然将其当作DX10游戏进行测试。
测试方法:游戏自带Benchmark工具。
《孤岛惊魂2》是一款DX10.1游戏,但所采用的DX11特效并不多,而且现在这些高端卡玩这款游戏完全没有任何压力,在2560×1600的极限分辨率下也能获得非常好的性能。
游戏介绍:CAPCOM公司于1987年推出的大型电玩机台格斗游戏《街头霸王》,堪称目前格斗类游戏的始祖。经过了20多年的不断演化之后,如今的PC版《街头霸王4》不仅在画面上走向了全新方向,而且加入了各种新系统,试图让传统2D格斗游戏得到重生。
画面设置:街霸4 PC版和游戏机版相比,除了支持高分辨率输出之外,还为玩家提供了画面渲染风格选择的功能,除与家用机版一样的“普通”模式外,还有“水彩”、“海报”和“烟灰墨”这三种追加的渲染风格,带给完全全新的视觉体验。
测试方法:测试时使用游戏自带Benchmark。由于游戏要求较低,因此直接开启最高的8xMSAA+16AF模式。
在这款DX9游戏中,虽然整体性能来看A卡表现不及N卡,但100多FPS的游戏帧率已经完全没有必要纠结这个问题了。
游戏介绍:《黑手党2》(Mafia II)将带领玩家进入1940年至1950年虚构的地下世界,就像好莱坞电影般的游戏世界,玩家可在拟真的城市中冒险。在1940年代的城镇中,居民如同往常过着平静的生活,帮人擦鞋、卖报纸,而路边偶尔会出现黑帮份子。
画面设置:这是一款支持PhysX GPU物理加速的最新游戏,但依然使用了DX9C引擎,因此画面本身并不出彩,但大量的爆炸、烟雾、破碎、衣料等物理效果还是很不错的。
测试方法:游戏自带Benchmark,内置的抗锯齿并不知道是多少倍数,分为不开PhysX和High两种模式进行测试。
《黑手党II》是一款PhysX游戏,不过由于A卡不支持GPU加速的PhysX,所以如果开启PhysX测试的话完全是完败于NVIDIA。上面两张柱状图是我们关闭PhysX所测试的成绩,可以看到A卡在1920分辨率下仍然小幅度落后于NVIDIA,但是在2560分辨率下凭借着大容量显存挽回了局面。
● Radeon HD6950温度测试
HD6950待机温度
HD6950满载温度
● HD6970温度测试
HD6970待机温度测试
HD6970满载温度测试
● 功耗测试:
由于PowerTune技术的影响,我们在进行功耗测试的时候一直非常不稳定(表现为功耗时高时低),最后偶然发现只要安装纯驱动而不安装催化剂控制中心,就可以稳定的测试功耗,所以以上的功耗是我们在这种情况下测得的(整平台功耗),也反映出了PowerTuner技术必须依赖软件工作的特性。
不过,在这之前的多次功耗测试尝试中,笔者也发现其实目前的PowerTuner在很多时候仍然并不能限制功耗,仍然有超出预设值的情况,但在这种情况出现之后马上就会出现频率下降,这应该就是该技术的工作方式。
这篇将近40页的评测到这里终于快告一个段落了,这次评测给笔者最大的感觉就是“时间太紧”,因为在这次发布的这两款HD6900显卡身上,有很多很多的新功能、很多很多的细节改进、很多很多值得我们去挖掘的地方。
比如,双图形引擎到底能带来多大的性能提升?电源控制具体是如何侦测电压,在实际的应用程序和一些“功耗病毒”应用程序下到底有什么本质的区别?VLIW4架构在什么情况下最能够体现执行效率的提升?MLAA和EQAA相对于之前的抗锯齿技术有多大的画质和性能差距?......由于本次时间有限,关于这两款显卡的很多很多功能我们都没有能够深入研究。
虽然有很多地方都没有深入研究,但HD6970和HD6950因为架构上的改进给我们带来的性能提升仍然是有目共睹的。通过前面的游戏、基准测试以及功耗温度方面的测试,我们可以得出很明确的结论:
新的HD6970和HD6950在性能和效率两方面都得到了巨大的提升,这得得益于大幅度改进的架构,包括VLIW4线程处理器、命令的异步分配以及优化的纹理执行等等。尤其是双图形引擎所带来的曲面细分性能提升非常明显,在很多DX11游戏中已经赶超GTX570,取得在竞争上的优势。
同时,新的功耗管理功能让用户可以在保证功率不变的情况下提升性能,一旦应用程序的运行超过设定的功耗,那么也会自动降频以保护用户的显卡,这些改进都给我们带来了全新的思路,尤其是在性能和效率的最大化方面。
不仅仅性能和效率双双提升,AMD这两款产品的定价也非常厚道,其中HD6970建议零售价为2999~3099元、HD6950的建议零售价为2299元~2399元,虽然是高端显卡,但姿态很低。与NVIDIA现有的DX11产品保持了1:1的竞争局面,甚至HD6950还没有竞争对手。
从价格方面来说,本次推出的这两款产品又是AMD“田忌赛马”策略的又一次良好的应用。在性能方面HD6970未能超越GTX580的情况下,直接将其价格下拉到与GTX570一样的水准,对付GTX580的任务依旧留给双核心HD5970,这正是“田忌赛马”商业版的典型代表。很显然,AMD这一次又将尝到这种策略的甜头。
整体来看,HD6900系列显卡这一次给我们带来了非常不错的感觉,不管是从价格、性能来看都非常不错,接下来就要看AMD在市场端如何发力了。我们期待AMD有好的表现,更期待NVIDIA采取更加猛烈的竞争手段,毕竟只有竞争消费者才会受益。■<