双芯霸主来袭!AMD旗舰HD6990权威测试
泡泡网显卡频道3月9日 游戏玩家对于最高图形性能的追求是永无止境的,因此显卡“卡皇”的宝座就成为了显卡厂商一直以来必争的焦点,尤其是在近几年这样的争夺更是陷入了白热化。正是在这种大背景下,各厂商已经从之前单纯的核心规模及执行效率的比拼,转而向“多芯片化”发展,一时间“单卡N芯”的产品也成为了“卡皇”的标准特征。
2009年11月,AMD抢先发布了DX11的单卡双芯产品——HD5970,这款产品采用了两颗在当时单核心性能最高的HD5870核心(RV870),流处理数量达到了3200个。也正是凭借其恐怖的规格,使其毫无悬念的打败了之前NVIDIA的单卡双芯产品GTX295,并登上了新一代“卡皇”宝座。
在四个月后,NVIDIA的首代DX11旗舰级产品GTX480终于发布,尽管这款产品在单核心性能方面完全领先于HD5870产品,毕竟“单拳难敌双手”还是无法与HD5970进行正面交锋。而GTX480核心(GF100)本身由于发热量以及功耗较高,令NVIDIA无法在短时间内推出单卡双芯产品。尽管一些有实力的大厂已经研发出了双GTX480核心的产品,但因为种种原因最终没能量产。
HD5970的成功并没有使AMD停止前进的脚步,今天AMD再次发布了新一代单卡双芯产品——HD6990,这款产品采用了3072个流处理器,尽管数量和HD5970相比有所减少,但凭借改进的VLIW4架构使得执行效率有所提升。下面我们就来全面的介绍一下这款产品。
AMD前几年发布的双核心显卡都不约而同的采用了后缀为“X2”来命名,以体现出产品本身的特点。比如HD3870X2、HD4870X2,他们分别代表着HD3870和HD4870的双芯片版本。但是这样的命名方式导致一些不大懂的消费者难以理解X2的真正含义,甚至有部分奸商忽悠客户HD4890比HD4870X2强大;同时,显卡型号太长也导致很难记住;所以,上一代HD5970发布之时AMD就放弃了X2这样的命名方式。
据小编猜测取消X2这样的命名方式还有一个更加深层次的原因,那就是AMD已经不再需要着重体现产品是单核心还是双核心了,或许对于他们来说多GPU显卡是将来的一个发展方向,因为半导体的制程工艺已经很难再有很大的提高。那么如果一直按照X2这样的命名方式延续下去,将来恐怕还会有X4、X8甚至X16的产品出现。
HD6990显卡研发代号为Antilles,整体采用了两颗Cayman核心,单颗核心的硬件规格和HD6970完全相同——1536个流处理器、96个纹理单元以及32个光栅单元。核心采用40nm制程工艺,单颗核心的晶体管数量高达26.4亿个。也就是说,HD6990共拥有1536×2=3072个流处理器,少于之前HD5970的数量。
和之前的公版HD6900系列产品相同,HD6990同样搭配了双BIOS设计,不过与之前不同的是两个BIOS的频率稍有不同:默认BIOS为核心频率830MHz,核心电压1.12V;超频BIOS为核心频率880MHz与HD6970相同,核心电压提升至1.175V,方便玩家能够冲击更高的频率。
另外从AMD官方所提供的幻灯片也可以得知,HD6990不仅拥有默认高频的优势,并且二次超频能力也相当突出。在默认状态下通过AMD催化剂面板就可以超频至核心900MHz、显存6GHz以上。
自从DX10时代以来,ATI在架构上就一直没有太大的变化,即使到了DX11时代的HD5000/HD6000系列产品上,其核心架构仍然延续了当年R600的设计。当然,虽然整体架构没有太大变化,但每一代产品都对细节进行了改进,以满足游戏对显卡性能越来越苛刻的需求。
Cayman核心架构图
HD6900系列从整体架构上来说也没有什么变化,和之前的几代产品都差不多。不过在一些细节的改进上,采用Cayman核心的HD6900可以说是改进最多的一款产品,最大的改进之一就是抛弃了沿用数年的VLIW5架构(俗称5D),而采用了VLIW4架构。
其实之前就有传闻HD6800系列就会采用VLIW4架构,但等到产品发布之后我们并没有看到有这样的改变。反而,HD6800系列产品在核心整体的规格方面还相对HD5000系列有一定程度的降低,所以HD6800系列产品也被称为“半代升级”产品,虽然架构上有很多细节的改进,但在部分传统游戏中的性能相反还不如HD5000系列的高端产品,最大的提升仅仅是DX11中的Tesselation执行效率。
我们始终没有想到AMD会将大量的改进应用到HD6900系列产品上来,因为按照AMD的风格,一旦产品有较大的改进,必然会对产品的总型号数字提升一个等级,比如HD4000到HD5000,HD5000到HD6000。然而,这次HD6900虽然从型号上来说看起来像是HD6800系列的升级版,但在架构上的改进以及性能方面的提升都是巨大的,甚至可以说是空前的。
为了让大家更加容易理解,我们首先来介绍一下之前(HD2000—HD6800)产品的线程处理器架构。在AMD进入DX10时代之后的所有产品中,流处理器都是最小的单位,再高一层的单位叫做线程处理器,更高一层的叫做 SIMD 阵列,接下来的一层已经可以被称为流处理器模块了,比如HD5000之后的高端显卡都采用了两组流处理器,可以被称为双核心。
HD6800核心架构图
前面我们已经说到,HD6900系列产品最大的改进是采用了全新的VLIW4线程处理器,很明显这个就是在线程处理器这一个层次上进行的改进。我们用下面的两张图来对比一下之前产品的线程处理器和HD6900的线程处理器有什么不同。
HD5870所采用的VLIW5结构图
上图是RV870核心(HD5870)的线程处理器结构图,我们可以看到它主要分为三个部分:红色的流处理器(Stream Cores)、黄色的分歧执行单元(Branch Unit)以及白色的通用寄存器(General Purpose Registers)。
其中流处理器是在分歧执行单元的控制下处理数据流和条件运算,在通用寄存器中存取或输出数据,但并不存放指令。需要注意的是,上图中红色的流处理器一共有5个,也就是说一个线程处理器中有5个流处理器,包括一个个头比较“胖”的。这种设计就是我们之前一直所说的5D架构,也可以称为VLIW5。接下来我们来看HD6900的线程处理器结构。
HD6900系列的VLIW4结构图
上图就是HD6900的线程处理器结构图,我们可以看到结构中红色的流处理器部分从之前的5个变成了4个,看起来像是少了一个比较“胖”的流处理器,这就是这里所说的VLIW4,即4D架构。虽然每个线程处理器内仅仅是少了一个流处理器,但这对于沿用多年5D架构来说,已经是重大的升级了。
之前产品所采用的VLIW5架构线程处理器中,5个超标量ALU每个都拥有不同的功能。而在HD6900系列产品上,所有的ALU都拥有同样的功能、同样的能力和同样的执行效率。它们在单位时钟内的处理能力分别如下图所示:
那么,很多人可能会问,之前执行超越指令的那个稍“胖”的ALU没有了,怎么办呢?很简单,由于改进的VLIW4架构中的每一个ALU都不再有具体的功能分别,所以它们可以以类似于通用计算的方式分配到所有的ALU。
● VLIW4架构线程处理器的好处
AMD官方对这个架构的改变是这样解释的:虽然在许多情况下VLIW5达到良好的利用,但是平均来说,我们不能让所有5个单元都处于忙碌状态。 3至4个单元处理忙碌状态较为典型。现在把单元数量从5降低到4,实际上提升了每渲染管线性能,同时它将我们的ALU/BW比值降低一点,因此它实际上比较接近典型应用的要求。
而事实上,4D架构还有更多的优势,比如非对称特性的VLIW5更难编译,借助VLIW4对称特色,编译器有一个更简单的工作方法,可以转化为更优的性能。还有可以提升每平方毫米核心面积的性能,或者降低核心面积。另外调度和寄存器管理还可以实现优化等等。
除了线程处理器架构从使用了多年的5D架构改成了4D架构之外,HD6900为了提升通用计算性能,还采用了异步分配。
AMD以往产品命令队列流程图
在AMD过去的产品中,虽然已经可以实现同一时间内运行多个内核,并且将任务分配到核心当中,但执行的时候必须由仲裁器和定序器来决定任务执行的先后顺序,比如高优先级的指令可以直接插队立即执行,而低优先级的指令可以被暂时存放在高速缓存之中,等待空闲时机再进行处理。
但在HD6900系列中,AMD对这个架构进行了改进,采用了异步分配的方式。也就是说可以将多个命令流在同一时间提交给核心,让它们立即执行。每一个内核都拥有独立的还行缓冲区和FIFO,所有的命令队列是独立的,异步的,具有不同的优先级。这允许多个应用程序乱序提交工作规程,并获得返回结果。另外,AMD还为每个提交的内核配置有独立的虚拟内存,包括完整的页表,因此,所有这些命令队列可以进入用户空间,并且都是通过完整的内存子系统和高速缓存获得保护。
除了异步分配之外,AMD还建造了2个新的DMA,它们可以双向地让PCIe带宽充分饱和。可以大幅度的提高GPU的来回吞吐量和系统内存读取速度,和上一代产品相比,带宽有效地翻倍。核心还采用多种方式进行改进,如直接读取本地数据缓存而完全绕过ALU,改进了提取操作的性能。另外整合着色器读取和优化整合产出的写入将提高着色器的I/O。
最后,HD6900还提升了双精度运算的执行效率,此前的产品中,双精度性能位单精度性能的1/5,而HD6900的双精度性能为单精度性能的1/4,已经超过了600GFlops。可以看出,AMD在HD6900 系列产品的通用计算性能方面也花了很大的功夫来进行改进。
● 渲染器后端升级
HD6900的后端渲染方面主要有三大改进,分别是“整合写入操作”、16位整数(unorm/snorm)操作速度提升2倍、32位浮点(单/双精度)操作速度提升2-4倍。显卡抗锯齿性能将得到进一步的提升。
自从AMD进入DX11时代以来,其低下的几何性能以及曲面细分(Tesselation)就成为了 NVIDIA 讽刺的对象,其实HD5000以及HD6000的几何性能并不差,但确实是竞争对手太强大了。为了获得更好的几何性能,NVIDIA也付出了巨大的代价,其首款DX11产品GTX480竟然比AMD的首款DX11产品HD5870晚了半年,那时候AMD的HD5000系列全线产品都快铺齐了,NVIDIA才迈入DX11时代。
NVIDIA的首款DX11显卡GTX480比HD5870晚了半年
当然,在这一件事情上,到底AMD和NVIDIA谁对谁错,用户们也都有自己的看法。AMD的粉丝自然喜欢AMD能够及时推出新产品,但NVIDIA的粉丝则认为它们更期待NVIDIA来颠覆这个世界。其实,两家的官方口径也很有意思,AMD认为在DX11游戏还没有完全普及的情况下,特别强大的几何性能(尤其是Tesselation)用处不大;而NVIDIA则说要保证用户的每一分钱投资都是值得的。
Tesselation效果
如果说AMD之前所谓的Tesselation性能用处不大的言辞还能够让玩家接受的话,那么现在再来这一套恐怕玩家真的不会买账了。在这短短一两年的时间里,DX11游戏如雨后春笋般一个接一个发布,现在伸出两个手掌数数,恐怕还得动用脚趾头。
最重要的是,即使玩家能够接受,恐怕AMD自己也不能接受。因为在大量的DX11游戏中,AMD由于Tesselation性能不佳和NVIDIA的显卡差距越来越大,尤其是NVIDIA发布GTX580之后,这样的差距更为明显。是时候来解决这个问题了!
其实,AMD早已经意识到了这个问题,在之前发布的HD6800系列显卡中,就已经从架构方面进行了改进,Ultra-Treaded Dispatch Processor(超线程分配处理器)从HD5870的一个变成了两个,相对应的,超线程分配处理器的指令缓存也变成了两份。
HD6900系列预图形装配引擎结构图
然而,这样的改进性能提升幅度仍然不够,下面就我们来看看HD6900是如何从核心架构上提升几何性能的。
前面我们已经说到,AMD在HD6800上对核心架构进行了改进,主要是采用了两个超线程分配处理器,但整个Graphics Engine(图形装配引擎)仍然只有一个,其中的Tessellator(镶嵌器)、Vertex Assembler(顶点装配器)、Geometry Assembler(几何装配器)都只有一个。其中的Rasterizer(光栅器)和Hierarchial-Z(多级Z缓冲模块)在HD5800时代就已经是两个了。
很显然,如果不进行架构的重新设计,那么仅仅靠小修改已经很难提升几何性能。所以,HD6900在这一部分采用了完全不同的设计,设计理念很简单——全部乘以2。
HD6900系列核心图形装配引擎结构图
上图就是HD6900的Graphics Engine(图形装配引擎)部分,我们可以看到在这款产品中 Graphics Engine(图形装配引擎) 已经从HD5800—HD6800的一个升级成了两个,相对应的 Tessellator(镶嵌器)、Vertex Assembler(顶点装配器)、Geometry Assembler(几何装配器)也都升级成了两个。
改进的架构将会给HD6900带来巨大的性能提升,根据AMD的官方资料,主要性能提升点如下:
● 单位时钟内可处理两个图形基元:
-两倍的转换和隐面消除速度;
-平衡基于图块的曲面细分负载;
● 两个第八代曲面细分单元:
-片下缓冲区性能提升,支持更高级别的曲面细分;
-曲面细分性能最高可达HD5870的三倍;
● 两个光栅器:
-单位时钟内最高可输出32个光栅化像素;
可以说,以上的每一项提升都可以给游戏玩家带来直观的流畅感受,其中最让人兴奋的莫过于最高3倍于HD5870的曲面细分性能了,但到底真的是否能达到这个性能,我们后面的测试将会对其进行验证,不过AMD官方给出了一页资料:
从AMD官方给出的这个数据中我们可以看到,在几大热门的DX11游戏中,除了《天堂》(其实不算游戏)提升幅度达到69%以外,其余游戏的性能提升都大概在30-45%之间,看来也并不是特别理想,而且这是AMD官方提供的数据,所以只能用作参考。
但不管怎样,在现有的整体架构不变的情况下,HD6900系列已经对这个架构最大化利用了,双图形装配引擎必定会带来明显的性能提升,这也是AMD在几何性能以及曲面细分方面的重大改进。具体效果如何,请看后文的评测数据。
在HD6800系列显卡发布的时候,AMD给我们带来了MLAA(形态抗锯齿)功能,和传统的多重采样抗锯齿(MSAA)和超级采样抗锯齿(SSAA)不同,形态抗锯齿属于一种后期处理效果,是在渲染阶段全部完成之后才应用于输出图像的。简单地说,就是首先让显卡正常渲染每一帧,然后再借助DirectCompute硬件加速技术,进行一次着色器处理来执行过滤。打个比方,MLAA就像是在Adobe Photoshop里对一张图片使用某种特殊滤镜。
这样一来,MLAA的应用范围就要比MSAA、SSAA等广泛得多,比如全面支持DX9/10/11级别游戏,无需游戏专门优化;可提供全屏抗锯齿,而不限于多边形边缘、Alpha测试表面;能用来消除静态图像的锯齿,当然在动态画面上效果优秀。最重要的是,它还可以与之前任意一种抗锯齿方法并用,因为它完全是在渲染后进行处理的,和之前的抗锯齿并不冲突。
让我们没有想到的是,AMD在HD6900系列显卡中又给我们带来了一种新的抗锯齿技术——增强质量抗锯齿(EQAA),这种抗锯齿技术的目的依然是提升抗锯齿的效能。其原理也很简单:
如上图所示,在传统的MSAA(多重采样抗锯齿)当中,颜色样本和覆盖样本的数量以及坐标都是一样的,从画质上来说确实非常优秀,但执行效率不佳,尤其是在开启高倍抗锯齿的环境下运行一些大型游戏时,性能下降幅度非常明显。而最新的增强质量抗锯齿(EQAA)其实是再次寻求性能与画质平衡的一种做法,即在原有的MSAA基础上提供两倍的覆盖样本以提升画质,而保持颜色样本数量不变。
但是,这种抗锯齿技术的画质确实不如MSAA,属于一种有损抗锯齿技术。打个比方,之前4x的MSAA的效果现在只需要2x的EQAA就可以实现近似的效果(注意是近似),但对显存的消耗却和2xMSAA一样,因为你只需要存储两个颜色样本就可以了。
其实从另一个角度来说,EQAA也可以说是MSAA的“改进版本”,因为它让MSAA在每一个像素内的覆盖样本可以高达16个(颜色样本仍然是8个)。而且,EQAA还可以单独对颜色样本以及覆盖样本数量进行控制,并且可以让用户指定过滤器。总之,EQAA就是一种可以让你使用较低的内存获取更高画质的一种抗锯齿技术。
从AMD官方提供的数据中我们可以看到,开启和关闭EQAA之间的性能差距非常小,甚至可以忽略不计。从这一点上,EQAA在很大程度上都足以挑战NVIDIA引以为豪的CSAA了,我们期待HD6900及以后显卡在AA效能上的表现。
Eyefinity技术可以外接的显示屏数量还是维持在6个,但是接口标准和定义都得到了全面增强,AMD公版HD6000系列的接口种类也发生了变化:
● 支持目前非常先进的DisplayPort 1.2、HDMI 1.4a标准
HD6000系列同时支持当今非常先进的DisplayPort 1.2和HDMI 1.4a,其中DP1.2的规格十分强大,数据带宽比上代直接翻番,实现了单个接口4096x2160 @ 60Hz的超高分辨率!
而且DP1.2还支持多通道数据流传输技术,可以用一个接口连接几个显示设备,并且显示完全不同的画面。
而HDMI 1.4a的意义就在于,它可以兼容目前市面上最新的3D电视、投影仪等设备,以往的HDMI 1.3标准是无法支持这些3D设备的。
● HD6990公版卡接口解析,支持多流输出
HD5000系列的标准接口配置是双Dual-Link DVI、DisplayPort、HDMI,其中两个DL-DVI占据了4个显示通道,DP和HDMI各一个,这样就把Eyefinity的6个通道都用完了。而HD6990的标准接口配置则是一个Dual-Link DVI、四个Mini-DP。
这个功能是利用了DP 1.2标准当中的多流传输技术,通过专用的适配器,将一路Mini DP转接为三路,这样两路Mini-DP就能轻松支持六屏输出。而且转接出来的六路通道并不局限于DP接口,HDMI、DVI、VGA等常见的接口都可以兼容。如此一来,Eyefinity技术的实现难度还有兼容性将大大增强。
不得不承认,NVIDIA是一家很有远见的公司,一年多前就研发成功的3D Vision立体显示技术,现在已经成为整个IT业界的发展趋势。而AMD的3D立体显示技术才刚刚开始得到采用。
首先在硬件方面,只要能够支持120Hz刷新率的输出,就可以在PC上实现3D显示技术。而想要在平板电视和投影仪上实现3D输出的话,就需要高带宽的HDMI 1.4a标准的支持,现在HD6870/6850率先做到了。
显示设备方面的支持也不是问题,市面上主流的3D电视、投影仪,还有120Hz LCD或者双面板LCD都能支持ATI显卡。
当然,最关键的还是在软件方面。同GPU物理加速一样,AMD仍然倡导开放的标准,因此AMD积极与第三方3D显示驱动供应商合作,能够支持iZ3D和DDD这两种3D转换方案,并且兼容多种3D视频播放软件,对于3D显示设备以及3D眼镜也都是来者不拒。
开放式的解决方案由于成本较低,选择范围比较广,因此受到了很多OEM厂商的亲睐,目前已经有不少笔记本和一体机采用了基于ATI显卡的3D显示解决方案,但开放式的标准比较多,如果并非OEM集成式方案的话,安装操作就较为复杂,因此AMD的HD3D方案在DIY领域并没有什么作为,知名度远不如NVIDIA的3D Vision。
目前AMD的3D显示技术,无论效果、兼容性还是软件支持度方面,都丝毫不差于3D Vision。无论是对于3D游戏的立体化,还是2D视频的3D化,都得到了主流媒体播放器的支持,而且AMD的新一代UVD3引擎还能支持3D蓝光硬解码,可以说已经相当成熟了。
CUDA是NVIDIA显卡的一大卖点,它能够将GPU庞大的运算能力释放出来,对非3D游戏应用软件进行加速,实现比纯CPU运算更快的效能。CUDA目前虽然有很多种类的软件,但最主要的应用还是集中在视频编辑和转码方面。
AMD方面与之相对应的技术叫做Stream,Stream相关软件的数量虽然与CUDA有一定的差距,但近年来AMD也投入了很高的重视,与众多知名的软件开发商展开了密切合作,尽快的加入对Radeon显卡的优化支持,让A卡用户也能体会到GPU加速所带来的快感。
目前使用率最为广泛的PowerDVD视频倍线、MediaShow照片人脸识别、PowerDirector视频编辑、MediaShow视频转码等应用,都可以支持使用A卡进行加速,性能提升非常显著。这些以往都是N卡的专利,现在A卡用户也能达到相同的效果了。
此外,AMD新一代的UVD3引擎,还可以直接为视频转码软件输出视频源数据,这样就能在大大降低CPU和GPU占用率的同时,显著提升视频转码速度。而以往在视频转换时,视频解码的任务要么是CPU运算,要么是GPU的流处理器部分运算,占用率都比较高。
NVIDIA的物理技术PhysX收购自Agiea公司,仅能用于自家GeForce GPU。AMD此前选择了应用更广泛的Havok,既能在GPU上也能在CPU上执行,但是Havok已经被Intel收归麾下,GPU加速技术被雪藏,于是AMD又不得不选择了免费开源的大型实时物理引擎Bullet Physics。
日前,AMD已经正式公布了与Trinigy的合作进度,并且携手开发了一款基于DX11引擎、DirectCompute加速的物理演示Demo,通过公布的视频和截图来看,无论画面表现力,还是物理效果的逼真程度,都堪称一流。
此番展示的DEMO名为“Mecha Warrior”,其中有一个机甲战士在大城市中来回穿梭,一路破坏制造大量碎片,而这些效果都是利用Radeon HD 6800系列显卡配合Bullet Physics物理引擎完成的,速度相当流畅。
这款物理演示Demo是通过大名定定的Maya 2011制作而成的,AMD为其开发了免费的插件,使得程序员可以在现有的基础上,较快的开发出优秀的图像引擎。开源的魅力就在于此,相信未来会有更多基于A卡的物理加速演示出现在大家面前。
不过,目前AMD最大的问题是,雷声大雨点小,还没有任何一款游戏甚至公版的Benchmark/Demo能够支持A卡的GPU物理加速。希望AMD能够加大与游戏开发商的合作力度,将优秀的开源物理引擎整合到游戏当中,带给A卡用户们全新的游戏体验。
HD6990依然延续了HD6000系列的设计风格,不过与之前双核心产品不太相同的是,HD6990首次将涡轮式风扇放置在显卡中间,使热量能够从显卡的接口和尾部同时排出,以便提高散热效率。
为了能够压制住两颗核心散发出来的热量,HD6990搭配了非常豪华的散热器。散热器内部包括两个真空腔均热板、大面积铝制鳍片,另外显卡背部还加入了金属背板。
HD6000系列同时支持当今非常先进的DisplayPort 1.2和HDMI 1.4a,其中DP1.2的规格十分强大,数据带宽比上代直接翻番,实现了单个接口4096x2160 @60Hz的超高分辨率!
拆下显卡的散热器就可以完全看到显卡的全貌,图上可以看出尽管HD6990采用了超长版型,但布局依然相当紧凑。两个核心位于显卡的前端,之间的银色芯片为PLX桥接芯片,负责两个核心之间的通讯。
单颗核心为Cayman核心拥有完整的1536个流处理器,两颗就可以达到惊人的3072个。显存部分共采用了16颗现代GDDR5颗粒(每个核心搭配8颗)单颗显存规格为64M*32-bit。
PCB的设计风格也和之前的HD5970大不相同,供电移到了显卡的中间。共采用了12相数字供电设计,每个核心搭配4相核心供电2相显存供电。
由于本次测试的主体以及参加测试的对比显卡都是目前的高端产品,为了尽量避免处理器和内存出现性能瓶颈,本次测试采用了目前非常优异的i7 2600K处理器搭配8GB内存,主板采用了最新的技嘉GA-P67A-UD4-B3。测试显示器为DELL 3007 30吋液晶显示器,并分别测试1920×1080和2560×1600两个分辨率。
为了能够直观的体现出目前各个高端单核心显卡的性能,本次测试还加入了NVIDIA的GTX580、GTX570以及AMD的HD6970、HD5970等产品对比测试,关于双核心以及双卡平台的测试,我们将在近段时间内单独撰文。
软件环境方面,本次测试依然采用windows7 x64操作系统,N卡驱动采用GeForce/ION Driver v266.58,A卡驱动则采用AMD提供的测试版8.84.3Beta2和ATI Catalyst 11.2。
下面,我们就一起来看看HD6990在游戏性能方面的表现!
时至今日,依然没有任何一个测试软件或者游戏能够取代3DMark在游戏玩家心目中的地位,因为3DMark的魅力就在于它所带来的不仅仅是惊艳的画面,更重要的是向广大玩家提供了一种权威、系统、公正衡量显卡性能的分值。
3DMark11的测试重点是实时利用DX11 API更新和渲染复杂的游戏世界,通过六个不同测试环节得到一个综合评分,藉此评判一套PC系统的基准性能水平。
● 3DMark 11的特色与亮点:
1、原生支持DirectX 11:基于原生DX11引擎,全面使用DX11 API的所有新特性,包括曲面细分、计算着色器、多线程。
2、原生支持64bit,保留32bit:原生64位编译程序,独立的32位、64位可执行文件,并支持兼容模式。
3、全新测试场景:总计六个测试场景,包括四个图形测试(其实是两个场景)、一个物理测试、一个综合测试,全面衡量GPU、CPU性能。
4、抛弃PhysX,使用Bullet物理引擎:抛弃封闭的NVIDIA PhysX而改用开源的Bullet专业物理库,支持碰撞检测、刚体、软体,根据ZLib授权协议而免费使用。
此前的Heaven Benchmark和StoneGaint这两款DX11测试软件都片面注重于Tessellation性能,以致于遭到了AMD和部分游戏玩家的不满。而3DMark11则提供了多种负载的测试场景,更加均衡的考验了显卡的DX11性能,因此其测试结果将更具代表性一些。从测试结果可以看到HD6990当之无愧成为了新一代卡皇。
软件介绍:做为目前最为权威的性能测试软件,3DMark Vantage在3D基准性能测试,可以全面准确的得出显卡的真实性能,所以在历次测试中都少不了它的加盟。3DMark Vantage所使用的全新引擎在DX10特效方面和《孤岛危机》不相上下,但3DMark不是游戏,它不用考虑场景运行流畅度的问题,因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨。
画面设置:3DMark Vantage中直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级),只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了。
3DMark Vantage 是目前验证显卡DX10性能较好的工具,不过由于其采用了PhysX物理加速技术,导致N卡总分偏高,但大家可以直接参考GPU得分。在这一轮测试中,HD6990的性能依然多数比不上,而HD6970稍稍落后于GTX570。
游戏介绍:Unigine Engine率先发布了首款DX11测试/演示程序——Heaven Benchmark,其中大量运用了DX11新增的技术和指令,看来在新版3DMark面世之前,Heaven将会是DX11性能测试的非常好的选择。
画面设置:2.1版本进一步强化了Tessellation技术的应用,细分精度更高,画面更上一层楼,测试时所有特效全开最高,包括Extreme级别的Tessellation。
《天堂》其实只能算一款基准测试软件,主要考验显卡的DX11性能,尤其是在我们的测试中将Tesselation级别开到了Extreme级别,对显卡的曲面细分性能要求非常高。我们可以看到,A卡的瓶颈主要还是在多形体引擎方面,拥有两个多形体引擎的HD5970和HD6970性能基本相同,而拥有4个多形体引擎的HD6990则达到了性能翻倍的效果。
游戏介绍:《Aliens vs. Predator》同时登陆PC、X360和PS3,其中PC版因为支持DX11里的细分曲面(Tessellation)、高清环境光遮蔽(HDAO)、计算着色器后期处理、真实阴影等技术而备受关注,是AMD大力推行的游戏之一,但是这样的主题难免让本作有很多不和谐的地方,暴力血腥场面必然不会少!发行商世嘉在2009年11月就曾明志,表示不会为了通过审查而放弃电子娱乐产品发行商的责任,因为游戏要维持“异形大战铁血战士”这一中心主题,无论画面、玩法还是故事线都不能偏离。
画面设置:AVP原始版本并不支持AA,但升级至1.1版本之后,MSAA选项出现在了DX11增强特效当中,当然还支持Tessellation、HDAO、DirectCompute等招牌。该游戏要求不算太高,所以笔者直接将特效调至最高进行测试。
《异形大战铁血战士》也是一款纯DX11游戏,虽然也采用了大量的曲面细分技术,但没有像《天堂》的Extreme模式要求那么高。可以看到HD6990领先GTX580的幅度已经接近于40帧。
游戏介绍:《失落星球2》的游戏舞台是前作故事发生后十几年之后经过温暖化改变的EDN-3rd,这里将新增丛林等新场景,主人公也并非前作那样为一人,而是以“雪贼”们不同的视点展开故事。
画面设置:与前作相同,《失落星球2》采用CAPCOM公司原创引擎MT Framework的最新版VER.2.0进行开发,游戏世界的表现将更加细致和美丽。而不仅仅是画面上的进化,本作将会在前作玩家要求基础上追加大量全新要素,新场景、新角色、新武器等自不必说,角色的动作也比前作更加丰富多彩。
《失落星球》自第一代起就和NVIDIA结成了很好的伙伴,AMD的显卡在失落星球中一直都比较吃亏。现在到了采用DX11 API的《失落星球2》也同样如此,HD6990领先GTX580的幅度并不明显,而HD5970显卡甚至不如GTX580的性能表现。
游戏介绍:《地铁2033》(Metro 2033)是俄罗斯工作室4A Games开发的一款新作,也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine,支持当今几乎所有画质技术,比如高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。
画面设置:《地铁2033》虽然支持PhysX,但对CPU软件加速支持的也很好,因此使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏由于加入了太多的尖端技术导致要求非常BT。
《地铁2033》是一款对显卡DX11效能要求非常高的游戏,即使像HD6990这样的双核心优异显卡,也只能在全特效1080P分辨率下勉强运行。在本次测试中,其他显卡均不能流畅运行,因此成绩参考意义不大。
游戏介绍:《科林麦克雷》系列游戏是为纪念去世的英国拉力赛车手科林·麦克雷(Colin McRae)而制作的,因此在游戏过程中不难见到许多麦克雷过往的身影。与一年一款的优品系列赛车游戏不同,DiRT2距离前作已经两年之久,目前《科林麦克雷:尘埃2》主机版早已上市,几乎登陆所有的主机和掌机平台、好评如潮,而PC版由于支持DX11的缘故,所以被延期数月。
画面设置:DIRT2堪称DX11游戏代表作,DX11的五大关键特性在这款游戏中都有体现,但却没有得到大范围的应用,都是点到为止。比如Tessellation主要体现在水洼和旗帜上,而赛车过程中也就那么几处采用了该技术,因此这款DX11的要求并不高,特效全开的话中端显卡都能跑动。
在这一款DX11游戏中,同价位A卡整体表现不如N卡,但落后幅度不大。而且,即使在2560×1600这样的分辨率下,参测的几款A卡都可以非常轻松的跑到60FPS以上的帧率,所以完全没有必要计较N卡快还是A卡快。
游戏介绍:《鹰击长空》由Ubisoft旗下的Bucharest Studio工作室所研发制作而成,以汤姆克兰西最擅长的近现代国际冲突为背景,加上现代化的军事武器,和五角大厦不愿证实的开发中的先进武器,交织出最激烈的高科技攻防战。而《鹰击长空》也脱离前面几项作品的框架,将战争从地面拉拔到空中,享受广大无界限的战斗空间。
画面设置:《鹰击长空》直接内置了对DX10和DX10.1的支持,它会自动检测显卡最高能支持的级别。通过此前的测试来看DX10.1并不会让画质变得更高,但的确能够让游戏跑得更快。我们使用1920分辨率,4AA和8AA两种模式进行测试。
在这个测试中,HD6990同样大幅领先GTX580。
游戏介绍:自《孤岛惊魂》系列的版权被UBI购买之后,该公司蒙特利尔分部就已经开始着手开发新作,本作不但开发工作从Crytek转交给UBI,而且游戏的故事背景也与前作毫无关系,游戏的图形和物理引擎由UBI方面完全重新制作。
画面设置:借助于蒙特利尔工作室开发的全新引擎,游戏中将表现出即时的天气与空气效果,所有物体也都因为全新的物理引擎,而显得更加真实。你甚至可以在游戏中看到一处火焰逐渐蔓延,从而将整个草场烧光!而且首次对DX10.1提供支持,虽然我们很难看到。
《孤岛惊魂2》是一款DX10.1游戏,但所采用的DX10.1特效并不多,而且现在这些高端卡玩这款游戏完全没有任何压力,在2560×1600的极限分辨率下也能获得非常好的性能。
游戏介绍:《冲突世界》将带领玩家返回著名的冷战时期,玩家每一个决定均影响游戏中人物和情节。可于游戏中感受不一样的团队精神,与队友于阴森恐怖的战场上一同作战。《苏联进攻》是其最新的资料片,收录全新角色、扮演苏联军队、10套新影片和全新多人联机地图等等。
画面设置:《冲突世界》是首批DX10游戏之一,采用了自行研发的MassTech引擎,支持多种当前的主流显示特效,如容积云,景深效果,软阴影等,光照系统也表现出色,尤其是半透明的容积云特效营造出了十分逼真的户外场景,物理加速结合体积光照渲染出了最逼真的爆炸效果。
《冲突世界》是一款非常华丽的DX10游戏,但引擎优化的不错,基本难不倒目前的高端显卡。我们可以看到即使在2560×1600这样的极限分辨率下,所有的显卡都能够流畅运行。
游戏介绍:Crysis(孤岛危机)无疑是DX11出现之前对电脑配置要求最高的PC游戏大作。Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏。Crysis还有个资料片Warhead,使用了相同的引擎,只是多了一个关卡,因此我们还是使用原版做测试。
画面设置:Crysis只有在最高的VeryHigh模式下才是DX10效果,但此前所有高端显卡都只能在低分辨率下才敢开启DX10模式,如今的DX11显卡终于有能力单卡特效全开流畅运行。
测试方法:Crysis内置了CPU和GPU两个测试程序,我们使用GPU测试程序,这个程序会自动切换地图内的全岛风景,得到稳定的平均FPS值。
虽然显卡已经更新换代数次,但《孤岛危机》仍然是目前的杀手级游戏。
游戏介绍:CAPCOM公司于1987年推出的大型电玩机台格斗游戏《街头霸王》,堪称目前格斗类游戏的始祖。经过了20多年的不断演化之后,如今的PC版《街头霸王4》不仅在画面上走向了全新方向,而且加入了各种新系统,试图让传统2D格斗游戏得到重生。
画面设置:街霸4 PC版和游戏机版相比,除了支持高分辨率输出之外,还为玩家提供了画面渲染风格选择的功能,除与家用机版一样的“普通”模式外,还有“水彩”、“海报”和“烟灰墨”这三种追加的渲染风格,带给完全全新的视觉体验。
在这款DX9游戏中,各个显卡都已飙到100帧以上,对比各显卡性能的差异似乎已经没有太大的必要了。
我们的功耗测试方法是直接统计整套平台的总功耗,既简单、又直观。测试仪器为微型电力监测仪,它通过实时监控输入电源的电压和电流计算出当前的功率,这样得到的数值就是包括CPU、主板、内存、硬盘、显卡、电源以及线路损耗在内的主机总功率(不包括显示器)。
● 待机功耗140W
● 满载功耗564W
经过测试可以看到HD6990的功耗并没有我们想象的那么恐怖,在满载状态下平台整体功耗为564W,符合双核心显卡的正常水平。而在待机状态下,功耗表现尤为突出,仅为140W和一般单卡平台相仿,那么它是如何做到的呢?
● 待机温度47度
● 满载温度88度
通过我们对HD6990的温度测试可以看到,HD6990在待机状态下频率仅为250/600MHz,因此这时的功耗保持在一个较低的水平,温度也仅为47度。而在满载状态下,温度较高达到88度,此时的显卡噪音也较大。
从前面的测试我们可以看出,HD6990相比上一代HD5970在性能和效率两方面都得到了巨大的提升,这得得益于大幅度改进的架构,包括VLIW4线程处理器、命令的异步分配以及优化的纹理执行等等。尤其是双图形引擎所带来的曲面细分性能提升非常明显。
总的来说,HD6990无疑拥有目前最强悍的性能,同时对新技术的支持非常到位。特别是DirectX 11的硬件支持以及Eyefinity多屏输出技术,成为AMD目前独有的卖点。相比其他对手产品所附带的特色功能,AMD的DirectX 11以及Eyefinity实用的多。
从整体来看,AMD最近接连发布的HD6900系列显卡都给我们带来了非常不错的感觉,目前这款产品AMD官方定价为4999-5099元。从性价比方面来看相比HD5970更加具有竞争优势,接下来就要看AMD在市场端如何发力了。我们期待AMD有好的表现,更期待NVIDIA采取更加猛烈的竞争手段,毕竟只有竞争消费者才会受益。■<