再一次改变一切!HD6870/6850全面评测
泡泡网显卡频道10月22日 十三个月之前,AMD发布了业界首款DX11显卡——Radeon HD5870/5850,由此确立了AMD在DX11时代的领先地位:高端产品领先对手半年,中端主流产品更是长达九个月都没有竞争对手!在此后的五个月之内,AMD陆续推出了多达十一款不同规格的产品,构筑了一条完整的DX11产品线。
曾经与Intel“摩尔定律”齐名的NVIDIA“黄氏定律”称“在图形处理器领域,每过半年GPU的性能提高一倍”,而NVIDIA到了DX11时代之后,似乎连“半年更新、一年换代”的承诺都做不到了,新品姗姗来迟、产品线残缺不全、处境比较尴尬。
AMD并没有因为对手的失误而懈怠,也没有沉浸在过去的辉煌当中,依然在按部就班的推陈出新。在第一代DX11显卡发布一年之后,AMD又为大家带来了第二代DX11显卡产品——Radeon HD 6870/6850,那么这一代产品又会给游戏玩家们带来什么样的新惊喜呢?
第一章 AMD和NVIDIA在显卡发展过程中遇到的困难
第一章/第一节 半导体制造工艺制约GPU的发展
既然前面提到了“黄氏定律”,我们不妨来回顾一下“摩尔定律”,这条早在1965年提出的理论至今都依然有效,并且暗中左右着半导体芯片的发展,其大致内容是“集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。”
图例:如果用1000nm工艺制造Core i7,其核心面积将会有一本书这么大
“摩尔定律”最基本的涵义就是:半导体工艺需要一年半甚至更多的时间才能前进一代。但对于芯片级企业来说,如果这么久的时间才推出一代产品的话,显然是无法满足市场需求的。于是Intel率先提出了Tick-Tock(工艺年-构架年)的战略模式,在半导体制造工艺停滞不前的情况下,通过改进架构来提升性能,而在架构保持不变的情况下,通过更新工艺来提升性能改善功耗,两种方案交替更新、相得益彰。
GTX260与HD4870卖同样的价钱,大核心显然要吃亏一些
近年来的GPU的发展也与CPU非常类似,GPU的晶体管规模比CPU更为庞大,更加迫切的需要先进制造工艺的支持。但目前只有台湾岛内的台积电这家公司才有能力制造高度复杂的GPU,而最近台积电在新工艺的研发方面遇到了些麻烦,进展不是很顺利。
其实台积电40nm工艺的投产就已经让AMD和NVIDIA很头疼了,它直接造成了HD4770以及HD5870/5770系列产能不足的局面,也让NVIDIA的巨无霸核心GF100良率低下、功耗超高。现在台积电又因故取消了32nm工艺的研发,转而直接上马28nm,但距离量产还十分遥远。
AMD最初的规划就是代号为“北方群岛”(Northern Islands)的新一代图形架构,准备采用台积电32nm工艺制造,具体核心代号有Cozmuel、Kauai、Ibiza。但由于台积电取消32nm,AMD不得不更改计划,一边等待新工艺、一边使用现有成熟的40nm工艺、在上代产品基础上开发改进型产品。
于是就诞生了代号为NI-40过渡型HD6000系列,保持40nm工艺不变,在现有架构的基础上进行改良。但AMD并非只是小修小补而已,HD6000系列相比HD5000系列,无论核心架构还是外围功能模块、甚至显示输出部分都有了全方位的增强,后文中笔者会为大家进行全面的解读。
第一章/第二节 AMD和NVIDIA的“甜蜜点”之战
在AMD和NVIDIA官方提供的PDF技术资料中,多数内容都是针锋相对的,重点强调自家的产品和技术比对方优秀,但有一个概念双方都是完全认可的,被称为Sweet Spot(甜蜜点):
那么什么叫做“甜蜜点”呢?最直观的含义就是游戏玩家需要一款什么样的显卡:可以流畅运行最新游戏、价格不要太贵、功耗发热不能太高、功能还要丰富——听起来似乎很完美。
世界上没有完美的显卡,想要获得高性能,制造成本必然不低、功耗发热自然不小。但如果能找到一个非常好的的平衡点,在性能牺牲不是很多的情况下,大大降低制造成本和功耗发热的话,那么这款显卡就是这个时期最接近于完美的产品,也必然最受玩家欢迎。
AMD和NVIDIA都意识到了这一点,因此近年来他们对旗舰级显卡性能之王的宝座看得更淡了,反而是更加注重于提升中端千元价位显卡的综合实力——注意不仅仅是性能。所以我们看到,NVIDIA对于高端GTX480/470的失败毫不在意,仅凭中端GTX460这一款产品就一举扭转败局,获得了广大玩家的一致认可,AMD看似密不透风的HD5000产品线瞬间被撕开了一条裂缝,大量市场份额被抢走。
AMD在DX11时代的成功是有目共睹的,NVIDIA方面能拿得出手的也就只有GTX460这一款产品而已,AMD当然不甘心输给它。于是全新的一代HD6000系列准备就绪之后,最先发布的产品,就是定位中端的HD6870和HD6850,目标直接瞄准GTX460。
第一章/第三节 Radeon HD6000系列产品线解析和HD6870/6850定位分析
HD5800系列所使用的Cypress核心是一颗不大不小的GPU,AMD在40nm工艺尚未完全成熟的情况下,制造出了一颗拥有21.5亿晶体管的芯片,拥有非常不错的性能,而且功耗发热控制以及良品率都比较理想。
而NVIDIA方面用40nm工艺制造出了一颗拥有30亿晶体管的怪兽GF100核心,事实证明这颗核心太大、太热、良率太低,以至于至今都没有完整版出现,阉割版GTX480/470也草草退场。
Cypress作为一颗一年前的核心来说,它已经非常成功了,也胜利完成了自己的历史使命。但如果以现在的眼光来看的话,Cypress核心有点儿高不成低不就的感觉,它的性能做为旗舰显卡来说不够强大,作为中端显卡来说成本又太高了,用它降低身价去对付GTX460不太合适。
HD5000产品线细分方案
于是AMD在设计新一代产品的时候,准备对GPU做进一步的细分,高端造一颗比Cypress更大的核心,代号为Cayman;中端造一颗比Cypress略小的核心,代号为Barts;而旗舰级产品则继续采用双核心战略,用两颗Cayman组成代号为Antilles的怪兽。
HD6000产品线细分策略
如果按照AMD在HD5000系列那种命名方式的话,Antilles应该被命名为HD6900,Cayman命名为HD6800,Barts命名为HD5700。
但由于Barts的性能高于预期,而NVIDIA方面的GTS450又不给力,HD5700系列产品纷纷表示压力不大,AIB们个个情绪稳定,因此AMD临时决定把HD5700系列改名为HD6700接着卖(小道消息、未经AMD官方确认)。如此以来,新一代的Cayman、Barts核心命名都得往上调一档。
最终,基于Barts核心的两款产品被命名为HD6870和HD6850,基于Cayman核心的两款产品被命名为HD6970和HD6950,而双核心的Antilles被命名为HD6990。
第二章 HD6800系列图形架构解析
通过上一章节的分析,我们知道NVIDIA和AMD对于中端GPU核心的设计都投入了高度重视,NVIDIA之前发布的GF104核心虽然与GF100属于同一代产品,但核心架构方面的改进非常多。现在AMD也对新一代中端产品做了诸多改良,我们一起来看看。
第二章/第一节 HD6800核心架构图
下图为AMD官方公布的Bart(HD6870/6850)核心架构图,看上去和Cypress(HD5870/5850)并无太大区别,整体依然沿用了自R600(HD2900XT)以来的SIMD(单指令多数据流)架构,流处理器部分没有太多改进,历代产品的改进都是集中在周边控制模块上面。
★ Barts(HD6870)核心架构图
★ Cypress(HD5870)核心架构图
从Cypress到Barts最明显的改变就是,SIMD阵列从原来的20组降为14组,这样流处理器数量就从1600(20x16x5)个减至1120(14x16x5)个,正好与现有HD5830的流处理器数量相等。
也就是说Barts相比Cypress,流处理器数量是70%,晶体管规模是79%,芯片面积是68%。
★ 主流显卡规格对比:
可以看出,HD6870的理论性能和规格,其实还不如HD5850,而HD6850也不如上代的HD5830,那么其优势到底在哪呢?
第二章/第二节 Barts拥有两个超线程分配处理器
我们知道,NVIDIA从GF100到GF104,虽然CUDA核心方面的改进不大,但对SM(流处理器簇)整体架构进行了重新的排列组合,部分指令分配单元和特殊功能单元被增强。NVIDIA的MIMD(多指令多数据流)架构将并行指令的调度单元、分配单元都和特殊功能模块设计在了GPC(图形处理器集群)或者SM(流处理器簇)内部。而AMD的SIMD(单指令多数据流)架构则是整颗GPU共享单一的控制单元,自R600以来都是如此。
Cypress的单一图形装配引擎
但随着晶体管规模和流处理器数量的迅速膨胀,单一的控制单元已经无法满足大规模并行指令分配的需要,因此从Cypress开始,AMD采用了“双核心”的设计,将SIMD阵列一分为二,也就是类似于NVIDIA GPC的设计。与此相对应的,图形装配引擎虽然只有一个,内部却设计了两个Hierarchical Z(分层消影器)和Rasterizer(光栅器),但是其它的特殊功能模块均只有一个。
Barts的图形装配引擎
Barts和Cypress一样,依然保持了双核心设计,图形装配引擎也只有一个,内部的功能模块并没有太多变化。但是Ultra-Treaded Dispatch Processor(超线程分配处理器)却变成了两个,相对应的,超线程分配处理器的指令缓存也变成了两份。
我们知道,Barts的流处理器数量是Cypress的70%,按理说线程分配压力有所下降,那么设计两个线程分配处理器的目的只有一个,那就是提升效率。在DX11时代,几何着色再加上曲面细分单元引入之后,图形装配引擎会产生更多的并行线程及指令转交SIMD进行处理,因此分配效率成为了新的瓶颈。
SIMD架构的优势就是可以用较少的晶体管制造成庞大的流处理器规模,拥有恐怖的理论运算能力;但缺点就是流处理器执行效率比MIMD架构低,其效率高低完全依赖于分配单元的派发效率。因此Barts这种双线程分配处理器的设计意义重大!
第二章/第三节 增强的曲面细分单元
在Barts核心的图形装配引擎内部,还有一个毫不起眼的变化,那就是Tessellator(曲面细分单元)升级到了第七代,那么这一代到底有什么改进呢?
我们知道,NVIDIA GF100核心内部拥有多达16个曲面细分单元,GF104核心也有8个之多,而AMD的HD5000全系列都只有1个曲面细分单元,现如今HD6000系列还是维持全局共享1个的设计不变,其低下的曲面细分性能成为了NVIDIA攻击AMD最充分的理由。
HD6000系列可以说是半代改进的架构,既然数量上维持不变,就只能从改进效率的方面考虑了。而改进的内容就是加强线程管理和缓冲,也就是上页我们介绍过的“双倍的超线程分配处理器和指令缓存”。
根据AMD官方提供的数据来看,HD6870的曲面细分性能最多可达HD5870的两倍,这种情况出现在10级左右的中等细分程度,当曲面细分达到20级以上的时候,那么它们的性能就基本上没有区别了。
由此可见,Barts核心当中的Tessellator单元本身在性能方面应该没有改进,其性能提升主要源于两颗超线程分配处理器。中等级别的曲面细分在指令分配方面是瓶颈,Barts改进的架构消除了这一瓶颈,所以性能提升十分显著,但如果细分级别特别高时,Tessellator本身的运算能力将成为瓶颈,此时线程派遣器的效率再高,也无济于事。
第二章/第四节 曲面细分的正确方法
通过前文的分析我们可以知道,HD6000在曲面细分方面的改进其实与双线程分配处理器是一回事,性能提升也是在特定的情况下才会出现。但总的来说还是能有1.5倍-2倍的提升,这对于消除A卡在Tessellation方面的瓶颈还是很有意义的。不过,AMD还是坚持认为当今的GPU和游戏尚不需要特别强悍的曲面细分能力,简而言之就是“曲面分得太细并不能让图形画质变得更好,但却会造成图形性能大幅下降”。其实,笔者也认同这种观点,但曲面细分性能也不能太弱。
下面我们就看图说话,笔者选择了目前曲面细分级别最高的一款DX11 Benchmark程序和NVIDIA官方曲面细分演示Demo进行说明:
★ 天堂2.1当中Extreme级别的曲面细分
以下三张截图是最强A卡HD5970在1920x1080 4AA16AF模式下运行Heaven 2.0时获得的,从上到下依次为关闭曲面细分、普通级别曲面细分和极限模式曲面细分,大家可以点击放大对比细节差异:
Heaven 2.0 Tessellation Off,FPS=69
Heaven 2.0 Tessellation Normal,FPS=33
Heaven 2.0 Tessellation Extreme,FPS=16
可以看出,Tessellation从无到有所带来的画质改进是质变,石块、台阶、瓦片的立体感十分强烈,相应的光影效果也很到位。然后将Tessellation级别从Normal提升至Extreme时,凹凸立体感并没有太大变化,Normal模式已经足够出色了,过高的细分级别并不会带来更佳的画质,但却大大加重了显卡的负担,FPS损失非常惨重。
Heaven是款不错的DX11 Benchmark程序,其1.0版本是基于HD5000而开发的,Tessellation只有Normal级别。在GTX480发布之后,很快就诞生了2.0版本,其测试场景并没有太大变化,最核心的内容就是将Tessellation提升至Extreme级别,大家可以发现,片面提升曲面细分的结果就是:除了FPS暴降之外很难看出画面有什么提升!
然后通过测试成绩我们就可以发现,Heaven 1.0的成绩是很正常的,四款显卡的性能表现完全在意料之中。而在Heaven 2.0当中,局势完全被逆转,GTX480超越了双核的HD5970,GTX470都大幅领先与HD5870。这组成绩确实证明了GTX480和GTX470在重度曲面细分环境下拥有非常出色的效能,而HD5000将会出现严重瓶颈导致效能大降,但实际上却没有多少实际意义,因为加重曲面细分级别并没有带来画质改善,那么我们凭什么非要开到Extreme级别呢?
★ NVIDIA自家DX11 Demo Island11,100级Tessellation有必要吗?
关闭Tessellation与25级Tessellation的区别,即便缩略图都能看出来
默认50级与最高的100级的区别
上图为GTX480发布时NVIDIA同步放出的一款DX11演示Demo,通过Tessellation构建了波澜壮阔的水面,确实非常有创意。该Demo默认的Tessellation细分级别为50(可以认为是自动插入顶点的数目),将其加大到100级之后,GTX480依然能够流畅自如,而HD5870则只有个位数。
但是,50级和100级的画面真有区别吗?恐怕拿着放大镜也很难看出来,事实上即便是25级的Tessellation,画面已经非常好了,到了一定的精度就不会有什么效果了。
★ 小结:现阶段的游戏不需要太高级别的曲面细分
综上所述,通过两款曲面细分的代表Demo截图我们就会发现,当今的游戏其实并不需要把曲面分得太细,只要将插值顶点的数目控制在一定的范围之内,画面就非常精细了,盲目提高插值级别的做法没有太大意义,可谓是得不偿失。
事实上,当今所有的DX11都是这么做的,虽然使用了Tessellation技术,但都只是蜻蜓点水、适可而止,即便如此已经可以让游戏画面得到很大的改善。游戏不同于技术演示Demo或者SDK,而是本着实用化的原则,追求高效率运行,而不是专门用来刁难显卡的。
也就是说,以现有HD5000的Tessellation运算能力,是完全足以胜任今后较长一段时间内DX11游戏的需要。GTX480/470虽然拥有N倍于HD5000的Tessellation运算能力,但除了能够在为数不多的几款Demo当中蹂躏A卡外,似乎并没有其它用途。等到未来游戏真正需要更强的曲面细分性能时,当今的优异显卡可能几百块钱处理都处理不掉了,未来的游戏同样需要更强的浮点运算能力,而不是片面注重某一特定技术的性能。
第二章/第五节 架构解析:改进AA和AF画质效率
从G80时代开始,NVIDIA不满足于业界标准MSAA(多重采样抗锯齿),推出了自己的CSAA(CoverageSamplingAnti-Aliasing,覆盖采样抗锯齿)标准,从而实现了更高的精度和更佳的效率。
很多游戏除了传统的MSAA外,都内置了CSAA支持
而AMD也不逞多让,争锋相对的推出了CFAA(Custom Filter Anti-Aliasing,定制过滤抗锯齿),实现了更高倍数的抗锯齿模式。但是这种CFAA并没有得到游戏厂商的认可,因为这种自定义扩大采样色彩采样范围的抗锯齿模式,会出现将物体边缘变模糊的现象。
WOW打开CFAA后,花草还有文字都变模糊了
从G80发布至今,NVIDIA的CSAA技术得到了越来越多游戏开发商的认可,相信很多玩家都注意到了,现在不少游戏都直接在菜单中提供了CSAA选项,N卡用户不用进入驱动控制面板就能非常方便的调用。而AMD的CFAA虽然从HD2000时代已经沿用到了HD5000时代,但几乎无人问津。
终于到了HD6000时代,AMD抛弃了实用价值并不高的CFAA,开发了一种新的抗锯齿方案——Morphological AA,直译为形态抗锯齿。这种抗锯齿采用了DirectCompute计算技术来进行高效率的后处理器过滤,
新的抗锯齿模式适用范围比传统的MSAA更广,而且精度最高可达24x,效率方面比SSAA(超级采样抗锯齿)快很多,与最高精度的CFAA差不多,但画质要更好。
除此之外,HD6000系列还改进了AF(各项异性过滤)算法,使得纹理材质的清晰度和画质进一步提高,且不至于出现失真和变形。每一代新产品出现后NVIDIA和AMD都会强调AF画质和效率会更好,事实上它们前几代产品已经做得足够好了,新的改进除了用专业测试软件才能看出很小的区别外,在普通游戏中谁会注意到如此微不足道的变化呢?
第二章/第五节 架构解析:UVD3.0支持DIVX/XVID硬解码
在3D引擎部分,Barts核心相对于Cypress的改进并不多,只有超线程分配处理器、指令缓存、曲面细分模块和AA/AF算法这些。
从架构图中我们可以注意点,AMD的UVD(Unified Video Decoder,通用视频解码器)引擎现在升级到了第三代:
上图非常直观的揭示了UVD三代引擎在功能方面的改进,UVD2主要是加入了对即将淘汰的MPEG-2编码的硬解支持,让CPU占用率进一步下降,性能方面接近于NVIDIA VP3引擎。
★ UVD3引擎改进之一:MPEG-2完全硬解码
UVD3的改进最为彻底,MPEG-2编码最复杂的熵解码部分也可以支持硬解了,从而实现了完全硬解码,达到了NVIDIA VP3的水平。不过对于这种即将被淘汰的编码进行改进并不是UVD3的重点。
★ UVD3引擎改进之二:多屏、超高分辨率、多路视频流、3D蓝光硬解码
UVD3最有价值的改进就在于对与Eyefinity多屏应用模式下,超高分辨率视频解码的支持,以及多路视频流解码支持,还有3D蓝光硬解码支持。
★ UVD3引擎改进之三:加入了DivX/xVid视频硬解码支持
目前互联网上流行的很多盗版电影都是采用了DivX压缩格式,主要集中在DVDrip以及部分720p高清视频电影方面。另外新兴的XviD标准也因为更高的压缩率和画质在迅速成长。这两种由MPEG-4衍生出来的视频编码有着为数不少的影片(尤其是日本动作片)。
低分辨率的DivX/xVid视频码率并不高,对于CPU要求较低。但近年来也有朝着高清发展的趋势,分辨率提高之后的影片由于其压缩率很高因此解码时的CPU占用率并不低。此次UVD3解码器对DivX和Xvid提供了支持,可谓是民心所向。
★ UVD3引擎改进之四:视频画质接近满分
根据AMD官方公布的数据来看,在HQV Benchmark 2.0测试中,HD6870几乎可以达到满分的成绩,远胜过NVIDIA最新的GTX460显卡,和Intel的整合显卡不在一个档次。
HD6000系列采用了全新的后处理器算法,并且提供了增强的视频增强选项,进一步稳固A卡在输出画质方面的领先地位。
第三章 AMD显卡最近特色功能解析
第三章/第一节 HD6870/6850支持最新的DP 1.2和HDMI 1.4a标准
与UVD3引擎一同改进的,还有Eyefinity 2D输出引擎。Eyefinity技术可以外接的显示屏数量还是维持在6个,但是接口标准和定义都得到了全面增强,AMD公版HD6870/6850的接口种类也发生了变化:
★ 支持目前非常先进的DisplayPort 1.2、HDMI 1.4a标准
HD6870/6850同时支持当今非常先进的DisplayPort 1.2和HDMI 1.4a,其中DP1.2的规格十分强大,数据带宽比上代直接翻番,实现了单个接口4096x2160 @ 60Hz的超高分辨率!
而且DP1.2还支持多通道数据流传输技术,可以用一个接口连接几个显示设备,并且显示完全不同的画面。
而HDMI 1.4a的意义就在于,它可以兼容目前市面上最新的3D电视、投影仪等设备,以往的HDMI 1.3标准是无法支持这些3D设备的。
★ HD6870/6850公版卡接口解析,支持多流输出
HD5000系列的标准接口配置是双Dual-Link DVI、DisplayPort、HDMI,其中两个DL-DVI占据了4个显示通道,DP和HDMI各一个,这样就把Eyefinity的6个通道都用完了。
而HD6870/6850的标准接口配置则是一个Dual-Link DVI、一个Single-Link DVI、HDMI、两个Mini-DP。外观上是把一个普通DP替换成了两个Mini-DP,实际上是从原来的DL-DVI中拆分出来了一个显示通道,多做了一路DP输出。
这样做的好处就是,一片显卡可以直接接驳任何类型的数字显示设备而不需要转接,另外HD6870/6850的所有六个显示通道都可以直接输出,而不需要购买专用的6-DP特殊版显卡。
公版HD6870就能支持六路输出
这个功能是利用了DP 1.2标准当中的多流传输技术,通过专用的适配器,将一路Mini DP转接为三路,这样两路Mini-DP就能轻松支持六屏输出。而且转接出来的六路通道并不局限于DP接口,HDMI、DVI、VGA等常见的接口都可以兼容。如此一来,Eyefinity技术的实现难度还有兼容性将大大增强。
第三章/第二节 架构解析:AMD HD3D技术解析
不得不承认,NVIDIA是一家很有远见的公司,一年多前就研发成功的3D Vision立体显示技术,现在已经成为整个IT业界的发展趋势。而AMD的3D立体显示技术才刚刚开始得到采用。
首先在硬件方面,只要能够支持120Hz刷新率的输出,就可以在PC上实现3D显示技术。而想要在平板电视和投影仪上实现3D输出的话,就需要高带宽的HDMI 1.4a标准的支持,现在HD6870/6850率先做到了。
显示设备方面的支持也不是问题,市面上主流的3D电视、投影仪,还有120Hz LCD或者双面板LCD都能支持ATI显卡。
当然,最关键的还是在软件方面。同GPU物理加速一样,AMD仍然倡导开放的标准,因此AMD积极与第三方3D显示驱动供应商合作,能够支持iZ3D和DDD这两种3D转换方案,并且兼容多种3D视频播放软件,对于3D显示设备以及3D眼镜也都是来者不拒。
开放式的解决方案由于成本较低,选择范围比较广,因此受到了很多OEM厂商的亲睐,目前已经有不少笔记本和一体机采用了基于ATI显卡的3D显示解决方案,但开放式的标准比较多,如果并非OEM集成式方案的话,安装操作就较为复杂,因此AMD的HD3D方案在DIY领域并没有什么作为,知名度远不如NVIDIA的3D Vision。
目前AMD的3D显示技术,无论效果、兼容性还是软件支持度方面,都丝毫不差于3D Vision。无论是对于3D游戏的立体化,还是2D视频的3D化,都得到了主流媒体播放器的支持,而且AMD的新一代UVD3引擎还能支持3D蓝光硬解码,可以说已经相当成熟了。
第三章/第三节 特色功能:AMD Stream视频转码应用
CUDA是NVIDIA显卡的一大卖点,它能够将GPU庞大的运算能力释放出来,对非3D游戏应用软件进行加速,实现比纯CPU运算更快的效能。CUDA目前虽然有很多种类的软件,但最主要的应用还是集中在视频编辑和转码方面。
AMD方面与之相对应的技术叫做Stream,Stream相关软件的数量虽然与CUDA有一定的差距,但近年来AMD也投入了很高的重视,与众多知名的软件开发商展开了密切合作,尽快的加入对Radeon显卡的优化支持,让A卡用户也能体会到GPU加速所带来的快感。
目前使用率最为广泛的PowerDVD视频倍线、MediaShow照片人脸识别、PowerDirector视频编辑、MediaShow视频转码等应用,都可以支持使用A卡进行加速,性能提升非常显著。这些以往都是N卡的专利,现在A卡用户也能达到相同的效果了。
此外,AMD新一代的UVD3引擎,还可以直接为视频转码软件输出视频源数据,这样就能在大大降低CPU和GPU占用率的同时,显著提升视频转码速度。而以往在视频转换时,视频解码的任务要么是CPU运算,要么是GPU的流处理器部分运算,占用率都比较高。
第三章/第四节 特色功能:AMD开源物理加速技术解析
NVIDIA的物理技术PhysX收购自Agiea公司,仅能用于自家GeForce GPU。AMD此前选择了应用更广泛的Havok,既能在GPU上也能在CPU上执行,但是Havok已经被Intel收归麾下,GPU加速技术被雪藏,于是AMD又不得不选择了免费开源的大型实时物理引擎Bullet Physics。
日前,AMD已经正式公布了与Trinigy的合作进度,并且携手开发了一款基于DX11引擎、DirectCompute加速的物理演示Demo,通过公布的视频和截图来看,无论画面表现力,还是物理效果的逼真程度,都堪称一流。
此番展示的DEMO名为“Mecha Warrior”,其中有一个机甲战士在大城市中来回穿梭,一路破坏制造大量碎片,而这些效果都是利用Radeon HD 6800系列显卡配合Bullet Physics物理引擎完成的,速度相当流畅。
这款物理演示Demo是通过大名定定的Maya 2011制作而成的,AMD为其开发了免费的插件,使得程序员可以在现有的基础上,较快的开发出优秀的图像引擎。开源的魅力就在于此,相信未来会有更多基于A卡的物理加速演示出现在大家面前。
不过,目前AMD最大的问题是,雷声大雨点小,还没有任何一款游戏甚至公版的Benchmark/Demo能够支持A卡的GPU物理加速。希望AMD能够加大与游戏开发商的合作力度,将优秀的开源物理引擎整合到游戏当中,带给A卡用户们全新的游戏体验。
第四章 HD6870/HD6850显卡实物解析
第四章/第一节 AMD原厂HD6870公版卡高清大图赏析
首先我们来看一组AMD官方提供的公版卡美图,这些图片没有打上任何第三方Logo,喜欢的朋友们可以点击放大保存收藏:
第四章/第二节 AMD原厂HD6850公版卡高清大图赏析
接下来是公版HD6850显卡的高清大图,HD6850的外观和HD6870基本一样,只不过PCB要稍微短一截,散热器也略有不同。
第四章/第三节 AMD原厂HD6850公版卡高清大图赏析
这是我们收到AMD送测的HD6870公版显卡的实拍图:
外观方面之前AMD官方美图已经有了全方位的欣赏,那么下面就直接对HD6870进行拆解,看看其做工和用料如何:
HD6870的整体设计风格相比前代并没有没有变化,但显卡供电被转移到了PCB前端,这可能是改用了传统PWM供电之后,电感体积较大的关系,如果设计在PCB尾部会有一定的高度,占据涡轮风扇的位置。
Barts核心真身,比Cypress要小很多
Barts核心拥有17亿个晶体管,1120个流处理器,默认核心频率高达900MHz,看来AMD对于台积电40nm工艺的运用已经到了炉火纯青的地步,突破1GHz大关指日可待了。
现代0.4ns GDDR5显存颗粒,单颗32Mx32bit,8颗组成1GB 256bit的规格
HD6870所使用的显存与HD5870/HD5770相同,0.4ns的显存理论运行频率可达5000MHz,而HD6870的默认显存频率只有4200MHz,和HD5870/5770默认4800MHz的差距比较大。
HD6870的供电部分,采用了核心四相、显存控制器一相、显存一相的六相供电模块,AMD放弃了ATI原厂风格的数字供电模块,而改用了常见的PWM模拟供电,更有利于成本控制。但是8颗显存仅使用1相供电,这样并不利于显存超频,这可能是HD6870默认显存频率较低的主要原因。
散热器外观虽然四方四正,但结构和以往的公版卡没什么区别,散热片部分为铜底、热管、铝鳍片,涡轮风扇侧吹式风道接口。这种散热器散热效率相对较低,但优势就是可以把显卡发出的热量全部排出机箱之外,不给机箱散热造成负担,因此AMD和NVIDIA公版卡最喜欢用这种结构。
输出接口比较多,因此留给排风口的空间只剩下半个PCI挡板了。HD6870这五个接口的定义在前文中已经详细讲解过了,这里就不再重复。AMD没有直接设计6个Mini DP接口,安置了这么多种类型的接口,就是为了能够兼容市面上所有的显示器,其中DVI接口还能转接成为D-SUB兼容模拟设备。
第四章/第四节 显卡解析:XFX HD6850显卡实物拆解
AMD此次并未送测原厂HD6850显卡,因此这里我们使用XFX的HD6850进行拆解,这款HD6850的PCB和做工用料都采用了公版设计,但输出接口和散热器是非公版方案。
外观与AMD公版完全不同,但也比较好看,纯黑的外壳和PCB是XFX讯景最常见的风格。
HD6870的PCB明显要比HD6870短一截,但各种元件的布局非常类似,只不过更加紧凑。
HD6850所采用的Barts核心,被屏蔽了2组SIMD阵列,流处理器减少为960个,纹理单元也同比减少,但光栅单元和显存部分则没有缩水。默认核心频率为775MHz。
显存颗粒也还是现代0.4ns,1GB 256bit的配置,但默认频率被降至4000MHz,和HD5850一个水平。
HD6850供电部分的设计,基本与HD6870一致,核心本来也是4相式设计,不过由于精简了流处理器、频率还比较低,因此只要3相就够了,而显存控制器和显存各1相。整卡功耗得到进一步控制之后,外接供电接口只需要1个6pin都够了,另外一个空焊。
XFX HD6850的散热器并没有使用公版涡轮侧吹式设计,而是比较常见的太阳花型直吹方案,这种结构的散热效率很高,但缺点就是热量会残留在机箱之内。
XFX这款HD6850,在输出接口部分沿用了上代HD5870/5850的设计,只有一个大DP,默认可以支持三屏输出,但无法实现六屏输出。
第四章/第五节 首批上市显卡:XFX HD6870
我们第一时间受到了XFX送测的HD6870显卡,这款显卡完全采用了公版设计方案,只不过在公版散热器上贴上了自家Logo贴纸,因此就不多做介绍了。
显卡接口也保持了公版的方案,但出风口部分设计了XFX的Logo,显得比较有个性。
第四章/第六节 首批上市显卡:蓝宝石 HD6870
第四章/第七节 首批上市显卡:蓝宝石 HD6850
第四章/第八节 首批上市显卡:迪兰恒进 HD6870
第四章/第九节 首批上市显卡:迪兰恒进 HD6850
第四章/第十节 首批上市显卡:微星HD6870
第四章/第十一节 首批上市显卡:微星HD6850
微星这款HD6850是唯一保持原厂公版风格的HD6850,PCB和散热器以及输出接口都与AMD提供的照片一致,我们一起来看看:
第五章 显卡性能全方位测试
第五章/第一节 测试平台与测试方法说明
★ 测试模式与测试方法:
此次发布的两款显卡定位中高端的游戏玩家,性能十分强劲,测试时所有游戏中尽可能开启全部特效,包括内置的抗锯齿(AA)和各向异性过滤(AF)。游戏最高提供8xAA就开8x进行测试,只有4x就开4x,没有的话就不强制开启。虽然有些游戏提供了更高精度的16xCSAA,但由于A卡不支持这种抗锯齿模式,没有可对比性,所以不做测试。
分辨率只测目前最主流的全高清1920x1200,更高的2560x1600由于30寸显示器太昂贵,非普通玩家所能承受,因此不做测试。目前也有很多显示器是1080p(1920x1080),游戏在这种分辨率下的性能表现与1920x1200差不多,FPS稍高一点点,使用这种显示器的朋友依然可以参考我们的测试成绩。
★ 测试平台配置:
PCPOP.COM评测室 | |
硬件系统配置 | |
AMD Phenom II X6 1090T (3.2GHz , L3=6MB , 6 Core) | |
主 板 |
ASUS Crosshair IV Formula (AMD 890FX Chipset) |
显 卡 |
HD6870 1GB (900/4200MHz) HD6850 1GB (775/4000MHz) HD5870 1GB (850/4800MHz) HD5850 1GB (725/4000MHz) GTX470 1280MB (608/1215/3348MHz) GTX460 1GB (675/1350/3600MHz) |
内 存 |
CORSAIR 2GB x2 DDR3-1600(9-9-9-24-1T) |
硬 盘 |
Seagate 7200.12 1TB |
电 源 |
安耐美金魔族87+ |
软件系统配置 | |
Windows 7 Ultimate 64Bit | |
DirectX |
11.0 |
显示驱动 |
NVIDIA Forceware 260.89 WHQL ATI Catalyst 10.10 WHQL |
此次测试平台选择了AMD最高端的六核心处理器,搭配最新的890FX芯片组,与Radeon HD6000/5000系列可以组成传说中的3A平台。虽然看起来很高端,但其实价格并不算贵,比Intel平台的性价比要高很多。
AMD此次发布的新品HD6870和HD6850,我们自然会拿它与自家上代产品HD5870和HD5850进行对比。至于N卡方面,则选择了价位相近的GTX460 1GB和GTX470进行对比,总计六款定位中高端的显卡。
所有参测显卡都使用NVIDIA和AMD双方的公版规格和公版频率,这样测得的性能和功耗发热数据最有参考价值。
第五章/第二节 DX9C理论:《3DMark06》
软件介绍:3DMark06作为DX9C权威的理论测试工具,包括了两个SM2.0测试和两个SM3.0测试场景,基本上达到了DX9C的画面最高境界。虽然当今显卡已全面进入了DX11时代,但考虑到至今仍有不少新游戏依然采用DX9C引擎,加入3DMark06的测试结果对于很多主流游戏都有参考价值的。
画面设置:如今3DMark06已经难不倒高端显卡了,高端显卡在3DMark06中难分高下,所以我们只能最大程度的提高它对系统的要求,比如说提高分辨率开启抗锯齿等。所以我们选定了在1920x1200主流分辨率开启最高的8AA16AF模式下,测得其SM2.0和SM3.0两项成绩供大家参考。
可以看到,HD6870的性能刚好在HD5870和HD5850之间,并没有超越上代单芯旗舰。事实上通过其核心规格就可以大致了解到HD6870的性能是不可能达到HD5870的水平的,能够胜过HD5850已经很不容易了。
HD6850自然也不敌HD5850,但是相比同价位的GTX460 1GB,还是有一定的优势。
HD5870与GTX470之间的性能对比,也同样值得关注。接下来在热门DX9C游戏中,我们看看性能表现是否与3DMark06一致?
第五章/第三节 DX9C游戏:《使命召唤6:现代战争2》
游戏介绍:作为《使命召唤》系列的第六部作品,在《现代战争2》中,将《使命召唤4:现代战争》剧情延续,俄罗斯又再次陷入政治上的纷扰不安。伏拉米尔.马卡洛夫这位和伊姆兰.扎哈恐怖组织有关连的粗暴领袖,策划了一连串即将危及世界安全的阴谋。
相关评测:经典再度回归!全特效爽玩[现代战争2]
画面设置:《现代战争2》游戏中的画质进阶设定显得比较简单,在这里我们能看到常见的阴影开关、各种画面细节、材质填充模式等。COD6虽然引擎比较老,但经过常年累月的优化,爆炸、烟雾、火焰效果都不输给DX10游戏,要求也并不低。游戏内置AA最高4x,所以并没有测试8xAA时的性能。
测试方法:游戏没有提供Benchmark,测试时笔者选用了一段固定的场景,期间会有爆炸、大楼倒塌、灰尘弥漫等复杂的场景,通过Fraps记录整个过程的平均FPS和最低FPS。
★ 1920x1200分辨率,抗锯齿4x
COD6中的表现,与3DMark06比较类似,HD6870略胜HD5850,HD6850小胜GTX460。虽然A卡的平均性能要强于N卡,但最小FPS方面N卡还具有一定的优势。此次测试我们不仅加入了最小帧,而且还将测试过程中的FPS波动曲线绘制出来,供大家参考:
可以看出,在测试前半分钟,由于出现了复杂的爆炸场景和大量的烟雾效果,几款显卡的FPS损失都比较严重,还好大都保证30帧以上的流畅速度。
而在后半分钟,场景比较稳定时,即便是最弱的GTX460发挥也很不错,他们的实力差距完全的呈现在了大家面前。
第五章/第四节 DX9C游戏:《星际争霸2:自由之翼》
相关评测:破解如此简单!教你单机爽玩《星际2》
游戏介绍:万众期待的暴雪神作《星际争霸》,在10年之后终于迎来的3D版本,目前暴雪已经正式开放了《星际争霸2:自由之翼》的Beta测试。虽然该游戏并不支持时下流行的DX10、10.1甚至DX11,但暴雪凭借成熟的DX9C技术,也将画面做的非常完美,大量HDR及SSAO特效的应用导致要求也比较高。
画面设置:所有特效全开最高,分辨率使用常见的1920x1200。值得一提的是,星际2虽然没有抗锯齿模式,但可以在显卡驱动中强开,画质会有所改善。因此测试时我们打开了4AA16AF模式。
测试方法:从战网上下载一个1V1单挑录像,通过录像回放模式播放一段激烈的战斗场面,通过Fraps记录平均FPS和最小FPS。
★ 1920x1200分辨率,超高画质,4AA16AF
通过此前大量的测试证明,星际2对显卡的要求并不算高,高端显卡在运行星际2时出现了性能过剩的情况,FPS无法进一步提升的瓶颈在于CPU,而非显卡。因此我们可以看到六款显卡的性能表现并没有拉开差距。
通过实施FPS波动曲线来看,几款显卡都不是很稳定,性能也没有多少差距,流畅运行星际2不成问题。
第五章/第五节 DX9C游戏:《街头霸王IV》
游戏介绍:CAPCOM公司于1987年推出的大型电玩机台格斗游戏《街头霸王》,堪称目前格斗类游戏的始祖。经过了20多年的不断演化之后,如今的PC版《街头霸王4》不仅在画面上走向了全新方向,而且加入了各种新系统,试图让传统2D格斗游戏得到重生。
画面设置:街霸4 PC版和游戏机版相比,除了支持高分辨率输出之外,还为玩家提供了画面渲染风格选择的功能,除与家用机版一样的“普通”模式外,还有“水彩”、“海报”和“烟灰墨”这三种追加的渲染风格,带给完全全新的视觉体验。
测试方法:测试时使用游戏自带Benchmark。由于游戏要求较低,因此直接开启最高的8xMSAA+16AF模式。
★ 1920x1200分辨率,抗锯齿8x,各项异性过滤16x
这款引擎老旧、画面风格简单的游戏已经难不倒当今中高端显卡了,随便都能跑出100帧以上的成绩,此时讨论性能高低、是否流畅已经没什么意义了。
第五章/第六节 DX9C游戏:《黑手党2》
相关评测:285只配做物理卡?[黑手党2]全面评测
游戏介绍:《黑手党2》(Mafia II)将带领玩家进入1940年至1950年虚构的地下世界,就像好莱坞电影般的游戏世界,玩家可在拟真的城市中冒险。在1940年代的城镇中,居民如同往常过着平静的生活,帮人擦鞋、卖报纸,而路边偶尔会出现黑帮份子。
画面设置:这是一款支持PhysX GPU物理加速的最新游戏,但依然使用了DX9C引擎,因此画面本身并不出彩,但大量的爆炸、烟雾、破碎、衣料等物理效果还是很不错的。
测试方法:游戏自带Benchmark,内置的抗锯齿并不知道是多少倍数,分为不开PhysX和High两种模式进行测试。
★ 1920x1200分辨率,不开PhysX
其实在关闭PhysX的情况下,游戏中依然有一些物理效果通过CPU演算,此时显卡的性能等级分布与3DMark06相类似,6870略胜5850、6850略胜GTX460。
★ 1920x1200分辨率,PhysX High
开启PhysX之后,不支持GPU加速的A卡瓶颈卡在CPU方面,FPS直线下跌到10帧以下,完全无法流畅运行,性能也无法分出高下。而GTX460算是勉强流畅吧,能保证25帧左右的成绩。
第五章/第七节 DX10理论:《3DMark Vantage》
游戏介绍:3DMark Vantage所使用的全新引擎在DX10特效方面和《孤岛危机》不相上下,但3DMark不是游戏,它不用考虑场景运行流畅度的问题,因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨,号称“显卡危机”的Crysis也不得不甘拜下风。
画面设置:3DMark Vantage中直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级),只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了。我们为这次的优异卡对决选择了最高的Extreme模式,它其实就是最高画质1920x1200分辨率再加上4AA16AF模式。
测试方法:N卡支持PhysX,在CPU测试子项中成绩会翻几倍,最终总成绩会提高一些,但并不会影响GPU测试子项的成绩,因此在测试中保持默认驱动设置,PhysX是开启的。
3DMark Vantage比3DMark06更加偏重于像素着色器的性能,因此流处理器数量较少的HD6870和HD6850并不占优势,HD6870只领先HD5850一点点,而HD6850落后GTX460比较多。
第五章/第八节 DX10游戏:《孤岛危机:弹头》
游戏介绍:Crysis(孤岛危机)无疑是DX11出现之前对电脑配置要求最高的PC游戏大作。Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏。Crysis还有个资料片Warhead,使用了相同的引擎,只是多了一个关卡,因此我们还是使用原版做测试。
画面设置:Crysis只有在最高的VeryHigh模式下才是DX10效果,但此前所有高端显卡都只能在低分辨率下才敢开启DX10模式,如今的DX11显卡终于有能力单卡特效全开流畅运行。我们直上1920x1200高分辨率,开启4AA和8xAA两种模式进行测试。
测试方法:Crysis内置了CPU和GPU两个测试程序,我们使用GPU测试程序,这个程序会自动切换地图内的全岛风景,得到稳定的平均FPS值。
★ 1920x1200分辨率,抗锯齿4x
★ 1920x1200分辨率,抗锯齿8x
Crysis大量使用了高精度纹理贴图,因此纹理单元数量较少的N卡非常吃亏,HD6850的性能都达到了GTX470的级别。这款重量级的DX10大作,让N卡很没面子。
由于Crysis自带的Benchmark并没有按时间轴进行测试,获得的实时FPS波动曲线没有可比性,因此这款游戏并没有提供FPS曲线供大家参考。
第五章/第九节 DX10游戏:《冲突世界:苏联进攻》
游戏介绍:《冲突世界》将带领玩家返回著名的冷战时期,玩家每一个决定均影响游戏中人物和情节。可于游戏中感受不一样的团队精神,与队友于阴森恐怖的战场上一同作战。《苏联进攻》是其最新的资料片,收录全新角色、扮演苏联军队、10套新影片和全新多人联机地图等等。
画面设置:《冲突世界》是首批DX10游戏之一,采用了自行研发的MassTech引擎,支持多种当前的主流显示特效,如容积云,景深效果,软阴影等,光照系统也表现出色,尤其是半透明的容积云特效营造出了十分逼真的户外场景,物理加速结合体积光照渲染出了最逼真的爆炸效果。
测试方法:内置Benchmark是一段非常华丽的过场动画作为测试程序,最终得出最大、最小和平均FPS,测试结果非常精确。WIC最高支持4AA,因此我们只测试1920 4AA16AF模式。
★ 1920x1200分辨率,抗锯齿4x,各项异性过滤16x
HD6870与HD5850、GTX470几乎完全相同,但都不如HD5870,1600个流处理器的威力不可忽视。HD6850只是小胜GTX460,由于WIC的部分场景特别复杂,因此几款显卡的最小帧都很低。
通过实时FPS波动曲线可以看出,流处理器较少、频率较低的HD6850在最小帧方面的表现确实不如GTX460,但平均FPS要高于它。
第五章/第十节 DX10.1游戏:《孤岛惊魂2》
游戏介绍:自《孤岛惊魂》系列的版权被UBI购买之后,该公司蒙特利尔分部就已经开始着手开发新作,本作不但开发工作从Crytek转交给UBI,而且游戏的故事背景也与前作毫无关系,游戏的图形和物理引擎由UBI方面完全重新制作。
画面设置:借助于蒙特利尔工作室开发的全新引擎,游戏中将表现出即时的天气与空气效果,所有物体也都因为全新的物理引擎,而显得更加真实。你甚至可以在游戏中看到一处火焰逐渐蔓延,从而将整个草场烧光!而且首次对DX10.1提供支持,虽然我们很难看到。
测试方法:游戏自带Benchmark工具。
★ 分辨率1920x1200,抗锯齿4x
★ 分辨率1920x1200,抗锯齿8x
FarCry2中N卡的实力不凡,GTX460达到了HD5850的水准,略输于HD6870,而HD6850则垫底,毕竟流处理器和频率缩水都比较多。
第五章/第十一节 DX10.1游戏:《鹰击长空》
游戏介绍:《鹰击长空》由Ubisoft旗下的Bucharest Studio工作室所研发制作而成,以汤姆克兰西最擅长的近现代国际冲突为背景,加上现代化的军事武器,和五角大厦不愿证实的开发中的先进武器,交织出最激烈的高科技攻防战。而《鹰击长空》也脱离前面几项作品的框架,将战争从地面拉拔到空中,享受广大无界限的战斗空间。
画面设置:《鹰击长空》直接内置了对DX10和DX10.1的支持,它会自动检测显卡最高能支持的级别。通过此前的测试来看DX10.1并不会让画质变得更高,但的确能够让游戏跑得更快。我们使用1920分辨率,4AA和8AA两种模式进行测试。
测试方法:游戏自带Benchmark,A/N双方都开启DX10.1模式。
★ 分辨率1920x1200,抗锯齿4x
★ 分辨率1920x1200,抗锯齿8x
这次性能表现又反过来了,在前期HD6850与GTX460的性能不相上下,但在测试场景后半部分激烈的空战中,GTX460性能波动较大,而A卡的整体表现则较为稳定,最终胜出。
第五章/第十二节 DX11理论测试:《Heaven Benchmark 2.1》
游戏介绍:Unigine Engine率先发布了首款DX11测试/演示程序——Heaven Benchmark,其中大量运用了DX11新增的技术和指令,看来在新版3DMark面世之前,Heaven将会是DX11性能测试的非常好的选择。
画面设置:2.1版本进一步强化了Tessellation技术的应用,细分精度更高,画面更上一层楼,测试时所有特效全开最高,包括Extreme级别的Tessellation。
测试方法:自带Benchmark。
★ 分辨率1920x1200,抗锯齿4x,各项异性过滤16x
★ 分辨率1920x1200,抗锯齿8x,各项异性过滤16x
Heaven 2.0的测试过程比较漫长,总共有多达26个场景(视角),因此实时FPS波动曲线比较密集。最终性能差异也很明显,Tessellation性能偏弱的A卡整体都不如N卡。
但值得一提的是,HD6870的性能居然超越了HD5870,与GTX460差不多;HD6850的性能也达到了HD5850的水平。这说明新一代HD6000系列的确对于Tessellation性能进行了改良,在曲面细分负载特别重的Heaven 2.1当中,HD6870并没有输给GTX460,要知道GTX460拥有多达7个曲面细分单元,而HD6870只有1个,能够在N卡的强项中打成平手已经很不容易了。
第五章/第十三节 DX11演示Demo:《石巨人》
游戏介绍:游戏引擎开发商BitSquid与游戏开发商Fatshark近日联合公布了一个展示DX11强大技术的DEMO。这个名为《StoneGiant》(石巨人)的DEMO,可以让玩家来测试自己PC显卡的DX11性能。BitSquid Tech即将提供PC平台的引擎,并且大概在今年第三季度将提供PS3和Xbox 360等其他平台的引擎。
画面设置:StoneGiant是一款技术演示Demo,画面做的非常精美,进入之后可以选择开启关闭Tessellation以及DOF(DX11级别景深)进行测试,这两项技术都十分消耗资源,尤其是同时打开时。其中Tessellation技术对画质的改善最为明显,而DOF如果不细看则不容易察觉,因此测试时默认开启Tessellation、分别打开和关闭DOF进行两次测试。
测试方法:游戏自带Benchmark。
★ 1920x1200分辨率,不开景深
★ 1920x1200分辨率,开启景深
比起Heaven Benchmark,石巨人当中使用了更多的曲面细分技术,因为这款Demo本身就是NVIDIA主推的,最终A卡表示压力非常大,就连经过改进Tessellator单元的HD6870/6850也败下阵来,都不如GTX460。
不过,无论“天堂”还是“石巨人”,都走的是极端路线,目前所有9款DX11游戏都没有使用如此苛刻的曲面细分特效,虽然A卡在Tessellation技术方面依然落后于N卡,但无伤大雅,目前以及今后的DX11游戏依然不会走到如此极端的地步。
第五章/第十四节 DX11游戏:《BattleForge》
游戏介绍:《BattleForge》是EA旗下德国Phenomic游戏制作室研发的全新即时战略网络游戏。在《BattleForge》中,玩家依靠收集、交易卡牌来建立庞大的军队。通过在线赢取、交易和购买卡牌来组成你强大的阵容,混合搭配不同属性的卡牌来和朋友进行在线战斗,或是在大规模的在线战役中取得胜利。
画面设置:从技术角度来讲,这款游戏也非常值得关注,其画面堪称网游顶尖之作,率先提供了对DX10.1技术和屏幕空间环境光遮蔽(SSAO)特效的支持,还针对多核心处理器进行了优化。现在又第一时间对DX11加入了支持,加入了HDAO和DirectCompute,测试时自然所有特效全开最高。
测试方法:《BattleForge》虽然是款网游,但游戏自带了Benchmark,这给评测带来了很多便利。Benchmark可以测出最大/最小/平均FPS三个数值,笔者连跑三遍Benchmark得到最稳定的成绩,保留了最有参考价值和的平均FPS和最小FPS供大家参考。
★ 分辨率1920x1200,抗锯齿4x,各项异性过滤16x
★ 分辨率1920x1200,抗锯齿8x,各项异性过滤16x
4AA模式下,HD6850的性能与GTX460相同,但开到8AA之后被反超,新一代N卡的抗锯齿性能还是很强的。HD6870依然只是小胜HD5850,毕竟这款DX11游戏并没有太多新的DX11特性。
第五章/第十五节 DX11游戏:《科林麦克雷:尘埃2》
游戏介绍:《科林麦克雷》系列游戏是为纪念去世的英国拉力赛车手科林·麦克雷(Colin McRae)而制作的,因此在游戏过程中不难见到许多麦克雷过往的身影。与一年一款的优品系列赛车游戏不同,DiRT2距离前作已经两年之久,目前《科林麦克雷:尘埃2》主机版早已上市,几乎登陆所有的主机和掌机平台、好评如潮,而PC版由于支持DX11的缘故,所以被延期数月。
画面设置:DIRT2堪称DX11游戏代表作,DX11的五大关键特性在这款游戏中都有体现,但却没有得到大范围的应用,都是点到为止。比如Tessellation主要体现在水洼和旗帜上,而赛车过程中也就那么几处采用了该技术,因此这款DX11的要求并不高,特效全开的话中端显卡都能跑动。
测试方法:游戏自带Benchmark程序,会自动跑完一个固定的赛道,非常接近于真正玩游戏的模式,最后得出平均FPS和最小FPS。
★ 1920x1200分辨率,抗锯齿4x
★ 1920x1200分辨率,抗锯齿8x
在《尘埃2》中,GTX460 4xAA模式下性能较好,可在8xAA模式下性能损失较多,但依然能胜过HD6850,HD6870还是小胜HD5850。
好在尘埃2的要求不是很高,几款显卡特效全开最高都能流畅自如的运行。
第五章/第十六节 DX11游戏:《潜行者:普里皮亚季的召唤》
游戏介绍:《潜行者》系列游戏现在已经出到第三部了,其中第二部《晴空》是原作《阴影》的前传,而第三部《普里皮亚季的呼唤》则是原作《阴影》的后传,讲述了在变异区中心被发现后,乌克兰政府决定举行代号“航道”的大规模军事行动,目的则是控制变异区的科技,玩家的冒险也就此展开。
画面设置:此前《潜行者:晴空》已经率先支持DX10.1,主要优化了抗锯齿算法、阴影渲染和效率,新版的资料片则首次加入支持DX11,通过Tessellation技术大幅加强了模型细节、纹理和光影,而且通过DirectCompute 11技术改进了算法,提升游戏性能。测试时将包括透明抗锯齿在内的所有特效全开最高,考验高端显卡在最高画质下的性能表现。
测试方法:使用官方Benchmark包进行测试,游戏没有提供更高的AA级别,因此只测试4AA模式。
★ 分辨率1920x1200,抗锯齿4x
HD6870只比HD5850强一点,也比GTX470强一点点,但与HD5870的差距很大。HD6850也比GTX460强一点点,可以说是旗鼓相当了。
第五章/第十七节 DX11游戏:《异型大战铁血战士》
相关评测:年度DX11大作!异形大战铁血战士测试
游戏介绍:《Aliens vs. Predator》同时登陆PC、X360和PS3,其中PC版因为支持DX11里的细分曲面(Tessellation)、高清环境光遮蔽(HDAO)、计算着色器后期处理、真实阴影等技术而备受关注,是AMD大力推行的游戏之一,但是这样的主题难免让本作有很多不和谐的地方,暴力血腥场面必然不会少!发行商世嘉在2009年11月就曾明志,表示不会为了通过审查而放弃电子娱乐产品发行商的责任,因为游戏要维持“异形大战铁血战士”这一中心主题,无论画面、玩法还是故事线都不能偏离。
画面设置:AVP原始版本并不支持AA,但升级至1.1版本之后,MSAA选项出现在了DX11增强特效当中,当然还支持Tessellation、HDAO、DirectCompute等招牌。该游戏要求不算太高,所以笔者直接将特效调至最高进行测试。
测试方法:游戏自带Benchmark
★ 1920x1200分辨率,抗锯齿4x,各项异性过滤16x
HD6870凭借较高的频率,性能上表现不赖,超过了自家的HD5850和对手的GTX470。而HD6850由于频率较低,性能只能和GTX460处在同一级别。
第五章/第十八节 DX11游戏:《战地:叛逆联队2》
游戏介绍:《战地:叛逆连队2》(Battlefield: Bad Company 2),是EA DICE开发的一款第一人称射击游戏。开发商EA已经于本月2日正式同步发售了Xbox 360、PS3、PC版。该游戏是EA DICE开发的第9款“战地”系列作品,也是《战地:叛逆连队》的直接续作,在继承前作特性的基础上,强化了多人联机载具对战和团队合作元素的设定。游戏使用加强版的寒霜引擎,加入了建筑物框架破坏和物体分块破坏的支持。
画面设置:《叛逆联队2》虽然是款DX11游戏,霜寒引擎也是备受期待的DX11引擎,曾被ATI用来做Tessellation的技术展示。不过最新版本的对DX11的支持非常有限,仅仅是采用新指令集渲染HBAO特效而已,游戏会自动侦测显卡的DX级别来选择渲染模式。
测试方法:游戏不带Benchmark,笔者选取了单人任务模式下的一段无需手动干涉的过场动画进行测试,其中包括大量激烈的轰炸爆破激战场面,完全可以反映真实的游戏性能。
★ 1920x1200分辨率,抗锯齿4x,各项异性过滤16x
★ 1920x1200分辨率,抗锯齿8x,各项异性过滤16x
这款DX11游戏中,各款显卡的性能排列与AVP区别不大,HD6850和GTX460在4AA模式下性能持平,8AA模式下HD6850稍逊一筹,看来HD6850和GTX460的性能表现十分接近,他们在所有游戏中的成绩都非常值得关注,毕竟GTX460是NVIDIA的当红明星,而HD6850则是AMD未来的中端主力。
第五章/第十九节 DX11游戏:《地铁2033》
游戏介绍:《地铁2033》(Metro 2033)是俄罗斯工作室4A Games开发的一款新作,也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine,支持当今几乎所有画质技术,比如高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。
画面设置:《地铁2033》虽然支持PhysX,但对CPU软件加速支持的也很好,因此使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏由于加入了太多的尖端技术导致要求非常BT。
测试方法:选用第三方Benchmark程序,这是一小段地铁隧道中的战斗场景,场面复杂战斗激烈,对显卡提出了严峻考验。
★ 1920x1200分辨率,开启自适应抗锯齿(AAA),各项异性过滤16x
虽然没有开启MSAA,但DOF(景深)的加入也让优异显卡们不堪重负了,HD6870能达到和HD5870/GTX470一样的级别,算是个奇迹。
★ 1920x1200分辨率,抗锯齿4x,各项异性过滤16x
一旦开启4xMSAA之后,A卡性能下降很多,尤其是规格较低的HD6850,而N卡效率较高。
不过所有的显卡都没能超过20帧,都卡的不行,所以这里的测试成绩都是毫无意义的,只能作为参考。
第五章/第二十节 DX11游戏:《失落的星球2》
游戏介绍:《失落的星球2》的游戏舞台是前作故事发生后十几年之后经过温暖化改变的EDN-3rd,这里将新增丛林等新场景,主人公也并非前作那样为一人,而是以“雪贼”们不同的视点展开故事。
画面设置:与前作相同,《失落的星球2》采用CAPCOM公司原创引擎MT Framework的最新版VER.2.0进行开发,游戏世界的表现将更加细致和美丽。而不仅仅是画面上的进化,本作将会在前作玩家要求基础上追加大量全新要素,新场景、新角色、新武器等自不必说,角色的动作也比前作更加丰富多彩。
测试方法:游戏自带Benchmark,选择B场景的BOSS战,非常激烈过瘾。
★ 1920x1200分辨率,抗锯齿4x,各项异性过滤16x
★ 1920x1200分辨率,抗锯齿8x,各项异性过滤16x
失落的星球一代是首款DX10游戏,是由NVIDIA主导开发而来的,二代是在一代引擎的基础上改进而来,由于采用非常复杂的指令,因此非常适合于N卡的MIMD引擎,而A卡SIMD引擎的执行效率会比较低。
这款游戏对N卡的优化支持非常到位,可以看出GTX460和GTX470的性能都相当不错,远超同级A卡。
但值得一提的是,在这款游戏中,HD6870的性能小胜HD5870,出现这种情况的原因只有一种——那就是双超线程分配处理器发挥作用了,它使得HD6870比HD5870拥有更高的执行效率。
第五章/第二十一节 DX11游戏:《文明5》
相关评测:首款DX11策略游戏《文明5》详细评测
游戏介绍:该游戏的主体内容正如游戏名称一样,描述了人类文明诞生后的发展历程,玩家将从公元前4000年开始,一直将一个种族发展到21世纪甚至未来,发展历程中紧密相关的是经济、文化、科技、政治等因素,你将亲身感受历史中各种各样的事件。最终建立起一个王朝,游戏最终胜利的方法也多种多样,包括军事征服、文化统一、外交等多种手段。不仅游戏本身乐趣十足,还能充分了解人类文明发展的历程。
画面设置:文明5虽然支持DX11,但对显卡的要求不算高,所有的场景都是静态画面,即便FPS很低也不影响游戏感。只是作为一款回合制游戏,在进行演算的过程中非常消耗CPU资源。
测试方法:我们发现在地图全开模式,切换到最高视觉时,最消耗显卡资源,因此我们选择了在这种模式下进行测试。
虽然FPS都不足25帧,其实这种最高视觉俯瞰的模式走的是极端,稍微放大一下FPS就会成倍的提高。HD6870的表现还是不错的,但HD6850性能偏低。
第六章 附加测试项目与成绩汇总
第六章/第一节 附加测试:显卡功耗
我们的功耗测试方法是直接统计整套平台的总功耗,既简单、又直观。测试仪器为微型电力监测仪,它通过实时监控输入电源的电压和电流计算出当前的功率,这样得到的数值就是包括CPU、主板、内存、硬盘、显卡、电源以及线路损耗在内的主机总功率(不包括显示器)。
待机为windows7桌面下获得的最小值;满载是以1920 8AA模式运行Furmark时的最大值,Furmark能够让显卡稳定的以100%满负载模式运行,测得的功耗值比一般的游戏要高一些。
HD6870与HD6850的待机功耗都是116W,均小于HD5870和HD5850,可见AMD在空闲功耗控制方面又有了一定的进步,但比起GTX460还是要稍高6瓦,具体原因笔者将在下页进行分析。
而满载功耗方面,HD6850控制的最为出色,比GTX460低了37瓦,而这两款显卡的性能是十分接近的。HD6870的性能要远胜过GTX460,但它的功耗只比HD5850高6W,表现非常完美。
GTX470则是个电老虎,无论待机还是满载都遥遥领先于其他显卡,这款产品虽然性能接近于HD5870,但功耗发热噪音都让人难以接受。
第六章/第二节 附加测试:待机频率/温度/电压对比
HD6870/HD6850的功耗相当不错,那么发热和噪音方面如何呢?我们借助一些监控工具来看看。测试环境为开放式平台,中央空调保证室温稳定在25度左右:
★ HD6870待机频率100/300MHz,核心电压0.945V,核心温度43°
注:目前GPU-Z对HD6000系列的显存频率监控不准确,实际频率应该以催化器驱动中的为准,HD6000系列待机时的显存频率为300MHz,与HD5000系列相同。
★ HD5850待机频率157/300MHz,核心电压0.95V,核心温度38°
★ GTX460待机频率50.6/67.5/101MHz,核心电压0.875V,核心温度33°
现在我们就可以知道为什么HD6870/6850的待机功耗要低于HD5870/5850,但还是比GTX460稍高一点了。因为GTX460可以将核心频率和电压降到更低。
由于手头的HD6850显卡并未使用公版散热器,XFX送测的产品采用了开放式散热风扇,由于是样卡的关系风扇转速较高,并没有对比参考价值。
第六章/第三节 附加测试:满载温度/转速对比
再来看看满载拷机测试,使用Furmark极端模式,看看最终稳定的温度是多少,此时的风扇转速如何:
★ HD6870满载:核心电压1.172V,核心温度79°,风扇转速2050RPM
★ HD5850满载:核心电压1.0875V,核心温度84°,风扇转速2116RPM
★ GTX460满载:核心电压1.0V,核心温度68°,风扇转速2070RPM
可以看出,在风扇转速差不多的情况下,HD6870虽然频率和电压都比HD5850高,但温度要低一些,这就是晶体管数较少的好处。
GTX460的满载功耗虽然高过HD6870和HD5850,但GTX460的温度明显要比HD6870和HD6850更低,而他们的风扇都是2000转左右,由此可见GTX460公版的开放式散热系统要比AMD公版的封闭式涡轮侧吹系统效率高很多。
第六章/第四节 成绩汇总与PK:HD6870 PK GTX460
AMD新秀HD6870对比NVIDIA当红明星GTX460 1GB完全是压倒性的性能优势,在几乎所有的游戏中都保持较大的领先幅度,只在两款DX11理论Benchmark和PhysX游戏中告负。
可能有些人会说,HD6870无论核心频率还是显存频率,都要比GTX460高不少,这样对比会否有失公允?如果您有这个疑虑的话,那么不妨看看表格最下放的功耗测试,HD6870比GTX460 1GB还要低9瓦。
这就意味着,A卡无论单位功耗下的性能、还是单位晶体管的性能,都已经完胜N卡了。
第六章/第五节 成绩汇总与PK:HD6850 PK GTX460
HD6850无论核心流处理器数量、核心频率还是显存频率,都比HD6870低了不少,因此性能损失也比较严重,与GTX460 1GB相比的话,还是输多胜少。
不过仔细看来,HD6850输得比较惨的地方,主要是在两款DX11 Benchmark以及地铁2033开启4AA模式下,此时的FPS本身非常低,参考意义并不大。其他游戏中两款显卡互有胜负,输赢幅度都不是很大。
总体来看,HD6850是略负于GTX460 1GB,通过百分比来看肯定要比GTX460 768MB强不少。当然HD6850最大的优势就在功耗以及功能方面,具体这款产品性价比如何,就要看AMD如何定位了。
第六章/第六节 成绩汇总与PK:HD6870 PK GTX470
整理来看,HD6870相比GTX470是输多胜少,赢的项目优势不明显,而输的项目反而比较大。不过HD6870的劣势项目主要集中在两款DX11 Benchmark上面,其他游戏中的性能差距不是很大。综合下来HD6870仅仅是落后了不到4%而已。
HD6870落后于GTX470的幅度不是很多,两者在功耗发热方面的差距,那是一个天上一个地下。再考虑到两款显卡的售价,那么谁输谁赢就很清楚了。
第六章/第七节 成绩汇总与PK:HD6870 CrossFire交火效率
HD6870其实是AMD定位中端的显卡,所以我们看到其交火接口也精简为1个,这样显卡最多可以组建双路CrossFire,无法像HD5870/5850那样组建三路和四路交火。
那么其双路交火效率怎么样呢?我们来检验一下。测试平台保持不变,新一代的890FX芯片组最多可以支持四路交火,如果双路系统的话还能保证两块显卡都是PCI-E 2.0 X16的全速接口,保证最高效能。
可以看出,在几款要求十分苛刻的游戏当中,双HD6870交火系统相比单卡的性能提升高达90%以上,这说明AMD交火驱动已经做得非常完善了,3A平台也相当给力。
不过,在部分要求不高的老游戏、或者是CPU瓶颈效应比较严重的游戏中,典型的比如街霸4、文明5、星际2等,双卡性能提升幅度并不明显。正是这些游戏拖累了交火的整体性能提升幅度。即便如此,交火系统的整体性能提升幅度已经达到了60%以上,相当强大!
由于产品线的进一步细分,几款中高端显卡之间的性能差距变得越来越小,通过本文中的大量测试来看,HD6850的性能直逼GTX460 1GB,HD6870的性能小胜HD5850,与GTX470不相上下。
HD6870的性能远胜过GTX460 1GB,而HD6850的性能也要比GTX460 768MB强很多。HD6870/6850问世之后,对于NVIDIA的唯一给力产品GTX460形成了有力的夹击,让GTX460的辉煌仅仅延续了三个月而已。
虽然HD6870没有成为和上代HD5870一样的优异单卡,但其性能表现还是可圈可点的,架构方面的优化改进让HD6870在部分特殊的游戏和Benchmark当中具有了挑战HD5870的实力。而更低的功耗发热、更便宜的售价,使得性能与HD6870相近的GTX470这款电老虎变得毫无选购价值。
HD6850略负于GTX460 1GB,但相比GTX460 768MB有着压倒性的优势
HD6850的定位也十分精准,其性能只是略负于GTX460 1GB,因此AMD的定价也是要比GTX460 1GB便宜100元,但如果我们把功耗、功能等因素都考虑进去的话,显然HD6850显然更具竞争力。
或许我们不应该停留在单纯对比性能与价格这种初级阶段了,在本文的最后,我们来谈谈GPU效能——即单位核心面积所能实现的性能,或者单位功耗所能实现的性能。
AMD在GPU变得越来越庞大的时候非常谨慎,因此不惜重新设计一代产品来缩小GPU核心。Barts核心面积只有230mm2,而GF104则高达367mm2,核心面积的大小就意味着这颗GPU的制造成本将会有多高。Barts的成本远低于GF104,但性能却更强,毫无疑问AMD单位核心面积所实现的性能要比NVIDIA高出不止一级。
玩家们可能并不太关心GPU的制造成本,只要显卡卖得便宜就好,至于谁的利润更加丰厚,这是投资者和分析师应该关心的内容。但玩家们应该会比较在意显卡的功耗,HD6870的满载功耗要略低于GTX460,但性能却要强不少,在单位功耗所实现的性能方面,AMD又胜一局。
6800表现不俗,6900更值得期待
造成AMD GPU效能高于NVIDIA的根本原因,就是它们的核心架构。AMD曾经背负效率低下骂名的SIMD架构,终于笑到了最后。凭借超大规模的流处理器、以及改进的双超线程分配处理器、HD6000的效率比起HD5000又有了明显的提升。
而NVIDIA方面MIMD架构想要扩充流处理器的话,需要耗费更多的晶体管,由此导致NVIDIA的GPU核心面积要比AMD同级别产品大不少,而大核心除了成本较高之外,还得面对良品率较低、功耗较大的负面影响。
目前NVIDIA的GTX400全系列产品,要么是屏蔽了流处理器、要么就是屏蔽了显存控制器、甚至两者都屏蔽,总之没有一款是完整的核心。我们毫不怀疑完整的GF100、GF104、GF106核心将会拥有更强劲的性能,但随之而来的就是更高的功耗与发热。
AMD能够在制造工艺受限的情况下,进一步控制GPU制造成本,在降低功耗与发热的同时还能提升性能、增强功能,这才是玩家们真正需要的显卡!■<