800SP怒吼!RV770核心HD4850全面评测
第一节 中端价格血拼 1000以上缺乏产品
第二节 NV/AMD新品策略分道扬镳
第三节 1TeraFlop!RV770设计目标
第四节 HD4850详细规格及RV770产品线
第一节 从R600的失败说起 谈DX10时代的核心架构
第二节 R580灵魂附体!RV770低成本实现规格大膨胀
第三节 RV770核心架构模块分析
第四节 RV770在RV670基础上的架构优化
第五节 从R670到RV770 扩充的不只是流处理器
第六节 环形总线支持超高频率/超前规格
第七节 1TFLOPS轻松达成 双精度更强
第一节 开源GPGPU
第二节 联手Havok推广物理引擎
第三节 支持双流解码的第二代UVD
第四节 首用GDDR5显存
第五节 升级节能技术
第一节 显卡外观
第二节 散热器
第三节 显存供电用料
第四节 首批上市产品:蓝宝、七彩虹、盈通
第一节 测试平台 参测显卡介绍
第二节 DX9C理论性能测试:3DMark06
第三节 DX10理论性能测试:3DMark Vantage
第四节 DX9C游戏测试:《超级房车:起点》
第五节 DX9C游戏测试:《使命召唤4》
第六节 DX9C游戏测试:《帝国3:亚洲王朝》
第七节 DX9C游戏测试:《半条命2:第二章》
第八节 DX9C游戏测试:《优品飞车11》
第九节 OpenGL游戏测试:《雷神战争》
第十节 DX10游戏测试:《孤岛危机》
第十一节 DX10游戏测试:《失落星球》
第十二节 DX10游戏测试:《英雄连》
第十三节 DX10游戏测试:《刺客信条》
第十四节 DX10游戏测试:《冲突世界》
第十五节 DX10游戏测试:《生化奇兵》
第十六节 DX10游戏测试:《地狱门:伦敦》
第十七节 性能对比:HD3850 VS HD4850
第十八节 性能对比:HD3870 VS HD4850
第十九节 性能对比:9800GTX VS HD4850
第二十节 性能对比:8800GT VS HD4850
第二十一节 性能对比:HD4850交火效率测试
第二十二节 性能对比:GTX260 VS HD4850交火
第二十三节 性能对比:GTX280 VS HD4850交火
第一节 第二代UVD高清解码测试
第二节 HD4850满载/待机功耗测试
第三节 HD4850满载/待机温度测试
第一章/第一节 HD4850直接进军中端市场
NVIDIA刚刚凭借GTX280实现了单核显卡性能的极限突破,不过过高的定位使得大多数玩家并没有能力享受到这种革命所能带来的体验。即便如此,新一轮显卡更新换代的浪潮已经掀起。作为NVIDIA在显卡领域内目前唯一的对手,AMD不失时机的推出了HD4800系列显卡,其中HD4850首当其中,上市直插1400元价位。对于大多数荷包并不鼓的玩家而言,亲和力非同凡响。
● 价格血战 千元以上全部沦陷
从2007年年底开始,HD3800系列就开始了和GF8800系列的角逐。经过半年的厮杀,在价格战前谁都做不成赢家。采用RV670核心的HD3690价格已经惨淡到499元,HD3850正在集体滑落699元。在竞争对手一系列基于G92核心的高端产品线组合拳下,AMD在中高端显卡市场上只剩下孤掌难鸣的HD3870X2。
HD3850与9600GSO(8800GS)双双跌落699元
● 重塑性价比 800流处理器只需1399
1400元可以买到怎样的显卡?高频的8800GT、个别非公版的8800GTS或则9800GTX,归根结底是G92核心的衍生品。G92核心的对手是谁?当然是RV670核心。如果一款规格超过RV670核心超过2倍的产品问世,势必对NVIDIA原有的产品线形成全面的挑战。
而HD4850所采用的RV770核心,明显具备秒杀G92的潜力,因为它的流处理器数由RV670的320个增加到了800个!
第一章/第二节 NVIDIA/AMD新品策略分道扬镳
在NVIDIA推出新旗舰之时,AMD仅仅是推出了一款中端显卡,这多少有点反传统的嫌疑。在现象的背后其实不难看出AMD的产品策略已经悄然转型。
● 传统策略:旗舰先行
NVIDIA的GeForce 8系列和AMD的HD2000系列都是按部就班的依照旗舰策略前行。先打造“巨无霸”核心,争取一次性攀登上性能巅峰。这样做出来的旗舰显卡虽然规格空前,也让广大中高端用户望而生畏。然后厂商通过推出使用了新核心技术但规格上又大幅度“阉割”的中低端产品来抢占市场。
G84核心(8600GT)和G86核心(8500GT/8400GS)
这样做虽然可以做到高端性能拉动中低端销量,但是一般用户根本无福消受耗费了大量人力物力财力开发的旗舰核心。NVIDIA在新一代产品的市场策略上沿用了老一套方法,先造出一颗规模空前,性能令人生畏的GPU主打优异市场,抢占高端性能之王的宝座。不过未来的市场主力也可以预知,就是会继续屏蔽其中的一部分功能来对应不同市场。
● AMD新策略:中端开道 双芯合璧
自从R600在与G80的争斗中完败开始,AMD就在重新思考自己的产品布局。众所周知,由于整体实力上的差距,目前的AMD显卡已经难以在巨无霸单核心上拼过竞争对手。从RV670开始,AMD走上了一条新路,避开了NVIDIA的巅峰对决,直接打造一款中端性价比型GPU,这样在一开始投放市场就拥有价格上的巨大优势。
单RV670核心的HD3850和双RV670核心的HD3870X2
开发一款中端GPU成本消耗肯定远低于前面的“巨无霸”型,而AMD一向是新工艺的先行者,这样成本优势更大。缺失的旗舰部分,AMD就用两颗中端芯片打造一款双芯显卡,以扩展的方式完成了高端产品。如今HD4800系列问世,AMD依然如法炮制。
从趋势来看,AMD的判断是准确的。GPU的设计已经达到了转折点,超大芯片开发难度大,成本高,而回报也非常少。从中端入手,既符合玩家的实际需要,也符合芯片厂商的利益。
第一章/第三节 RV770规格及设计一览
AMD即放弃堆积晶体管制造昂贵的怪兽核心,但却对RV770提出了很高的设计目标,特别是追求极致的每瓦性能以及芯片的每平方毫米计算性能。在成本尽量低的前提下把性能做得尽量高,发热尽量小。
● HD4850设计目标
800个流处理器
在HD3850基础上性能翻倍
业界第一款具备TeraFlop运算能力的GPU
在最早的传闻中,RV770只有480个流处理器,因为大家都很难想象,核心晶体管数提升不到50%的RV770能将流处理器数提升250%。想来想去480个才是个比较“合理”的规格,而NVIDIA却花了近100%的额外晶体管才将流处理器数量翻了不到一倍,这就显示出了R6XX/R7XX架构的特性——虽然Shader单元内核架构相对NVIDIA来说较为落后,但是晶体管开销很少,扩充起来相当容易。关于这部分的详细内容,我们在后文中的架构部分将会详细阐述。
其实HD4850设计目标的前两条也是相辅相成,因为RV770和RV670一样只有256bit位宽,要想性能翻倍,流处理器数就要提升两倍以上以弥补原封不动的位宽。
浮点运算能力实际上一直都是处理器一个很重要的指标,在科学计算方面的能力就关键取决于处理器的浮点运算能力,凭借着800个流处理器的计算能力,HD4850的单精度浮点运算能力达到了1TFlops。再来看看NVIDIA,本月16日刚刚正式发布了全新的GTX280,为显卡的发热量以及功耗已经很难控制,所以浮点处理能力只有933GFlops,没有超过1TFlops。
第一章/第四节 HD4850详细规格及RV770产品线
● HD4850规格一览
RV770相对G92有着诸多优势,支持DirectX 10.1技术、55nm工艺、PCI-E2.0、UVD2技术、升级的PowerPlay省电功能、整合式HDMI音视频同步输出等。
● RV770产品线
HD4850只是HD4800系列的先锋,同HD3800系列一样,目前板上定钉的RV770显卡就有三块,除了HD4850外,将有高频且为首款搭配GDDR5显存颗粒的HD4870。另外采用双RV770核心的HD4870X2(代号R700)将锁定发烧玩家市场。
第二章:RV770核心架构全面解析
ATI对于GPU核心的编号很有规律,像R520、R580、R600这样的就是旗舰级核心;而中间带有V字的,像RV570、RV670都是定位要低一些,顶多算是中高端。现在大家就可以了解到,从RV670开始到RV770,ATI被AMD收购后已经完全放弃了旗舰GPU的研发,转而将精力投入到购买力最旺盛的中端和中高端市场,力图设计出最具性能价格比、性能功耗比的GPU,这就是AMD的主要设计理念,那么我们就来看看在这种设计理念的支配下,RV770的核心架构有什么变化。
第二章/第一节 从R600的失败说起,谈谈DX10显卡的核心架构
在之前的评测文章中,我们曾多次提到过ATI R6XX显卡的核心架构执行效率不如NVIDIA的G8X/G9X高,因而不得不依靠更先进的工艺、更高的频率、更多的晶体管来加以弥补——7.2亿晶体管的R600只能和6.81亿阉割版G80打平、3.9亿的RV630不如2.9亿的G84、6.66亿的RV670只能和5.05亿的G94打平……
● G80革命性的标量流处理器架构
不得不承认,NVIDIA从G80开始对GPU核心架构进行了革命性的改进,标量1D流处理器设计可以最大化晶体管利用率。理论上,不管执行任何类型的标量/矢量/混合指令,G80的128个流处理器都能够按照分配次序按部就班的完成,不存在流处理器闲置的情况,再加上超高的流处理器频率(达核心频率的两倍以上),GPU的执行效率得到了显著提升。
● R600传统型5D超标量Shader着色单元架构
AMD的R600虽然改进也不小,但它依然沿用了DX9时代的Shader Unit设计,只是将4D ALU改进为4D+1D的5D单元,在遇到复杂指令时的效率依然不够理想。5D ALU对于指令分配器的要求非常高,如果每个Shader Unit没有被分配到打包好的4D或者5D矢量指令,而是1D/2D这样的小指令,那么R600的执行效率就会非常低,高达320个流处理器也成为了一纸空文。
在DX10时代,混合指令所占比重越来越多,当R600遇到这种类型的游戏时,发挥失常就很容易理解了。而且R600没有分频设计,流处理器的频率只有G80的一半,因此执行效率差距挺大。
● R600架构的优势:较小的晶体管开销及持续可扩展性
R600架构的效率虽然不如对手,但它有一个巨大优势——持续可扩展性——AMD可以用较小的晶体管开销换取更大的Shader规模,比如这次的RV770核心,流处理器达到了800个之多,是RV670的2.5倍,而晶体管只有RV670的1.4倍,这种代价是非常划算的。
新一代的RV770与GTX200核心,虽然不是同一重量级,但两者的设计理念相同,都是想要将单GPU的性能翻倍。通过初步的测试数据来看,平均1.8倍的幅度完全可以向玩家们交待,但两颗核心所付出的代价却相差很远——RV770在RV670的基础上只要不到一半的晶体管就能实现性能翻倍的目标,而GTX200需要将晶体管翻倍才能实现性能翻倍的目标。
可以这么说,NVIDIA的标量流处理器架构虽然效率高超,但在扩充规模时晶体管开销太大,容易产生瓶颈。这颗拥有14亿晶体管的GTX200核心太过复杂,制造起来非常困难,良品率低、频率提升困难,成本及价格都非常高。
为什么RV770扩充流处理器如此容易,而GTX200就举步维艰呢?还是核心架构问题,R670/RV770的5D ALU共用一个指令发射端口,而G80/GTX200的每个ALU都要独占一个指令发射端口,因此在扩充流处理器规模时,周边辅助控制模块也同比膨胀。相比之下,A卡的架构更灵活一些,而AMD今后也将会在制造工艺允许的情况下,继续优化架构、扩充规模。
第二章/第二节 同样的事情以前也曾发生过
也许很多朋友还不理解,为什么ATI只花40%额外的晶体管就能将流处理器数量提高150%,而NVIDIA花100%额外晶体管只能将流处理器数量提高90%。以至于之前的传言以至都认为RV770拥有480个流处理器,这样算下来流处理器增加了50%,似乎更加合理一些。
这里举个例子就很容易理解了,ATI昔日的R520核心(X1800XT)拥有3.02亿晶体管,它只有16个像素着色单元,性能自然比不上24管线的7800GTX。
同为90nm工艺的两颗芯片,晶体管/芯片面积增加27%,像素单元增加200%!
而ATI在R520架构基础上改进的新款GPU——R580核心(X1900XTX)拥有3.8亿晶体管,晶体管规模只提高了25%,但是其像素着色单元达到了原来的三倍——48个,由此R580的性能大幅提升,彻底超越了对手7900GTX,甚至在双卡对决中干掉对手的7950GX2,是ATI继9700/9800之后最荣耀一代旗舰显卡。
从R520到R580,ATI单纯的扩充了像素单元,其他模块几乎是原封未动,因此晶体管开销很小,性能提升显著!而现在从RV670到RV770,AMD的设计思路和R5XX如出一辙,架构改进不大,主要扩充流处理器单元和纹理单元,这就成就了800个流处理器的RV770核心!
虽然GPU的性能与流处理器数量关系最大,但GPU内部不是只有流处理器,其他部分如指令分配器、纹理单元、光栅单元、显存控制器、一二级缓存等等都需要消耗不少的晶体管,而且流处理器不一定是最消耗晶体管的模块。所以ATI可以在现有架构的基础上,以较小的代价开发出规格更庞大、性能更强的产品,R580和RV770就是架构走向成熟的最好例子。
第二章/第三节 从R600到RV670,核心架构基本没有变化
ATI和NVIDIA的上代显卡中,RV670和G92核心都是非常成功的,而且都衍生出了一大批产品,都将产品型号向前推进了一代。但非常遗憾的是,RV670/G92与第一代DX10显卡R600/G80在核心架构上面几乎没有什么改进,这就让人给人一种换汤不换药的感觉。
● R600和RV670核心架构图:
● R600/RV670的架构可以拆分为以下几个模块:
Command Processor(指令处理器):负责从PCI-E总线收发指令,协调CPU与GPU的工作
Setup Engine(装配引擎):负责给流处理器将要执行的指令准备数据
Ultra-Threaded Dispatch Processor(超线程分配处理器):负责将各种组合形式的指令分类打包,然后交给流处理器处理
Stream Processing Units(流处理器):像素、顶点、几何运算中心
Texture Units(纹理单元及缓存)
Cache & Buffer(缓存及缓冲区)
Shader Export & Render Back-Ends(像素输出部分)
Memory Control(显存控制器)
● R600/RV670核心规格分析:
4组SIMD阵列,每组SIMD包括16个Shader,每个Shader包括5个流处理器R600/RV670总流处理器数量就是:4×16×5=320个
R600/RV670拥有4个这样的纹理单元
R600/RV670拥有4个纹理单元阵列(4×4结构),每个纹理单元内部包含了8个纹理寻址单元(黄色,共32个),20个32位浮点纹理采样单元(橘黄色,共80个),和4个纹理过滤单元(深红色,共16个),因此通常我们说R600/RV670拥有16个纹理单元。
R600/RV670拥有4个Shader Export & Render Back-Ends
AMD的Render Back-Ends就相当于NVIDIA的ROPs,都是负责像素输出及抗锯齿等后期处理任务,也是4×4架构,因此通常认为R600/RV670和G92一样包括16个ROPs。R600/RV670的每个ROPs可以在一个时钟周期内采样8个Z/模版,而且深度/模版是分开处理的,执行效率更高,这样总共就是32个Z/模板缓冲。
第二章/第四节 RV770在RV670的基础上优化架构
● RV770核心架构图:
基本上,RV770和RV670的整体结构是相同的,RV670身上所有的模块都得到了沿用,但很多模块都经过了重新设计或者优化设计:
1。SIMD阵列扩充为10组,每组SIMD绑定专属缓存及纹理单元;
2。纹理单元数量扩充为10组,寄存器容量增加;
3。继续提升几何着色的效率,适应未来DX10游戏的需要;
4。改进可编程镶嵌单元,使之更适合于动画游戏实时渲染;
5。改进显存控制器,率先支持GDDR5,并加入显存读写缓冲区,增强数据读写命中率。
● RV770核心规格全面翻倍:
翻倍的规格是最容易理解的,但数字部分往往比较抽象,下面就详细介绍各个模块的具体含义。
第二章/第五节 从R670到RV770,扩充的不只是流处理器
RV770核心最显著的特点就是将流处理器提升到了空前的800个,达到了RV670的2.5倍!实际上除了流处理器之外,纹理单元、光栅单元都得到了大幅增强。
● 流处理器翻2.5倍,结构不变:
RV670是4组SIMD,每组16个Shader,每个Shader 5个流处理器
RV770是10组SIMD,每组16个Shader,每个Shader 5个流处理器
在SIMD和Shader规模扩大的同时,Ultra-Threaded Dispatch Processor(超线程分配处理器)也变得更加复杂。由于每组SIMD所包括的Shader数量增多,阵列内的Arbiter(仲裁器)和Sequencer(定序器)数量同比增加至20个,因此扩充规模后的RV770单个Shader执行效率并不会下降。
● 纹理单元翻2.5倍,结构不变:
R600/RV670/RV770的纹理单元内部结构是相同的,但是RV770的数量相比/R600RV670翻了2.5倍,从4组增加至10组,这样RV770总共就是40个纹理单元,Shader和TMU的比例达到了4:1。
每组纹理单元内部包含了8个纹理寻址单元(黄色,共80个),20个32位浮点纹理采样单元(橘黄色,共200个),和4个纹理过滤单元(深红色,共40个)。
再来看看细节部分,可以看到8个黄色的纹理寻址单元和20个FP32纹理采样单元还要区分大小,这是因为顶点着色只能使用到其中4个小纹理寻址单元进行纹理采样,而像素/几何着色则可以使用全部的8个;顶点着色只能使用其中4个小FP32纹理采样单元,而像素/几何着色则可以使用全部的20个。
● 光栅单元数量不变,规格翻倍:
RV770还是保持4组后处理单元,也就是通常所说的16个。但这次AMD重新设计了光栅单元的内部结构,以改善R600/RV670那低下的AA效能。
R600/RV670每组后处理器单元内部包括了8个Z/模版采样,而RV770将采样数量提高至16个,多重采样(MSAA)速度直接翻倍,AMD声称RV770可以提供几乎免费的2xMSAA效能,并且4x/8xMSAA效能相比上代提升非常显著。
RV770的AA算法最终还是交给Shader部分来处理,好在RV770的流处理器高达800个,多数情况下都处在性能过剩状态。2倍的Z/模版采样率再加上2.5倍的Shader规模,RV770的抗锯齿性能将会有一个质的飞跃,详细大家请参阅游戏测试部分。
第二章/第六节 环形总线支持超高频率、超前规格
A卡和N卡除了GPU流处理器架构设计不同之外,显存控制器也有较大差异。A卡使用的是环形总线控制器,而N卡是交叉总线控制器,两者的设计思路与核心部分其实也很相似。
传统的交叉式总线(Crossbar),数据传输延迟低,但遇到大规模数据传输时,为了提高命中率就必须把控制器设计的相当复杂,由此导致晶体管开销很大,GTX200核心就为了512Bit显存付出了不小的代价。
环形总线(Ring Bus),显存控制器并不会直接从显存颗粒中读写数据,而是只把数据放在环形总线之中,然后程序自行通过环站取回所需数据包,从而减轻控制器复杂度和压力。但这种结构会使单个的存取操作的延迟变大,但总体来说能够提高大规模数据读取的命中率。
环形总线有很多优势,位宽扩充相对容易、PCB布线相对容易、显存频率可以轻松达到很高,因此AMD率先对GDDR4、GDDR5显存提供支持,GDDR4轻松达到2500MHz,而GDDR5则从3600MHz起跳。但是环形总线却又不得不面对延迟增加和效率降低的问题,位宽越大效率就越低,至少我们没有在R600身上看出512Bit环形总线能比256Bit强多少。
之前曾提到过,由于ROPs部分并不直接负责AA运算,因此A卡对于显存带宽的依赖程度远不如N卡,大家可以发现256Bit的HD3870性能与512Bit的HD2900XT差不太多,128Bit的HD3690相比256Bit的HD3850性能也没有大幅下降。因此在这一代显卡中,AMD还是放弃了512Bit显存总线设计,这样就能节约不少成本。
虽然显存还是保持256Bit,但由于RV770首次对GDDR5显存提供了支持,超高的频率完全可以弥补带宽的劣势,3600MHz 256Bit理论带宽就相当于1800MHz 512Bit。512Bit总线不但对会让GPU变得更加复杂,而且对PCB设计和布线提出非常苛刻的要求,相比之下GDDR5显存自身的成本反而是微不足道了,因此可以这么说,AMD以很小的代价换取了超高的显存带宽,RV770是权衡性能、产量和成本之后的产物,而并非片面追求优异性能的花瓶。
第二章/第七节 1TFLOPS轻松达成 双精度更强
NVIDIA怪兽级的GTX200核心有一个最大的遗憾,那就是浮点运算能力未能突破1TFLOPS,这要原因就在于这颗GPU太过复杂,频率提升困难,流处理器频率甚至比当初G80核心还要低一些,最终止步于933GFLOPS。
而AMD想要突破1TFLOPS的浮点运算能力就简单多了,RV770核心本身拥有高达800个流处理器,每个流处理器可以同时执行一条乘加指令(Multiplu-Add,也就是同时执行一条乘法和一条加法指令),这样其理论浮点运算能力就是:
HD4850=625×2×800=1TFLOPS
HD4870=750×2×800=1.2TFLOPS
AMD默认频率,恰好让两款显卡的浮点运算能力都是整数,频率较低的HD4850正好达到了1TFLOPS。对于GPU并行计算来说,指令复杂度远不如3D图形渲染,因此实际运算能力更接近于理论值,但前提是配套软件和程序开发必须跟上。
高精度科学计算(如工程分析、财政计算、计算机模拟)对于要求处理器必须支持双精度64Bit浮点运算,最新的GTX200与RV770都能提供支持,但是效能却相差较大:GTX200在进行双精度64Bit浮点运算时的效率只有单精度32Bit浮点的八分之一,而RV770的64Bit浮点运算能力是32Bit浮点的五分之一,差距源于架构:
GTX200核心的一个SM(8个流处理器)可以进行一次双精度运算
RV770核心的一个Shader(5个流处理器)可以进行一次双精度运算
GTX280双精度浮点运算能力=240×3×1296÷8=117GFLOPS
HD4850双精度浮点运算能力=800×2×625÷5=200GFLOPS
HD4870双精度浮点运算能力=800×2×750÷5=240GFLOPS
可以看出,虽然两颗GPU的规模和造价不在同一数量级,但是HD4870的双精度浮点运算能力居然高达GTX280的两倍之多,这对于需要高精度的科学计算领域是个不小的诱惑。现在,谁还敢小视ATI GPU架构的威力呢?
第三章:RV770新特性一览
随着GPU的快速发展,当前的显卡性能已经不能简单用的游戏帧数快慢来衡量,GPU越来越多的功能正在得到越来越广泛的重视。众所周知,NVIDIA正在大量推广CUDA和GPU物理加速,这些几乎都是G92核心通过驱动升级就能支持的功能,那么作为后来者的RV770拿什么去抗衡呢?
第三章/第一节 RV770新特性:开源GPGPU
最近一段时间,关于“在PC机中,是CPU重要还是GPU重要?”,“是CPU要融合GPU,还是GPU要取代CPU?”是业界比较热闹的话题之一。其实GPGPU的概念已经开始进入用户的视野。
GPGPU,也有人形象地称为GP2U(GP的两次方U)。这两个GP代表了不同的含义,后一个GP表示图形处理(Graphic Process),和U加在一起正是我们熟知的GPU(图形处理器);前一个GP则表示通用目的(General Purpose),所以GPGPU一般也被称为通用图形处理器或通用GPU。
目前涉及的厂商是大家熟悉的三方:Intel、NVIDIA、AMD。Intel目前只有CPU而无真正的独立GPU,只能用宣传优势强调CPU的重要性;NVIDIA只有GPU而无CPU,所以拼命想让GPU去取代CPU的若干功能;AMD既有CPU又有GPU,条件绝对堪称却得天独厚!
先天的优越性决定了AMD不需要像Intel和NVIDIA一样暂时只能往一个极端的方向发展。自身有完整的平台,面临的问题就不是“CPU强还是GPU强”,而是怎么让“CPU+GPU”最强。NVIDIA的CUDA作为NVIDIA的自身封闭性标准存在根本的局限性,AMD方面表示:“历史显示封闭技术最终都会失败,任何成功的战略都需要公开标准,公开标准推动占有率”。
AMD对于CUDA并不感冒,而垂青于苹果公司力推的通用计算行业标准OpenCL。OpenCL标准旨在把GPU从仅仅处理图形的任务解放出来,使它能与图形硬件及多核CPU相协调以提高系统的整体性能,而且以后还会将它应用到手持终端上。标准的制定联盟表示未来的正式标准将会公开并且免费,值得一提的是Intel和NVIDIA也加入了这个联盟。
第三章/第二节 RV770新特性:联手Havok推广物理引擎
目前在游戏里被大量普遍应用的物理引擎有两种,分别是Ageia开发的PhysX以及Havok的Havok系列引擎,目前使用这些引擎的游戏加起来总共超过四百款,不过需要使用PhysX物理加速卡的游戏加起来不足百款,而剩下的游戏都可以通过CPU来进行物理运算。
Ageia已经被NVIDIA收购,NVIDIA计划用新驱动让自家显卡支持上PhysX物理加速引擎,以求在游戏中有更佳的表现。前文说过,Intel是希望CPU干GPU的事,NVIDIA是希望GPU干CPU的事,而AMD希望CPU和GPU联合在一起能发挥出最大效能。在PhysX沦为N卡专用物理加速引擎后,AMD转而和与被英特尔收购的Havok合作。
Havok于去年9月中旬被英特尔正式收购,已经作为英特尔的全资子公司运作了10个月。AMD竟要借助Intel手上的力量和NVIDIA对抗,看来这场三国大战是越发越好看了。其实Havok的技术非常先进,执行效率较高,关键是非常便宜,无论CPU还是GPU都可以共同进行物理加速,这显然也符合AMD的胃口。
AMD方面已经证实RV770的物理加速能力来自Havok,另外AMD x86处理器也会针对Havok技术进行全面优化。不过我们也应该看到,在面临英特尔收购Havok、NVIDIA收购Ageia后,AMD所处的位置也颇为尴尬。
第三章/第三节 RV770新特性:第二代UVD
NVIDIA在在GeForce 9系列上升级了硬解码单元,率先支持了双流解码,HD4800也对视频解码部分进行了升级,也就是第二代UVD(UVD2)。
UVD2主要针对NVIDIA的双流解码推出的新技术,相对于第一代UVD技术来说,UVD2主要有3大改进:
轻松解码超高码率视频播放;
支持更高分辨率视频解码(如2160P);
支持多流解码,即同时解码多部高清影片,比双流解码更强大。
另外RV770仍然会内置高清晰度音频模块,并且可通过HDMI输出7.1声道的AC3和DTS编码音频流和视频流,在色彩方面也有明显增强。
第三章/第四节 RV770新特性:首用GDDR5显存
和新工艺一样,AMD一直是最新显存颗粒的尝鲜者,早在X1950XTX时代就率先使用了NVIDIA时至今日都没有用过的GDDR4显存。当然这其中也涉及到芯片厂商和显存厂商的不少内部不好随意揣度的秘密,这里也就不多提。
破壳在即的HD4870将成为首款使用GDDR5颗粒的显卡,实际上,Sumsung、hynix等DRAM大厂都是AMD在GDDR5显存方面的合作厂商,不过来自德国英飞凌旗下全资子公司的“奇梦达(Qimonda)”这次夺得了先机,首先为AMD提供带宽高达4Gbps的512Mb(16M×32) GDDR5显存,编号为“IDGV51-05A1F1C-40X”。
GDDR5显存有着诸多的优势,这也是Qimonda跳过GDDR4的研发,而直接投产GDDR5显存的原因。GDDR5显存数据传输率最高可达GDDR3的五倍、GDDR4的四倍,并且可以支持错误纠正、带宽高等特点。根据Qimonda的消息,带宽高达4.5Gbps的512MB GDDR5已经投产,而带宽高达5Gbps的产品将会在第三季度提供,并且会推出1GB(32M×32)的版本。
不过也正是GDDR5显存导致HD4870不能和HD4850同步登场,受新型GDDR5显存短缺影响,HD4870的产量有限,批量上市难度较大,只有等待七月初才有望缓解。和NVIDIA的保守策略比起来,AMD的激进策略造成的负面影响也非常明显。
第三章/第五节 RV770新特性:升级节能技术
AMD显卡在工艺上一直走在竞争对手NVIDIA的前面,HD3000系列率先采用55nm工艺,55nm的优势是提高集成度并缩小核心面积,这样整体发热量也会随之降低。
RV770核心依然基于55nm工艺,而且将AMD在HD3000系列上显卡上采用桌面“PowerPlay”省电技术进行了升级。“PowerPlay”通过降低显卡空闲时间的核心和显存频率达到降低功耗,减小发热的目的,十分实用。
伴随RV770的诞生,如今桌面“PowerPlay”也发展到了第二代,AMD给了它一个新的名字“Power on Demand”,在老一代的基础上做出了三点加强:
最大程度关闭核心闲置单元
根据GPU占用率动态控制电压和频率
显存智能调频
这些并不是“Power on Demand”所带来的全新特性,而是显卡在节能降耗上会更为智能。节能不但能减小用户的电费开销,还能降低显卡发热,无论是对于显卡降温还是风扇降噪都有帮助。
第四章:RV770核心HD4850赏析
第四章/第一节 HD4850图秀:外观赏析
虽然流处理器规格在HD3850基础上提升了250%,但是公版HD4850显卡的外型依然和公版X1950Pro、HD2600XT、HD3850一脉相承。AIB迪兰恒进率先将HD4850推向市场,其产品完全遵循公版方案。
在显卡输出接口上方,有原生型双重火力接头,这也为最高支持四路的CrossFire X提供了前提条件。
整张显卡的长度和HD3850公版持平,这主要是由于显存控制器仍然是256bit,也就不用像HD2900XT那样把块头做得那么大。
接口部分采用了中高端显卡常用的双DVI+S-Video,配合ATI原装的专用DVI转HDMI输出转接头即可方便的实现HDMI一线输出,加上本身集成的UVD单元,高清视频不用愁。
第四章/第二节 HD4850图秀:散热赏析
所谓和HD3850外形相同,主要是指这个几乎覆盖了整个显卡正面的散热器。正因为两者此处几乎一样,也难怪很多人当初在互联网曝光HD4850之际持怀疑态度。
接下来就是大拆解,先由显卡后面把散热器的固定螺丝卸下,接着卸下安装在显卡尾部电源供应的散热片,以及装置在显存上面的散热片,一体式散热结构的背面一览无余。
RV770核心已经拥有近10亿个晶体管,依然使用一个单槽器让笔者多少有点隐忧,从风扇上的指标来看,电流高达0.4A,这意味着风扇的转速基本已经达到“暴力”级别。要知道80nm的公版8600GTS风扇电流才0.18A,所以HD4850在满负荷工作时公版散热器的噪音必然是个较大的问题。
风扇直径比较小,只有0.75英寸(19.05毫米),总长度也仅有17厘米左右。
第四章/第三节 HD4850图秀:用料赏析
摘掉散热器的HD4850裸卡PCBHD4850采用了奇梦达1.0ns GDDR3显存,采用单颗16M×32显存规格,8颗共组成512MB/256bit,默认核心频率为625/1986MHz。
供电部分采用了核心2项+显存1项的供电设计,包括数位PWM电源供应模组,电容用料虽不全是固态电容,但品质都却都有保障,另外电容上的划痕也是通过ATI Diagnostic品质检验的标志之一,品质更加有保障。
和HD3850相比,HD4850的供电只是做了极细微的改进,直观点的体现就是用料更佳,HD3850最上方的线圈电感被HD4850的磁蔽电感取代,铝壳电容少了,固态电容多了,这也是为了适应更高规格核心供电的需要。
第四章/第四节 首批上市HD4850厂商
● 蓝宝
身为全球最大AIB品牌,Sapphire蓝宝在ATI显卡产品的上游资源和研发实力绝对首屈一指。这次蓝宝石也在第一时间推出了HD4850显卡,公版做工延续了ATI原厂卡的风范。
● 七彩虹
● 盈通
第五章:HD4850图形性能测试
第五章/第一节 测试平台 参测显卡介绍
● 测试平台配置
PCPOP.COM评测室 | |
硬件系统配置 | |
Intel QX9770 四核心, 3.2GHz, L2=12MB | |
主 板 | ASUS X48 |
显 卡 | |
内 存 | CORSAIR Dominator TWIN2X2048-10000C5DF DDR2-800(4-4-4-12) |
硬 盘 | 西数 |
电 源 | 海盗船 1000W |
软件系统配置 | |
操作系统 | Windows vista Unimate 32Bit SP1 |
DirectX | 10.1 |
显示驱动 | NVIDIA Forceware 177.26 ATI Catalyst 8.6 ATI Catalyst 7.14.10.0598(HD4850专用) |
● 参测显卡
由于HD4850本身定价不高,位于中高端市场,价格位于9800GTX和8800GT之间,所以这两款G92显卡自然在测试对比之列。
RV770的前辈是RV670,流处理器的提高是否能达到预想的设计目标,还是要靠性能验证。2007年底ATI推出了经典的HD3800,时隔一年HD4850在同价位上卷土重来,能超过两位前辈多少也是大家比较关心的问题。
● 测试项目
目前搭配千元以上显卡的玩家多数都选择22寸宽或则24寸宽LCD,所以我们选定分辨率为1680×1050(22寸宽)和1920×1200(24寸宽),并开启4AA16AF,以接近这部分用户的实际使用环境。
测试程序覆盖了理论测试程序3DMark、DX9C游戏和DX10游戏,值得说明的一点是仅仅是测试demo而非可玩游戏的程序我们并没有选用,比如《鱼雷骑士》和《狂野西部》。
第五章/第二节 DX9C理论性能测试:3DMark06
3DMark06作为DX9C权威的理论测试工具,包括了两个SM2.0测试和两个SM3.0测试场景,基本上达到了DX9C的画面最高境界,其测试结果对于很多主流游戏都有参考价值。但是如今3DMark06已经难不倒高端显卡了,高端显卡在3DMark06中难分高下,所以我们只能最大程度的提高它对系统的要求,比如说提高分辨率开启抗锯齿等。所以我们选定了在1920×1200 4AA16AF下测试其总分和SM3.0成绩。
这里应该特别注意HD4850在打开AA前后的性能表现,开AA后相比9800GTX领先幅度更大了,由此可见HD4850已经彻底解决了AA效能低下的问题,那么在实际游戏中如何呢?大家一页一页慢慢看。
第五章/第三节 DX10理论性能测试:3DMark Vantage
3DMark Vantage已经在四月底正式发布,全新的引擎在DX10特效方面和《孤岛危机》不相上下,但3DMark不是游戏,它不用考虑场景运行流畅度的问题,因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨,号称“显卡危机”的Crysis也不得不甘拜下风。
3DMark Vantage中直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级),只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了。我们为这次的对决选择了Extreme和High两种模式。
最新的3DMark Vantage是NVIDIA和AMD双方都认可的测试工具,相比上代的06,Vantage更加依赖核心Shader渲染能力,而对于显存带宽和纹理部分反而更小。
通过测试数据来看,HD4850的性能达到了HD3850(两者核心频率接近)的2.36-2.86倍,这个数字已经和2.5倍(流处理器数量)的理论值差不多了,看来HD4850并没有因为流处理器规模的膨胀而出现效能下降的情况,恰好相反,由于光栅单元的改进,HD4850的AA效能大幅增强,以至于在理论测试中出现性能提升接近三倍的恐怖数据!
第五章/第四节 DX9C游戏性能测试:《超级房车:起点》
它来自于2007年最受欢迎的赛车类游戏DiRT的制作者。GRID是一款快节奏的,拥有众多精美场景和广阔视野的赛车类游戏。强化的EGO游戏引擎,让游戏中的碰撞、损坏等更加真实:物理模型将可以保证游戏中车辆的碰撞、损坏和解体等将更加贴近于好莱坞大片中的效果。
画面设置:先开启Ultra画面等级,使所有特效达到最高,再改变分辨率,开启4×AA。
测试方法:进入游戏后测试第一段直道的平均速度,方向键锁定前方,保证所过场景一致。
《超级房车》无论画面还是游戏需求都应该算是优异DX9C游戏,不过现在我们只花1400元就能以高分辨率全特效运行该游戏。60帧的速度非常完美,HD4850的性能接近HD3850的两倍,9800GTX当然也能流畅运行,但差距还是很明显。
第五章/第五节 DX9C游戏性能测试:《使命召唤4》
虽然使命召唤4的场景已不再是二战,但它依然保持了和使命召唤2/3系列相近的画面风格,相信老玩家在游戏中一定会有亲切感,战斗中的爆炸、烟雾效果更加逼真,物理效果也加强了游戏的真实感。
画面设置:使命召唤4引擎对显卡的要求中等,中高端显卡特效全开并且开AA都能有不低的FPS,因此我们只测打开AA时的性能。
测试方法:游戏有一段固定的爆炸场景,FPS比较稳定,也符合游戏实际运行时的情形,用Fraps统计这个过程的FPS,作为最终成绩。
HD3800系列在《使命召唤4》中的性能其实不错,可惜它糟糕的AA效能无法向游戏玩家交待,开AA后游戏不够流畅,而同级N卡则发挥正常,差距由此被拉开。
HD4850的AA效能有了质的提升,虽然频率比9800GTX低不少,但性能反而更高,由此可以想象RV770的终极版HD4870将会有更强的实力。
第五章/第六节 DX9C游戏性能测试:《帝国时代3:亚洲王朝》
其画面风格一如既往的华丽无比,虽然游戏引擎比较老,但通过精妙的色彩搭配和美术设计,《帝国3》比起DX10 RTS大作《英雄连》和《冲突世界》都是不落下风。
画面设置:帝国3的最新资料片也使用了原来的游戏引擎,画面风格没有任何变化,系统需求也是照旧,对于如今的显卡来说特效全开并且打开抗锯齿运行游戏没有任何难度。起“边缘光滑”开启至“高”就是4AA。
测试方法:及时战略游戏如果没有专用测试程序,就很难在游戏中公平的测试,所以我们选用了游戏即时演算的主界面统计帧数,也能客观的反映出各卡在该游戏中的差距。
三年前的游戏引擎,因此A卡对其支持度不够好,HD4850的性能有了明显提升,但还是未能超越9800GTX,只是比高频8800GT强一点。
第五章/第七节 DX9C游戏性能测试:《半条命2:第二章》
《半条命2:第二章》作为《半条命2:第一章》的续集,引擎在HDR和室外场景的渲染方面有所增强,树叶渲染上将采用Alpha覆盖技术,提供更好的树叶细节和反锯齿效果。此外还引入全新的粒子系统,将提供动态软阴影效果。物理引擎也经过重新设计,提供大场景大范围的物理效果。
画面设置:《第二章》还是原来的Source引擎,虽然做了一些改进,但对显卡的要求并没有提高,所以我们测试时特效全开最高,并且打开游戏自带的AA和AF。
测试方法:游戏支持命令录制demo供测试,我们录制的demo覆盖了室内室外场景。
《半条命2:第二章》是屈指可数的几款打了ATI Logo的游戏,但是HD3000系列糟糕AA效能丢尽了ATI Logo的颜面,因为统计N卡在开AA的情况下几乎完胜A卡。
现在A卡终于可以扬眉吐气了,HD4850大幅领先与频率比自己高很多的9800GTX。不过可惜的是,这款游戏引擎较老对新一代显卡来说完全没有挑战。
第五章/第八节 DX9C游戏性能测试:《优品飞车11》
《优品飞车11:街道争霸》是一款真正可以激发你肾上腺素的赛车游戏,给玩家带来令人难忘的高细节的照片品质的图像,更有代入感,它将Autosculpt技术提升到了新的高度。
画面设置:游戏最高只支持到1920×1200,我们将所有效果开启至最高并设置4AA16AF。
测试方法:和《超级房车》一样取游戏开始的一段直道作为测试场景。
《优品飞车11》和《半条命2》的表现比较相似,A卡总是因为AA效能问题败北,对于HD4850庞大的Shader单元来说,4AA根本就是小菜一碟。
第五章/第九节 OpenGL游戏性能测试:《雷神战争》
《敌占区:雷神战争》作为QUAKE系列游戏的最新作,由于引擎源自Doom 3,但比DOOM3在很多方面都有所加强,最引入注目的MegaTexture技术的首次使用。简单而言,MegaTexture就是一张超大的贴图。在《敌占区:雷神战争》中每张MegaTexture容量达到了3GB(类似ClipTexture,并非全场景的动态贴图),在得到更好效果的同时,对显存容量的要求也更高。除此之外,引擎还引入了视差映射、凸凹紋理映射、法向映射和Specular Highlighting、软粒子等目前流行的显示技术。
画面设置:毕竟是源于老迈的DOOM3架构,引擎无论如何改进,对配置的要求也不可能出现翻天覆地的变化,自然是特效全开,并开启游戏内置的4AA16AF。
测试方法:我们自行录制了一段多人对战Demo,调用游戏内置的控制台命令行播放录像,然后就可以得到比较准确的全程FPS。第一次回放Demo时由于Loading的原因成绩较低,所以取第二次的成绩为最终结果。
OpenGL一直是A卡的弱项,AA也是软肋,因此在为数不多的几款OpenGL游戏中,A卡的差距总是不小。不过HD4850大幅加强了纹理单元,AA效能的改进也显著,可以看到HD4850终于成功反超9800GTX,难能可贵。
第五章/第十节 DX10游戏性能测试:《孤岛危机》
Crysis(孤岛危机)无疑是现阶段对电脑配置要求最高的PC游戏大作。Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏。
画面设置:游戏版本为V1.2,开启最强DX10效果(Very High),即便是许多高端显卡也只能在低分辨率看幻灯片,所以我们选择了1920×1200,分别开启最强DX10效果(Very High)和最强DX9效果(High)。
测试方法:Crysis内置了CPU和GPU两个测试程序,我们使用GPU测试程序,这个程序会自动切换地图内的全岛风景,得到稳定的平均FPS值。
Crysis是唯一能被称为次世代游戏的超强大作,几乎秒杀上代所有显卡,很多玩家升级显卡可能就是冲着Crysis而来。对于这款NVIDIA全程参与开发的游戏来说,N卡基本上能发挥出最大效能,而A卡虽然也通过驱动不停优化,可跑起来是举步维艰。
HD4850的表现也很一般,相比HD3850的提升幅度也不如前几款游戏那么大,看来ATI还需要继续改良驱动,不过HD4850的性能已经非常接近于9800GTX了,而且HD4850频率提升的潜力更大,相信超越9800GTX不成问题,但想要流畅玩转Crysis的话,还是动用GTX280这种怪兽显卡比较好。
第五章/第十一节 DX10游戏性能测试:《失落星球》
《失落星球》无论DX10还是DX9版本,画面都非常出色,但除了绚丽的画面之外,游戏本身也是可圈可点。
画面设置:游戏版本为V1.03,将所有特效全开最高,可以使画面颜色达到64位。
测试方法:游戏自带测试程序,该程序会将游戏任务第一关的所有场景快速跑一遍,然后得到Snow和Cave两种模式下的平均FPS,测试结果取FPS较低的Snow成绩。
《失落星球》是首款DX10游戏,也是N卡御用TheWay游戏,A卡的表现惨不忍睹。HD4850相比上代显卡性能提升显著,但和9800GTX差距还是不小。
值得欣慰的是,HD4850在noAA模式下落后幅度较大,而开4AA后差距缩小,看来HD4850在TheWay系列DX10游戏中的AA效能已经超越了N卡,真是不可思议!
第五章/第十二节 DX10游戏性能测试:《英雄连:抵抗前线》
与原来的DX9版相比,《英雄连:抵抗前线》已经是DX10版本。Shader Quality在High基础上新增DX10选项,Terrain Detail(地形细节)在High基础上新增Ultra选项。DX9版抗锯齿只有Enable和Disable两项,DX10版能够完全支持N卡的CSAA抗锯齿技术,并且支持N卡和A卡的8xMSAA。
画面设置:把所有的效果都调最高,能High的就High,能Ultra的就Ultra,抗锯齿设定为None或者4x。
测试方法:游戏自带性能测试程序,它是把任务版第二关的两个过场动画拼接在了一起,测试完之后会给出平均FPS、最大FPS和最小FPS,我们只取平均FPS做对比。
《英雄连》虽然也是款TheWay游戏,不过它的引擎是在DX9基础上打补丁而来的,没有专门针对N卡的架构做优化,因此A卡也有不错的表现。
HD4850再次展现出了超凡的AA实力,noAA模式下小幅领先于9800GTX,4AA模式下大幅领先于9800GTX,A卡AA效能低下的时代已经一去不复返了!
第五章/第十三节 DX10游戏性能测试:《刺客信条》
老牌游戏厂商育碧不失时机的将横跨数个平台的超级大作《刺客信条》搬上了PC平台,这款结合了古代和现代场景的科幻动作游戏早已在游戏机平台聚集了强大的人气。育碧表示《刺客信条》的DX9画面和DX10画面没有本质区别。育碧之所以为其选用DX10 API,仅是单纯为了调用Shader Model 4.0技术,从而大幅提升游戏渲染效率。
《刺客信条》是目前唯一一款DX10.1游戏,可惜因为某种不可告人的原因,在最新的补丁中官方去掉了对DX10.1的支持,这就让A卡遗憾不已。不过A卡用户可以不打这个补丁,感受下DX10.1带来的新特效。在我们的测试中为了保证特效一致,打上了最新补丁不开DX10.1。
画面设置:将所有特效全开最高,游戏最多支持8×AA,但是当分辨率达到1920×1200及以上就无法开启抗锯齿,所以我们选择了1680×1050 8×AA,更高的分辨率没有AA的模式。
测试方法:游戏通过训练关后会进入一个城镇,我们不对其进行任何操作,直接读取屏幕上稳定的帧数。
8×AA拉开了HD4850和9800GTX的差距,N卡在虚幻3引擎下的抗锯齿性能明显不如A卡。
第五章/第十四节 DX10游戏性能测试:《冲突世界》
《冲突世界》采用了自行研发的MassTech引擎,支持多种当前的主流显示特效,如容积云,景深效果,软阴影等,光照系统也表现出色,尤其是半透明的容积云特效营造出了十分逼真的户外场景,物理加速结合体积光照渲染出了最逼真的爆炸效果。
画面设置:游戏自带的画面设置多达44个选项,内置的Very High模式并不能把所有选项都调最高,需要手动将其设定为Very Long和1024。
测试方法:《冲突世界》和《英雄连》类似,也是选择了一段非常华丽的过场动画作为测试程序,最终得出最大、最小和平均FPS,测试结果非常精确。
《冲突世界》的表现和《失落星球》差不多,A卡一直都拼不过N卡,HD4850的出现是个转折点,不开AA的话HD4850和9800GTX相差无几,最终HD4850凭借强大的AA实力完成了超越。
第五章/第十五节 DX10游戏性能测试:《生化奇兵》
早在游戏Demo版发布之前,BIOSHOCK就已经声名远扬,著名游戏杂志Gameinformer在较早的时候对其进行了完整测试,并给出了惊人的满分10分,将几乎所有的溢美之词都献给了这款游戏,称之为难得一见的史诗性大作。
画面设置:《生化奇兵》的画面设置项目并不复杂,DX10特效只有一项,而且游戏不支持抗锯齿(虽然可以驱动强制开启AA,但DX10和部分阴影会失效),所以我们的测试模式就是特效全开,但不开AA和AF。
测试方法:《生化奇兵》并不像其他几款DX10游戏那样自带测试程序,所以我们只能用Fraps来记录游戏运行的实时FPS,测试场景选取了第一关动态海面作为户外模式获得成绩。
在《生化奇兵》中HD4850和9800GTX的表现难分伯仲,秒杀了8800GT,在HD3800系列基础上大幅度提高了流畅程度。
第五章/第十六节 DX10游戏性能测试:《地狱门:伦敦》
《地狱门:伦敦》包含不少DX10特效:有物理性的容积烟雾,能够跟周围外力产生互动;GPU模拟的雨滴效果,每一个雨点将受到方向光源的打光;以及一种称之为 fancy soft shadows的阴影技术,可以根据光源跟物体的距离调节所产生阴影的柔和程度。此外《地狱门:伦敦》还采用最新的Havok FX引擎 ,该引擎将利用GPU资源来进行物理模拟计算。
画面设置:游戏对N卡和A卡的支持程度并不相同,比如使用抗锯齿后N卡和A卡能够开启的特效等级就不尽相同,我们只好取消抗锯齿设置,以求统一画面设置。
测试方法:以游戏训练关的初始场景读取稳定帧数。
N卡对虚拟显存的利用不如A卡,所以在高分辨率下显存形成瓶颈时,性能下降更快,HD4850这方面保留了HD3800一脉相承下来的优势。
第五章/第十七节 性能对比:HD3850 VS HD4850
半年的时间,AMD在同样的价位上让性能提升了80%,800个流处理器虽然没有能让性能达到HD3850的两倍,不过这个结果已经很让人欣喜。
第五章/第十八节 性能对比:HD3870 VS HD4850
HD3870就是HD3850的高频版,那HD4870能比HD3870强多少?笔者对GGDR5高频的诱惑充满期待。
第五章/第十九节 性能对比:9800GTX VS HD4850
作为直接的性能对手,HD4850虽说和9800GTX在具体的测试项目上各有胜负,整体性能平均好于9800GTX接近10%,但是HD4850价格好量又足,NVIDIA必须对产品线做出调整来应对,性价比就是这么来的。
第五章/第二十节 性能对比:8800GT VS HD4850
虽然个别8800GT已经有个别进入千元,但是更多的却依然高高在上,是价格上是最接近HD4850的N系显卡。虽然我们用的高频版8800GT参与测试,HD4850的优势还是那么明显。
第五章/第二十一节 性能对比:HD4850单卡 VS 交火
HD4850支持“杂交”和CrossFire X,但是目前对应的正式驱动还没有发布,届时我们将对其详细测试。
第五章/第二十二节 性能对比:GTX260 VS HD4850交火
GTX260要多少钱?3999元。那HD4850交火呢?只需要2800元。结果呢?HD4850交火平均领先了20%。如果不是打算组建三路SLI的发烧玩家,HD4850交火无疑更具性价比。
第五章/第二十三节 性能对比:GTX280 VS HD4850交火 最惊喜的时刻到来,GTX280好是好,可就是太贵了……HD4850交火在24寸宽LCD上的整体表现与GTX280难分伯仲。考虑到GTX280的供货状况,HD4850交火让大家花不到3000元,过一把花5000元也未必过得上的瘾。很好,很强大。 第六章:HD4850高清、功耗、散热测试 第六章/第一节 第二代UVD高清解码测试
现在不少蓝光光盘已经不止含有一段视频流,可以通过“画中画”功能在主画面上同时插入一个或多个经过压缩的子画面。这样相当于同时播放着两部高清视频,如果完全使用CPU软件,负荷无疑非常巨大。
RV770核心集成了第二代UVD,其中对“双流解码”的支持就是用GPU同时硬解码两部高清视频,这样无论使用什么CPU都能轻松胜任。
我们挑选了H.264编码的《皇家赌场》、《蜘蛛侠》、《变形金刚》以及VC-1编码的《最后的武士》进行测试。为了更直观的反应硬解码对CPU占用率的影响,我们在前面3D性能测试平台的基础上换用了E8400处理器。
现在两部高清视频已经难不住第二代UVD,解放CPU也可以降低整个平台的功耗,对于看高清时执行一些依赖CPU的任务也是不错的方案。
第六章/第二节 HD4850满载/待机功耗测试
我们的功耗测试方法就是直接统计整套平台的总功耗,既简单、又直观。测试仪器为Seasonic的Power Monitor,它通过实时监控输入电源的电压和电流计算出当前的功率,这样得到的数值就是包括CPU、主板、内存、硬盘、显卡、电源以及线路损耗在内的主机总功率(不包括显示器)。
从满载和待机功耗来看,HD4850的绝对值都低于9800GTX,不过从满载与待机功耗相减来看,HD4850在功耗降低方面并没有优势。9800GTX可以降耗90W,HD4850降耗70W,这还是在9800GTX没有启用“混合动力”的基础上。
难道AMD宣传的“Power on Demand”有水分?我们进入接下来的温度测试一看究竟。
第六章/第三节 HD4850满载/待机温度测试
GPUZ能及时监控GPU的负载、温度以及风扇转速:
近似满载时核心温度达到了86℃,和上一代的公版HD3850差不多,此时风扇只达到了41%的转速,噪音并不算太过分。如果更换一个第三方散热器显然会让温度下降一大截。
让我们感到比较费解的是待机状态下核心居然高达500MHz,相比满载的625MHz变化不大,远不及上一代PowerPlay的控制能力。当然我们相信AMD的“Power on Demand”实力,笔者估计这是因为HD4850因为NVIDIA后续产品的压力,提前发布造成的BIOS不够完善导致。
待机温度79℃!着实非常高了,此时风扇转速只有24%,以牺牲温度换取理想的噪音控制,不过这个温度并不安全,长时间的高温对于核心寿命的不良影响想必大家也都清楚。
第七章 总结与展望:中高端激战即将上演
● HD4850的最大功劳:打碎NV高价体系
一直一来高端产品基本谈不上性价比可言,所以性能比8800GT高出25%左右9800GTX价格比8800GT高了100%以上!HD4850的平均性能高出9800GTX,但是只要1399元,这就点到了某些高端卡的命门。消费者可以惊喜的发现,未来的价格战将不仅仅被局限在中低端,中高端显卡市场照样也将加入。
● 等待中的期待:年底只要799?
翻开HD3850这半年的历程,公版1499元登场,然后现在陆续降价到699元。那今年底时HD4850值多少,笔者保守的估计是799元。现在买HD3850的钱,半年后就能买HD4850。HD4850目前的价格是1399元,价格不到目前HD3850主流799元售价的一倍,但是性能比HD3850强上75%,整体的性价比和HD3850接近。这对于一款千元以上的显卡来说极为难得。
● 卖场火爆:1399元还有赠品
目前HD4850已经大批量上市,市场反应强烈,且以卖场中还有赠品相送更为超值。在过去的周末里,中关村的HD4850出货量已经相当可观,比当初HD3850上市时更为火爆。这也折射出玩家对于AMD和RV770的期待和认可。
● HD4850的挑战:9800GTX/9800GTX+
笔者截稿之前,NVIDIA已经发布了支持PhysX CUDA的最新Forceware 177.39 Beta驱动,9800GTX已经可以通过升级驱动得到物理加速功能,在3DMark Vantage和支持PhysX引擎的游戏中获得性能大幅度提升。NVIDIA首款55nm工艺的9800GTX+也紧随HD4850登场,NV宣称其性能比老版快20%,但是定价稍高,对手将是HD4870。
不过NVIDIA目前已经调低了9800GTX的售价,最新的报价1399元和HD4850处在同一水平,两者的性能差距在10%内,而在性能以外的诸如散热和做工上HD4850都没有优势可言。HD4850面临着强力的挑战,它到底能在中高端性价比王者的位置上坐多久呢?