如何展现真实性能!媒体显卡测试曝光
注:本文编译自国外网站 HardwareCanucks.com,原文链接。
泡泡网显卡频道7月2日 评测几乎是每一个IT网站都会做的事情,但不同的网站却有着不同的准确度,包括很多读者在看了媒体的评测之后,自己想要再次尝试测试,以帮助自己能够买到最合适的产品,却发现自己根本找不到自己最喜欢的网站到底是怎么测试的,尤其是对于显卡的测试,这种现象非常严重。还有一个问题就是,媒体的测试成绩到底能否代表显卡玩某款游戏时的实际性能?媒体到底是怎么测试显卡的?媒体的测试就一定准确吗?今天,我们不惜曝光这一切!
通过对20多个英语IT技术网站的统计和调查,我们发现绝大多数媒体在测试显卡时,都是有游戏独立测试工具的时候就用独立测试工具,游戏内置Benchmark程序的时候就用游戏内置的BenchMark,如果可以录制TimeDemo的话就录制TimeDemo进行测试。我们还发现很多网站的测试出了一个游戏标题以外,就没有其他的介绍了,包括是使用什么方式/何种工具测试的都没有介绍。不过,我们看到很多网站似乎都是用游戏内置的BenchMark测试工具,而不是通过实际玩游戏进行测试。这也就导致了一些很有意思的结果。
在本篇文章里,我们将通过9款最热门、同时也是目前绝大多数网站测试显卡所测试的游戏进行测试,来揭开媒体对显卡的测试是否真的准确等秘密。本文大部分内容将放在独立测试程序和游戏内置测试程序这两种测试工具上进行讨论研究,因为这两种方式是媒体编辑最喜欢使用的两种测试方式。当然,最后我们还会谈到TimeDemos测试法到底怎么样、游戏场景采样长度的重要性以及补丁是否影响性能等诸多问题。
本次测试我们将使用一款GTX470和一款HD5850显卡来完成,以确定不同的测试方法定位到不同的产品在性能方面有怎样的影响,另外本次测试的游戏我们都已经玩了一遍了,就是为了更加了解这些游戏。我们将会找出一个“最糟情况”(即对显卡要求较高的场景)和一个“典型情况”(即在玩某个游戏时最能代表大多数情况的场景),与媒体编辑经常使用的“游戏内置测试工具”和“游戏独立测试工具”进行对比。
● 测试平台和测试方法介绍
在本次测试中,所有参加测试的游戏均已经更新到了最新版本或者安装了最新版本补丁(补丁一节例外,文章有详细介绍),操作系统也打上了最新的补丁,所有的成绩都取决于三次运行之后的平均成绩,所有的游戏画质设定都是在游戏中或者游戏附带的配置文件中设定,所有游戏和测试的帧数记录都使用Fraps,也就是说即使游戏的BenchMark程序能跑出分,也不做统计。
● Batman: Arkham Asylum(蝙蝠侠:阿卡姆疯人院)
《蝙蝠侠》从发布之后就非常热门,原因或许是它内置了一个BenchMark测试程序,并且又支持PhysX物理加速,全球网站的评测编辑都喜欢使用吧。
之前我们测试《蝙蝠侠:阿卡姆疯人院》这款游戏的时候,几乎所有的网站都是用内置的BenchMark测试程序获得显卡在这款游戏中运行的流畅度,而今天我们要使用另外两种游戏场景进行测试,并与游戏内置的BenchMark测试程序所测得的结果进行对比。这另外的两种游戏场景分别是:
典型场景(Typical):即在以第一人称方式玩游戏时的战斗场景,记录三分钟的平均帧数;
最糟情况(Worst Case):即在森林中的游戏场景,同样记录三分钟的平均帧数;
使用过《蝙蝠侠:阿卡姆疯人院》中内置BenchMark的用户应当知道,这款游戏内置的BenchMark视角是一种第三人称视角,也就是类似于一个浮动的摄像机拍摄的视角,从测试结果可以看出,通过BenchMark所测得的帧数相对于实际游戏过程明显偏高。也就是说,实际玩这款游戏的时候,平均帧数可能会比通过游戏内置BenchMark测试的帧数要低。
在实际玩这款游戏的过程中,屏幕上可能同时出现多个高细节的角色模型,GPU的压力其实并不小。但游戏内置BenchMark所采用的第三人称拍摄视角则没有这么消耗GPU资源。不过值得注意的是,内置BenchMark程序所测试的成绩虽然不能完全体现实际玩游戏时的帧率,但其中A卡和N卡的具体表现在任何一种场景下性能的比例都比较准确,GTX470比HD5850快一些但幅度不大。当然,这次测试没有开启NVIDIA独家支持的PhysX物理加速。
● DiRT 2(尘埃2)
《尘埃2》是一款非常棒的DX11游戏,也是本次测试中唯一一款内置的BenchMark描绘的是实际玩游戏时情况的游戏,游戏的画质也非常不错。之前这款游戏出过专门为评测人员准备的DEMO版,在本次测试中把DEMO版的测试也加入进来。
与游戏内置的BenchMark以及Demo版游戏内置的BenchMark相对比的仍然是两种场景,分别如下:
典型情况(Typical):犹他州赛道开拓者(Utah Trail Blazer)
最糟情况(Worst Case):巴特西的天空(Battersea: Air)
通过我们的测试,不得不说《尘埃2》这款游戏内置的BenchMark是最为准确的,和实际玩游戏时场景所得到的帧数都非常接近,而且接近的是“最糟”情况的得分,也就是说在大多数情况下,你实际玩游戏的体验可能会比游戏内置BenchMark的帧数稍高一点,这样无疑是非常合理。不过,如果你是一名非常优秀的车手,并且总是能将其他车手大幅超越的话,游戏帧数可能会更高,因为更多的车辆才更加消耗GPU资源。
相比来说,游戏推出的独立的DEMO版测试程序就比较杯具了,不仅仅需要通过在游戏的配置文件中强制开启DX11模式(对于多数用户来说并不容易),而且在有些显卡上所得到的帧数和实际游戏的帧数相差很大,想必《尘埃2》游戏的自动升级没有将升级包同时安装到独立的DEMO版是造成此问题的一个重要原因,结果导致使用该BenchMark测试的性能和你实际玩游戏的体验相差太远。
● Farcry 2(孤岛惊魂2)
《孤岛惊魂2》 的场景变化无穷,是一款非常好玩的游戏,游戏内置了一套测试工具,用户可以通过游戏中内置的标准游戏场景进行测试,用户也可以在游戏中自己录制DEMO再通过测试工具获得运行过程中的平均帧数。
在本次测试中,“最糟情况(worst case)”场景我们选择的是使用一种喷火的武器以及AK-47对一个村庄的敌人进行攻击的场景;“典型(Typical)”场景则使用的是你玩这款游戏绝大部分时间的操作:袭击藏在草从中的敌人。当然,测试工具内置的的三种场景——Ranch Small、Ranch Medium 以及 Ranch Large 也测试了平均帧数。
上表就是本次测试的结果,其实我们可以看到,“最糟情况”和“典型情况”各个显卡的表现其实都差不多,但是在游戏内置的三个Ranch(牧场)测试中,却发现各个显卡在不同场景中的表现差距很大。好的是从测试成绩中可以看出不管是NVIDIA还是ATI在内置的场景中都没有额外的优化。所以对于《孤岛惊魂2》这款游戏来说,为了更加能够代表玩家在实际玩游戏过程中的情况,我们建议自己录制战斗的画面进行测试。
● H.A.W.X(鹰击长空)
《鹰击长空》也是一个在我们测试时经常提起的一款游戏,尽管游戏本身内置了BenchMark测试程序,但作为一款非常复杂的游戏,只有一个测试场景显然不能反映游戏在实际运行中的表现。
游戏中内置BenchMark所描绘的场景是玩家驾驶飞机飞越里约热内卢上空,这其实是游戏玩家的首个任务之一。随后进入东京湾以及芝加哥大战,展示最激烈的战斗场面。下面是我们与游戏内置的BenchMark对比测试的两个场景:
“典型情况(Typical)”:阿巴拉契亚关,3分钟空中作战;
“最糟情况(Worst Case)”:里约热内卢,3分钟空中作战;
从测试的结果中我们看到,使用游戏内置的BenchMark测试的结果虽然还算准确,但仍然和实际玩游戏过程中的帧率有一定的差距,在一般的“典型”情况下,游戏的体验应该会比游戏内置BenchMark所测试的平均帧数高一些。
● Just Cause 2(正当防卫2)
《正当防卫2》 是一款采用DX10 API的新游戏,游戏画面也非常华丽,当然也给显卡的性能带来了挑战。游戏也内置了三个场景,用以展示游戏的不同部分。但遗憾的是,没有一个场景基于实际玩游戏时的情况。
我们仍然找出一个“典型”的场景和一个“最糟”的场景,与游戏内置的三个BenchMark进行对比。下面是这两个场景的介绍:
典型情况(Typical):Panau Village(在小镇上袭击士兵)—时长 4 分钟;
最糟情况(Worst Case): Casino Assault(从车顶逃亡的场景)——时长 4 分钟;
当然,为了对比我们关闭了NVIDIA的专用特效,比如 CUDA Water和远景模糊特效。
虽然“Dark Tower”BenchMark所测试的成绩和我们实际所测试的成绩相近,但它仍然不能代表玩游戏时的真实水平,很简单因为它使用的是空中飞行视角,不过比其他两个更加离谱的BenchMark好多了。所以,在《正当防卫2》这款游戏中,使用“Dark Tower”BenchMark所测试的成绩更加能够代表真实玩游戏时的体验。
● Resident Evil 5(生化危机5)
去年NVIDIA发布“Big Bang”驱动的时候,《生化危机5》正好赶上了这款驱动,得到了很大幅度的性能提升。虽然游戏本身很恐怖,但作为一款采用DX10 API 的游戏来说,这款游戏对于GPU性能的利用以及画质方面都还是很不错的。
游戏内置两个BenchMark,分别叫做 Fixed 和 Variable,我们仍然找两个实际玩游戏的情况与这两个BenchMark进行对比。
“典型情况(Typical)”:第五关第二小节,穿过街道并干掉沿途的敌人;
“最糟情况(Worst Case)”:第二关第一小节,玩家乘坐卡车在桥上的场景,场景中有大量的爆炸和敌人;
Variable BenchMark看起来和实际的游戏表现非常接近,但这仍然代表不了全部,因为这款游戏本身对N卡有大量的优化,在很多情况下N卡的表现都会比A卡更好,我们非常不愿意看到一些游戏厂商专门针对某一个品牌的显卡/GPU进行优化。
● Aliens versus Predator(异形大战铁血战士)
几个星期前,Rebellion 发布了一个独立的《异形大战铁血战士》测试工具,使用了高等级的 Tessellation 特效,然后让无数用户的显卡都跑不动。那么,实际玩游戏的时候是否真的这么变态呢?
为了对比,我们仍然找两个场景与这个独立的测试工具进行对比测试,下面是两个场景的一些详细细节:
“典型情况(Typical)”:Predator campaign – Swamp mission,时长4分钟;
“最糟情况(Worst Case)”:Marine campaign – Refinery mission,时长4分钟;
所有的画质设定都通过修改游戏和测试工具的配置文件来进行。
通过实际的游戏测试来看,结果完全没有游戏的测试工具所展示的性能那么糟糕,实际玩游戏的帧数远远要比游戏的独立测试工具高。另外,虽然我们从游戏独立的测试工具测出的结果是GTX470和HD5850性能相当,但根据实际玩游戏的测试结果来看,N卡的表现显然要比A卡的表现好的多。
● STALKER:Call of Pripyat(潜行者:普里皮亚季的召唤)
最新版本的《潜行者:普里皮亚季的召唤》是一款采用采用 DX11 API 较早的游戏了,虽然使用了丰富的DX11特效,但该作的画质表现并不令人满意。该游戏也拥有独立的测试工具,而且由于测试工具的设置界面非常简单,测试结果也很精确,网站的评测人员都很喜欢使用游戏独立的测试工具测试显卡性能。
该游戏的独立测试工具内置了4种场景,每次运行都会将这四种场景跑完,从某种程度上来说可以综合的体现出显卡在这款游戏不同场景下的表现。但实际上是怎么样的呢?能否代表游戏玩家玩这款游戏时的性能表现呢?我们也挑选了两种实际玩的情况与游戏本身的测试工具进行对比,不过需要注意的是,游戏本身的测试工具所测试的成绩我们只记录了其中两个,分别是 Day 和 Sunshafts。下面是我们实际玩这款游戏时选择的场景:
“典型情况(Typical)”:室内和室外的组合场景;
“最糟情况(Worst Case)”:普里皮亚季的城市中;
以上两种情况都运行三分钟,并穿插着战斗场面。
通过测试来看,在不同的游戏场景下显卡的表现完全不一样,但整体来说实际玩游戏的帧数要比使用独立测试工具时测试的帧数高,反映出了这款游戏的测试工具也不是那么靠谱。另外还有一点,我们发现在某些情况下,HD5850的最低帧数比GTX470最低帧数高,而在实际的游戏中无论如何也没办法重现这一点,同样我们也没有办法重现HD5850与GTX470的平均帧数那么大的差距。从实际玩游戏所测得的帧数来看,HD5850和GTX470之间的差距很小,而通过游戏独立的测试工具来看却差距很大。
所以,我们认为虽然这款游戏的独立测试工具是一个很不错的东西,但如果用在N卡和A卡对比的文章中就不合适了,显然有失公平。
让用户可以自己录制TimeDemo的游戏越来越少,即使之前有一些游戏支持录制TimeDemo,但似乎也有逐渐取缔该功能的势头,这其中有很多很多的原因。但通过前面的测试我们看到,很多游戏提供的 BenchMark 工具并不能真正意义上代表用户在玩游戏时的情景。
目前的主流热门游戏中,只有《求生之路 2》以及《孤岛惊魂2》还保留着这种比较传统的功能,所以本小节的测试我们只能通过这两款游戏来完成。《求生之路2》使用我们经常使用的Atrium关作为测试场景,而《孤岛惊魂2》使用村庄战斗的场景作为测试场景。
为了得出更加准确的结果,玩第一圈不记录帧数,而第二圈则开启 Fraps 记录帧数,同时 Fraps 还用来记录相同场景TimeDemo回放的帧数,当然我们保证玩游戏的场景和回放的TimeDemo场景是完全一样的。下面首先是《孤岛惊魂2》的测试成绩:
从测试结果我们可以看到,在相同的场景下,使用TimeDemo回放和实际玩游戏的情况下几乎没有差距,也可以反映其准确性。接下来,我们在看看使用TimeDemo以及实际游戏情况下对比在《求生之路2》这款游戏中的表现:
虽然从柱状图反映出的长度来看,要比上面测试的《孤岛惊魂2》差距大一些,但是仔细一算也仅仅只有3%的差距,这样的差距在游戏中完全可以作为误差忽略掉,所以整体来看,使用TimeDemo回放进行游戏测试时非常准确的。
虽然准确度很高,但目前所面临的一个最大问题是只有非常少的游戏支持录制/回放TimeDemo,其实使用TimeDemo进行测试不仅仅可以让评测编辑更加轻松,最重要的是网站的评测编辑可以向读者共享出自己录制的TimeDemo,而共享TimeDemo可以最大限度的提高网站测试的透明度,并真正意义上帮助读者选购正确的产品。我们真心的希望更多的游戏能够在不远的将来支持该功能。
当游戏厂商为某游戏发布新的补丁之后,人们通常会庆幸又修复了一些游戏中的Bug,但很多人不知道厂商也可能为了优化/提升性能而发布游戏补丁包。
在过去,人们通常需要去搜索游戏补丁。而现在,很多游戏厂商(比如 Valve 的 Steam)直接提供了更新服务,让游戏可以自动更新并且对于用户来说非常简单。但遗憾的是,很多评测编辑却不把更新当回事,甚至完全禁用游戏中的任何更新(Hey兄弟,别不承认,你自己心里最清楚),以避免游戏每次有新的更新之后又要重新测试一大堆显卡。有些评测编辑甚至一年都不带更新游戏的...
下面,我们不得不说一下更新游戏的重要性。我们这里通过两个案例来测试游戏更新前和更新后的性能提升,当然我们确保两次测试都使用相同的测试方法和测试场景,由于这两款游戏都不是 Steam 游戏,所以我们只能手动更新。
● Aliens versus Predator(异形大战铁血战士)
《异形大战铁血战士》于2010年2月份正式发布,其实在该游戏发布之后已经发布了一堆的补丁,每一次都有性能提升。该游戏的首个补丁其实在游戏发布的当天就发布了,并且提到了大量的性能提升(如上图),为了这篇文章,我们假设(希望如此)所有的用户都打上了这个补丁,我们以打上这个补丁之后所测试的成绩作为基准线。
该游戏的第二个补丁发布于游戏上市大约一个月之后的3月份,又一次的提到了在开启 Tesselation 的情况下提升性能,这个补丁还修正了NVIDIA DX11显卡运行黑屏的问题。
最近的一个补丁刚刚发布没几个星期,又一次的对 DX11的Tesselation性能进行小幅度的调整,并修复了一些使用NVIDIA最新显卡的渲染错误。接下来我们就来看这两次补丁更新(第一次作为基准线)之后和更新之前有什么不同:
虽然没有非常大的差距,但还是可以很明确的看出游戏补丁带来的性能提升。另一方面有意思的是这两次更新之后,HD5850和GTX470的最低帧数双双下降,不过从平均帧数上看起来在DX11方面的优化NVIDIA比ATI更加受益(至少在我们的测试中)。
● DiRT 2(尘埃 2)
《尘埃 2》是一个不经常打补丁的游戏,唯一的一个补丁是在今年三月份发布的,主要包含一些重要的调整和优化。
《尘埃2》首次发布遇到的一个重要问题是在中端GPU上低品质阴影有问题,而高端DX11显卡(比如HD5800)的高品质阴影设置也有问题,不过这个问题都在三月份发布的补丁中解决了,该补丁的一个重要作用就是优化阴影渲染,尤其是在较高设定的阴影下时,性能提升非常明显(我们使用最高的Ultra进行测试),并且支持多核心CPU。我们同样来对比一下打补丁之前和打补丁之后的结果:
从测试的结果可以看出,打补丁之前和打补丁之后的测试成绩完全不一样,GTX470和HD5850都有高达10%的性能提升,非常显著。
通过上面两个游戏的测试,我们可以看出给游戏打补丁所带来的性能提升其实比更新驱动程序所带来的性能提升更快更高,《尘埃2》这款游戏就是一个很好的案例。
我们谈论游戏场景采样长度的重要性理由很简单:想要得到一款显卡玩某游戏的准确性能,取决于合适数量的数据点。遗憾的是,对于一个动辄就需要晚上好几十个小时都通不了关的游戏来说,采样长度只能是越长越好。但这并不现实,所以找到最能够代表整个游戏的场景是最为非常重要的。但这里有一个问题是,很多人仅仅决定用一个三十秒或者五十秒的场景来测试一款显卡在游戏中的性能,这样测试的成绩能具有参考性吗?我们来看一下结果:
● Aliens versus Predator(异形大战铁血战士)
上面的图表说的是我们通常玩游戏情景的一部分,结果不言而喻。如果仅仅使用30秒的游戏采样长度来比较两款显卡的平均性能的话,是完全不能代表性能差距的。但最大的问题是,30秒游戏采样长度所得到的最低帧数完全和整个游戏所得到的最低帧数完全不一样,头30秒我们测试到的最低帧数是HD5850的30帧,而当游戏场景采样延长到200多秒的时候,最低帧数只有18FPS;
仔细看曲线图表,几乎没有任何一个30秒区间可以代表整个显卡在游戏中的表现。
● Just Cause 2(正当防卫 2)
《正当防卫 2》这款游戏的测试也告诉了我们同样的道理,从曲线图上可以看出有,如果你仅仅记录10多20秒的成绩的话,两款显卡的性能几乎相当,即使记录前30秒的成绩,两款显卡的性能也相差甚微。但实际上当我们记录超过100秒的长度时,发现GTX470的性能远远好于HD5850。
结论很明显,仅仅30秒的游戏场景采样长度对比显卡的性能是绝对不够的,甚至记录最低帧数都不够,而且我们也可以看出较长的采样长度是必须的。
经过前面多页的测试对比之后,现在到了该做结论的时候了。其实,我们的结论很简单而且没有什么可争议的,就是测试一款游戏没有完美的方法,有很多因素都会影响测试结果,但我们没有办法完全考虑到。然而,我们还是证明出了有方法可以尽量的去避免测试成绩中出现的不准确的问题,以尽可能的保证测试成绩的准确。
让我们再回头看看目前评测编辑甚至用户最流行的测试方法:游戏内置或者独立的BenchMark程序,独立的BenchMark程序最严重的两个问题就是装不了最新补丁以及测试场景不能代表游戏的实际表现。而游戏内置的测试程序虽然可以得到补丁的更新,但其测试场景仍然不能代表实际玩游戏时的测试场景。不过,当前还是有很小数目的游戏(比如Dirt2、Hawx)内置的测试工具和实际玩游戏是的情况差不多。所以,我们认为游戏测试应该完全避免独立的测试工具,而游戏内置的测试工具也应当在能够代表实际玩游戏时情况的场合下使用。
下一个我们谈到TimeDemos,从大部分测试来看使用TimeDemo的测试方法都要比游戏内置的测试工具还准确,最重要的是他可以重复非常非常相似的场景,甚至可以提供给读者使用,但可惜的是我们只能看到越来越少的游戏支持录制和回放Demo。这个对于游戏测试来说应该是最好的方法了,但大多数的游戏没有这个功能,我们只能望洋心叹。
所以,在这种无论用何种方式测试都没有办法做到完美的情况下,我们就只能将最好的游戏测试的方法归结为一个单词:探索!不是说仅仅通过第一关或者游戏内置的测试工具所测得的成绩就能代表一款显卡的性能,如果网站编辑偷懒用最简单最不浪费时间的方法进行测试,那么很可能得到的是一个错误的结论。了解一款游戏较好的方法就是重头到尾的将这个游戏玩一遍,没有办法让任何一个人对于他完全不了解的游戏做定论,原因我们已经看到了,否则通过一个错误的测试方法得到一个错误结果的风险非常大。
现在来谈谈我们这篇文章最初提到的问题,很显然,这一切都归结到了一件事情:透明度。大多数时候网站都是扔出一篇显卡评测而没有说这个成绩到底是怎么得来的,甚至都没有说是不是从游戏内置的测试工具或者独立的测试工具得出的。要想真实的反映显卡在游戏中的性能,是不应该基于一个独立的测试工具,即使是内置的测试工具也要看其场景是否和真实玩游戏是的场景相似。这也是为什么我们相信一个真正权威的网站会明确的写出他们究竟使用何种工具何种方法测试的原因。■<