大者恒大!耕昇最强非公版GTX470评测
泡泡网显卡频道5月28日 经过数次跳票,基于Fermi架构的GTX470/480终于在晚竞争对手6个月之后发布了。不过令我们欣慰的是,NVIDIA并不完全因为40nm工艺问题延误了发布时间,而是在打造一个被称为“真DX11”架构的新产品。从全球媒体的评测数据来看,GTX480与GTX470在性能方面也体现出了其“真DX11”架构的优势,尤其是在一些新的DX11游戏中,非常明显的表现出了相对于HD5000系列显卡的强势。
作为一款全新架构的产品,GTX480/470发布之后,各大合作伙伴也争相推出了自有品牌的GTX480/470显卡,首批产品绝大部分来自NVIDIA的AIC合作伙伴,今天我们要给大家介绍的就是来自耕昇的一款非公版GTX470显卡。
对显卡行业比较了解的朋友应该知道,耕昇是一个非常老牌的显卡厂商,虽然这个品牌在前几年经历过一些波折,但后来被全球最大的显卡代工厂商之一同德收购,成为同德的自有显卡品牌,使得该品牌在显卡市场上再一次的找到了属于自己定位。
被同德收购以后,耕昇的所有显卡都出自同德之手,而同德生产的产品最大的优势就是性价比高,本次推出的这款非公版GTX470显卡也一样出自同德之手。其实,同德早在GTX470发布不久,就曝光了这款产品的设计。
接下来,我们一起来认识一下耕昇推出的这款非公版GTX470显卡!
耕昇这款非公版GTX470型号为GTX470孙策版,继续延续了耕昇以三国人物命名的风格,估计对耕昇产品线非常熟悉的朋友或者代理商,已经可以通过三国人名来代替显卡型号了。
耕昇GTX470孙策版采用双槽散热设计,散热器由热管+双风扇的组合,再配上黑色的散热器外壳,显得非常大方,不过估计很多人会把这款产品当做ATI芯片的显卡(话说ATI很喜欢“黑红配方”)。
从显卡背部的走线和电子元件布局基本可以看出同德在显卡制造上的功底,产品布线错落有致、电子元件排列尽然有序,全球最大显卡代工厂之一生产的产品绝非普通厂商的产品能比。
耕昇这款GTX470孙策版的一大特点就是“长”,上图中我们使用了一款公版的GTX470与耕昇这款GTX470孙策版进行长度对比,可以发现耕昇的这款产品比公版还要长2厘米左右。更长的PCB虽然会带来更高的成本,但走线不会太拥挤,以免影响电气性能。
显卡的输出接口采用双DVI+DisplayPort+HDMI的组合,而公版的GTX470采用的是双DVI+Mini HDMI的组合,从这一点来说耕昇这款GTX470孙策版比公版GTX470要人性化的多。不仅仅可以直接支持DisplayPort的显示器,连接HDMI接口也不需要另外的转接线。
通过前面一页我们从产品的外观上对耕昇GTX470孙策版有了一定的了解,那么这款产品的内部做工到底怎么样呢?看完本页你就可以得到答案了。
卸下显卡的散热器之后,我们就可以看到耕昇这款GTX470孙策版的内部全貌,从PCB上可以看到,这款产品其实可以焊接12颗显存,也就是说这款显卡其实采用了GTX480的非公版PCB,用在GTX470上自然会非常稳定。
显卡核心采用的就是内部代号为GF100的GTX470核心,显存颗粒采用的是韩国三星的产品,不仅仅稳定,而且超频性能也很好。耕昇这款GTX470的默认频率和公版一样,为608/1215/3348MHz。
显卡散热器可以说非常豪华,不仅仅与GPU的直接接触面采用了纯铜材质的底座,而且散热器内部还拥有多根纯铜热导管,再加上双风扇的搭配,即使发热量并不低的GTX470核心也能获得非常优秀的散热效果。
上图是耕昇GTX470孙策版的显卡供电部分,供电部分设计在显卡的尾部,这样不仅仅可以避免设计在显卡前端对输出信号造成的干扰,而且电气性能也更好。我们可以看到,这款显卡采用全固态电容搭配封闭式电感线圈,用料还是非常大方的。
前面我们说到,NVIDIA之所以花费了这么长的时间打造一款“真DX11”的产品,为什么要这么做呢?这还得从DX11架构的特性说起!
从游戏画面逼真度来看,短期内恐怕没有哪款游戏能够达到Crysis的高度,但是这款依靠暴力模型、着色技术和诸多特效堆积而成的游戏,对显卡的要求之高令人叹为观止,至今都没有哪颗GPU敢打包票说能在最高特效下面流畅运行。也就是说CryEngine 3是丝毫没有考虑现有GPU的性能而开发的一款超级引擎。
虚幻3是最高效最成功的引擎,Cryengine只是画面最强的引擎
以高效率著称的虚幻引擎缔造者Tim Sweeney称,想要把现有游戏模型复杂度提高数十倍是很容易的事情(比如CG模型和影视渲染),但同样的你也需要数十倍与现有主机机能的显卡才能流畅运行,比如三路甚至四路优异系统,而这种系统的市场占有率连1%都不到,独孤求败的Crysis还卖不过快餐式的使命召唤系列、Cryengine至今无法染指游戏机领域就是这个道理。
所以,架空硬件的引擎是不可取的,唯有充分利用有限的GPU资源,通过各种辅助技术最大化画面表现力,才是图形技术公司和游戏开发商首当其冲要解决的内容。
因此,在DX10发布四年、成为主流之后,业界将期望都寄托在了DX11身上,虽然DX11并没有带来全新的特效,但却通过各种手段提升了GPU的渲染效率,当GPU有了富裕的运算资源之后,游戏开发商就可以大胆的去使用更多的特效和技术,如此一来DX11游戏很容易就能从画面到速度全面超越DX10游戏!
DX11最关键的特性有以下五点:
1. Tessellation:镶嵌式细分曲面技术
2. Multi-Threading:多线程处理
3. DirectCompute 11:计算着色器
4. ShaderModel 5.0:着色器模型5.0版
5. Texture Compression:纹理压缩
DX11的五大关键特性也有主次之分,其中Tessellation和DirectCompute 11堪称革命性的技术,前者可以大幅提升游戏画质、后者可以大大提高游戏效率。接下来,我们逐一对这5大特性进行简单讲解。
● Tesselation
Tessellation技术最早由ATI倡导,早在DX9C时代,微软XBOX360游戏主机中由ATI设计的Xeno显示芯片就已经开始支持这项技术,从DX10时代到DX10.1时代,ATI HD2000/3000/4000系列显卡全都整合了一个叫做Tessellator的模块,但由于当时该技术并不成熟,而且GPU性能有限,导致该技术一直没能得到游戏厂商的广泛认可。
微软在DX11中专门加入了辅助Tesselation的模块——Hull shader&Domain shader
直到DX11时代,GPU自身的性能有了长足的进步,硬件上真正具备了细分曲面的实力,再加上微软重新改写API渲染流程,专为Tessellation开辟了新的着色器,这才让Tessellation技术得以重见天日。
Tesselation的作用:生成更多真实的顶点
Tessellation这个英文单词直译为“镶嵌”,也就是在顶点与顶点之间自动嵌入新的顶点。Tessellation经常被意译为“细分曲面”,因为在自动插入大量新的顶点之后,模型的曲面会被分得非常细腻,看上去更加平滑致密。上图就非常形象的反映出Tessellation技术的原理和所实现的效果。
开启/关闭Tesselation技术的房屋瓦片对比
Tesselation的用途非常广泛,比如取代虚假的视差映射贴图技术、生成物体运动的物理效果、流体的运动效果等等。上面这张图片就是Tesselation最典型应用——细分曲面、取代视差映射贴图。
除了大幅提升模型细节和画质外,Tessellation最吸引程序员的地方就是:他们无需手动设计上百万个三角形的复杂模型,只需简单勾绘一个轮廓,剩下的就可以交给Tessellation技术自动镶嵌,大大提高开发效率;而且简单的模型在GPU处理时也能大幅节约显存开销,同时大幅提升渲染速度!
● DirectCompute
在Windows 7发布之后,我们就经常提到了Direct Compute这项技术,简单的说,Direct Compute就是微软开发的GPGPU通用计算接口,欲统一GPU通用计算标准,正面与OpenCL对抗。
虽说DirectCompute标准才刚刚问世,但目前已经有了三个版本,它与微软的DirectX版本是一一对应的(10.0、10.1、11.0),毕竟DirectCompute目前还只是DirectX的一个子集,羽翼未丰之前难以自立门户。DirectCompute是与DX11一同发布的,因此相比“过去式”的10.0版,DirectCompute 11作出的改进比较多:
可以看出,同DX11类似,DirectCompute 11的改进主要集中在降低系统资源开销与提高效能方面,也就是说新的DX11显卡会有更强的通用计算效能。而旧的DX10显卡虽然会慢一些,但实现的功能也不会差多少,如此一来就完美的解决的兼容性问题,也能很好的凸出新显卡的优势,用户和厂商皆大欢喜。
DX11新作《地铁2033》当中使用DirectCompute11实现景深效果
DirectCompute在图像画质方面也有很多应用,比如顺序无关透明、电影级景深特效、高清晰环境光等等,上图就是在《地铁2033》游戏中利用Direct Compute实现的景深特效。
● Shader Model 5.0
Shader(译为渲染或着色)是一段能够针对3D对象进行操作、并被GPU所执行的程序,ShaderModel的含义就是“优化渲染引擎模式”,我们可以把它理解成是GPU的渲染指令集。历代DirectX每逢重大版本升级时最主要的更新内容就包括在了ShaderModel之中:
ShaderModel 1.0 → DirectX 8.0
ShaderModel 2.0 → DirectX 9.0b
ShaderModel 3.0 → DirectX 9.0c
ShaderModel 4.0 → DirectX 10
ShaderModel 5.0 → DirectX 11
高版本的ShaderModel是一个包括了所有低版本特性的超集,对一些指令集加以扩充改进的同时,还加入了一些新的技术,现在我们就来看看DX11 SM5.0都有哪些新特性:
由于统一渲染架构的特性,Shader Moder 5.0是完全针对流处理器而设定的,所有类型的着色器,如:像素、顶点、几何、计算、Hull和Domain(位于Tessellator前后)都将从新指令集中获益。
其中,覆盖采样及Gather4纹理拾取两项指令是从在DX10.1基础上发展而来的,SM5.0要比SM4.1更加智能和灵活,它可以针对特定颜色分别采样、还能自动识别可做阴影映射的值,精度和效率都进一步提高。
由于DX10.1与DX10在指令方面的相似性,现有的DX10.1游戏可以很容易的通过更新程序代码升级支持DX11,从而获得更好的运行效率,比如《BattleForge》和《STALKER》这两款DX10.1游戏率先对DX11提供了支持。
● Multi-threading多线程处理
如果一个软件能够对多核心多线程处理器进行优化的话,那么在使用双核或四核处理器时,其运行效率将会提升2-4倍,遗憾的是如今的游戏都无法支持多核处理。
通过大量的游戏性能测试来看,GPU占绝对主导,而CPU只是考验单核效能,通过对CPU极限超频可以让游戏性能提高不少,但使用四核或者带HT技术的“八核”处理器几乎不会有任何性能提升。在多核成为大势所趋的情况下大量CPU资源被白白浪费,瓶颈可能依然卡在CPU上面。
DX11当中新增的多线程处理技术,则是专门针对多核应用而生的,它通过引入“延迟执行”的指令将一个渲染进程拆分为多个线程,并根据处理器核心/线程数设定延迟执行内容的数目。多线程的涵义是非常广的,每一帧画面可以被分为几个图层,每个图层又可以分为N个区块,所有的这些都可以被并行调度到延迟执行的线程之中。
这是一项很聪明的技术,标记为“立即执行”的线程与传统的渲染没有区别,而标记为“延迟执行”的线程则可以在后台将图形生成所必须的资源做预先的存取,比如纹理拾取、像素生成、常数缓冲等操作都可以多线程并行处理,通过多核CPU富裕的资源来减少程序等待时间,从而使得渲染不再受到CPU的瓶颈制约。
多线程技术是非常灵活的,它既可以在游戏中通过程序代码来控制,也可以通过DirectX自动分配,还能够通过驱动程序进行优化。即便是驱动没有针对多核进行优化,DX11运行库也会通过模拟的方式提供新的功能,也就是说所有DX11游戏都将或多或少的从多核多线程CPU中获益。
多线程技术的引入对于双卡甚至多卡互联系统更为重要,以往多颗GPU在DirectX中只能模拟成一个虚拟GPU,所有的GPU必须共享指令缓冲区并接受CPU调度,渲染线程的拆分与合并指令延迟都很大,GPU越多则效率越低!而在DX11当中,如果用多核CPU搭配多路SLI系统的话,每颗CPU都可以单独控制一颗GPU的渲染线程,在均分CPU负担的同时,提高了GPU资源利用率,从而大幅提升游戏性能。
NVIDIA称,GTX480 SLI在DX11游戏中的性能几乎达到了单卡的两倍,而不再是以往的1.8倍左右,这其中DX11多线程技术功不可没,当然也需要驱动程序的大力优化支持。
其实多线程技术也能应用在DX9/DX10甚至是OpenGL上面,但由于API及函数指令的限制,开启多线程会产生很多重复的指令,导致性能提升有限甚至不升反降,因此微软并不建议在旧API模式开启多线程模式,除非程序员做过严格的测试与优化。
● 两种新的纹理压缩格式:BC6H和BC7
丰富的纹理细节对于最终图像的质量尤为重要,目前的游戏也都在朝着超大规模、超精细的纹理细节方向发展。但是,大规模的纹理非常占用显存以及带宽。而纹理压缩就是为了解决这个问题,将大规模的纹理以一种优化的算法进行压缩。试想,如果图象的纹理都不进行压缩的话,那么2GB的显存容量恐怕都不够用。
但是,目前纹理压缩技术并不支持HDR(高动态范围)图像,这也是开启HDR很占用显存的一个很大的原因。为了解决这个问题,DirectX 11加入了两种新的压缩算法——BC6H和BC7。其中,BC6H是专门针对HDR图像设计的压缩算法,压缩比为6:1;而BC7是专门给高品质RGB[A]纹理设计的压缩算法,压缩比为3:1。
上图展示的是图像通过BC6H压缩模式进行压缩的前后效果对比图。其中左边的图像为原始图像,中间的是在压缩过程中损失的一些细节,而右边的就是压缩后的图像。可以看出,从画质上来看几乎没有损失(肉眼看不出),但是却可以大幅度降低显存的占用。
这幅图展示的是BC7针对LDR纹理的压缩与传统的BC3纹理压缩对比。可以看出传统的BC3纹理压缩损失了大量的纹理细节,压缩之后的效果也很不好。而采用BC7算法压缩后的纹理,丢失的细节很少,效果也非常好,这就是改进纹理压缩的魅力。
前面我们再一次简单的回顾了DX11的技术和特征,接下来我们一起来看看耕昇这款型号为GTX470孙策版的性能表现。
由于耕昇这款GTX470显卡频率和公版GTX470完全一样,而公版GTX470的性能在GTX470/480首发测试中我们已经有过详细的测试,故我们本次就不做专门的测试,直接饮用之前文章中评测的部分成绩。为了更加具有代表性,我们直接引用7款DX11测试程序在1920×1200分辨率下的成绩,更加详细的测试数据请直接查阅《革命性DX11架构!GTX480/470权威评测》:
● 《Heaven Benchmark》
● 《BattleForge》
● 《STALKER:COP》
● 《尘埃2》
● 《异形大战铁血战士》
● 《战地:叛逆联队2》
● 《地铁2033》
从7款DX11项目的测试中,我们看到GTX470在性能方面的表现完全领先ATI同样定位的产品HD5850,上面的评测数据我们都引用的是在1920*1200分辨率下的成绩,实际上在更高分辨率的情况下,GTX470相对于HD5850领先幅度更大。
作为同德的嫡系显卡品牌,耕昇总是能在第一时间推出非公版的显卡产品,而且作为自家的品牌,同德也自然会专门为耕昇“潜规则”。据悉,耕昇这款GTX470的板型是同德专门为耕昇准备的,而其他一些品牌采用的同德方案GTX470均为短板。
中国有句老话叫做“大者恒大强者愈强”,我想用在耕昇的产品上非常合适,同德作为全球最大的显卡代工厂商之一,在产品的制造、设计上都有非常非常好的功底。而耕昇的品牌在玩家心中也是无人不知。
另外,从耕昇GTX470孙策版这款产品本身来看,超长的PCB也体现出了一个“大”字,前面我们介绍到PCB更长可以使得布线更加轻松,而且产品的电器性能更好,并且超频性能更强,从这一点上也体现出了大者恒大强者愈强的内涵。
除了产品本身非常优秀与耕昇这个品牌有巨人同德做坚强后盾之外,耕昇显卡的质保服务也是国内所有显卡品牌中最强的。在目前国内显卡品牌普遍质保1-2年,部分产品提供三年质保的情况下,耕昇独家提供5年质保服务,这不仅仅是对自己产品信心的体现,更是表现出了对消费者更加负责的态度。
目前,耕昇这款GTX470孙策版显卡已经在全国各大IT卖场上架,零售报价为2888元,从价格方面来说也相对于其他品牌的GTX470 2999元的公价更具竞争优势,最近打算组装高端机的朋友不妨考虑一下这款产品。■