镭光再现!四款空前强大的Radeon97
图形卡领域的霸主位置总是在几年内轮流由不同的公司占据,无论是从显卡在市场的占有率还是在纯硬件技术的领先上都是如此,由S3到3dfx,几乎每一家显卡公司都是在自已最风光的顶峰之后立马走向了衰落,到今天这些厂商们要嘛倒闭,要嘛被收购,要嘛低调运行。三年前当nVIDIA逐步走向了图形卡霸主的位置时候,没有人知道nVIDIA能在这个位置上坐多久,结果nVIDIA的顽强作风让他们一直高居于这个位置,然而大家在提及nVIDIA之余,也会立即就想起市面上唯一还能与它一争长短的另一家公司ATI。
ATI是什么样的公司?它的历史几乎要比nVIDIA久一倍,它的员工人数几乎要比nVIDIA多一大半,它曾是世界上最大的图形卡OEM供应商,然而这家公司在前几年由于一些决策上的失误使它低调了一段时间,在那段时间内它们的产品开发总是不顺利,Rage128被称之为3代半的显卡,高效和相对速度损失最小的32bit渲染,却由于在速度上不及16bit的Voodoo3和TNT2,而在那一场显卡争霸战最重要的战斗中失去了最大的优势。Rage128开发的严重延期现象,使得ATi元气大伤,在接下来的几年内只能很艰难的与其它的竞争对手竞争,但是从Radeon之后ATi正尝试着逐步走出这段阴影的时期,结果他们也做到了。
通过ATi自身不断的努力,在多年后,这位图形业的另一位巨人终于得以不用老是在追着nVIDIA的脚步,可以扬眉吐气的向全世界大喊一声“We are back!”。前不久ATi的总裁KY Ho率领ATi旗下的工程师们在北京所召开的发布会上,正式在国内发布了他们的Radeon 9700 Pro芯片,并自豪的宣称:“没有一家的图形厂商在从显卡第一宝座上下来之后,还能再重新返回这个位置,然而今天ATi做到了。”<
ATi旗下的1000多名工程师中有接近一半500人是从事硬件核芯开发,其余500人从事相关的软件或驱动开发。在Radeon 8500之后,ATi决定让美西开发小组来开发Radeon 9700 Pro的原型,美西开发小组大家听起来可能会觉得比较陌生,实际上它是在美国西部的ATi分公司的开发小组,它的另一个名字叫做ArtX。
ArtX相信大家是再熟悉不过了,它们原先是一家在美国独立运营的公司,之前并没有什么很大的名气,在承接了任天堂Gamecube游戏机的图形核芯开发计划之后,一下子向世人展示了它们的低成本高性能的开发理念,内嵌式的显存设计让大家在如何更有效的利用高速显存上又有了新的发展方向。正因为ArtX的出色表现,ATi不惜巨资收购了这家公司,以壮大自已的研发实力。在收购了ArtX之后,ATi先是利用它们在整合图形技术上的优势,推出当时第一款将硬件T&L整合进北桥的逻辑芯片组S1-370TL,然而ArtX加盟ATi的首款产品最终并没有取得成功,个中的原因鲜为人知。
ArtX开发小组的创意再加上ATi原本开发小组的资深经验,于是我们今天的主角Radeon 9700 Pro便诞生了,不过很遗憾的是,Radeon 9700 Pro本身并没有加入ArtX在设计Gamecube的Flipper图形核芯时所采用的内嵌式1T-SRAM高速显存。好了,现在就让我们走进ATi这一款的翻身力作Radeon 9700 Pro,让我们理解它对于PC用户到底意味着些什么,又带来了些什么。
Radeon 9700 Pro对比规格表<
Radeon 9700 Pro的研发代号为R300,用ATi自已的话讲,它是第一款真正支持微软DirectX 9的显卡,微软每一代的DirectX API都会选择与一家或者几家的图形卡开发商共同合作,在微软的DirectX会议上,大家彼此提出对于未来图形技术发展的需要,然后由微软统一制定最后的标准,所以每一代的DirectX标准其实都离不开微软与各家显卡厂商之间的合作。
每一代的DirectX都有自已的升级标准,例如DirectX 7需要显卡具备并支持硬件T&L单元,DirectX 8需要显卡具备可编程的顶点与像素遮蔽器(Program Vertex Shader、Program Pixel Shader),那支持DirectX9的标准也不例外,需要大致符合如下新特征的标准:
1、 支持更高级的可编程顶点与像素遮蔽器2.0版本(PVS、PPS)
2、 多重目标渲染(支持单Pass最高16级的纹理贴图)
3、 支持高精度Float Point浮点格式的处理以及帧缓存储
4、 双方向式阴影模板硬件生成
5、 Displacement Mapping置换构图法
6、 其余HOS高阶维面(RT-Patch、N-Patch)的升级支持(注:HOS的支持在DirectX 8中就有,DirectX 9只是做了升级,但HOS在游戏中并不普及,所以不算必不可缺的重要特性)。
目前能符合以上标准的显卡的的确确只有ATi一家的Radeon 9700 Pro,不用说将来nVIDIA的NV30也肯定能支持DX9的这些标准,但其它的一些新产品诸如Matrox Parhelia、3DLabs的VP10都在某些方面不能完全符合以上的标准。当然我们现在谈论DirectX 9还是为时太早,因为它还需要一段时间才能与我们见面,随带提一下,ATi将Radeon 9700 Pro称之为VPU(视觉处理单元),显然这要比当初的GPU要高出一个档次,新一代的显卡属不属于VPU类型已经注定是下一个图型时期的主流选购意向了。<
在DirectX 8中,微软提出了Programs Vertex Shader 1.2与Program Pixel Shader 1.1-1.4,微软对于图形发展的可编程性的支持与推动不遗余力,然而在这中间微软却忽略了市场对于显卡功能性的需求,Programs Vertex Shader与Program Pixel Shader对硬件与软件都提出了前所未有的严格要求,打个比方如果一款游戏想要全面利用它们的话就要放弃一些较为传统的设计方案,但这样又造成了游戏与中低档显卡的不兼容,甚至不同显卡在支持Programs Vertex Shader和Program Pixel Shader 上都有一些不同,所以大部分的厂商只将Programs Vertex Shader与Program Pixel Shader 做为一种额外的特效来支持,并没有全面的普及。即使这样,微软还是铁了心的发布它们的Programs Vertex Shader与Program Pixel Shader ,在DirectX 9中两者都发展到了2.0版本。先让我们来看看在处理规格上DirectX 8、DirectX 8.1、DirectX 9之间有些什么差别。
Direct X之间的对比表格
很明显,微软公司做了极大的升级调整,Vertex Shaders 2.0相比之前的1.0版本,所能接受的最大处理规格更加的多,并且复杂与精确。比如在DirectX 8体系中对于顶点效果器的编程最大的限制指令长度是128条,然而到了DirectX 9中却升级为256条,实际上这还可以通过Loop缩环回路实现最大1024条指令,更多的指令数处理上升意味着Radeon 9700可以在同一周期内处理更多的单顶点光源或者更多的矩阵转换或者实现更多精彩的效果,当然对于越来越懒惰的PC游戏开发商们来说,256条指令或者1024条指令对于它们来说并不会有太多的影响,反正PC上的3D游戏看来看去都是那样的画面不是嘛?
除了顶点效果器的指令长度和常数指令有了较大的提升之外,2.0版本的Vertex Shader的另一大特色是增加进了流程的控制,包括了上面提到的循环、跳转、子程序调用这些类似于C语言中很基础的流程方式,更具体的还有ADD,DP3,DP4,EXP,FRAC等等(有兴趣的话可以参考ATi的HardwareShading_2002_Chapter3-1.pdf 白皮书),这些编程的函数性使它看起来更像一颗可以编程的图形芯片。因为在以前的Vertex Shader版本中,如果想要将不同的纹理与不同的光源混合在一起的话就需要单独写一段Shader效果器的程序来,这意味着每一次混合就要调用一段的程序代码。而在Vertex Shader 2.0中却不需要这样用,开发者只需将色彩,方向,光源等等这些自定义值写入子程序中直接调用即可。
(ATi提供的,演示动物茸毛的Demo,通过在子程序中写入自定义值即可实现最后的生成效果,其中包括了Fin皮肤鳍状形体与茸毛细节纹理)
生成步骤:
先将正常的多边形依据每条边缘法线的方向进行一定的移动操作――-称之为Shell外壳生成
增加额外更多的多边形同样依据边缘法线的方向进行突出伸长的步骤――-称之为Fins鳍状生成
将第一步Shells+第二步Fins鳍状
ATi提供的生成调用工具软件
Fuzzy茸毛效果的放大图,据ATi的工作人员表示在三年前当时最优异的显卡完成这样的渲染需要耗时大约十几个小时,而ATi现在能做到Real-Time实现渲染<
nVIDIA在GeForce4 Ti系列加入了两条的Vertex Shader流水线,这样当3D程序在GF4 Ti的2个Vertex Shader进行三角形的顶点坐标转换工作的时候,相较传统的T&L就能节省大约一半的时间,依我们前文中提到每个顶点的转换需要四条指令的运作。
实际上一个三角形的生成就是顶点坐标转换的乘法运算
ATi Radeon 9700的4条Vertex Shader流水线
Vertex Shader的详细流水结构
每条流水线中还包含了一个32bit的标量处理器与128bit的矢量处理器,简单一点的说就是标量是对数据处理的选择采用一个一个的数据不同值的对比运算处理,矢量是对一组数据同时处理的方式负责诸如坐标X,Y,Z,W等组合型的数据流,在Vertex Shader ALU处理中,除了Loop Counter这项操作是用标量方式之外,大部分都采用矢量的处理方式。
新一代的N-Patch概念Truform 2.0更加的灵活
ATi从Radeon 8500开始就力推它们的N-Patch特性,虽然这是一项任重而道远的工作,但ATi显然还是乐此不疲。在DirectX 9也包括了Truform 2.0的支持,它在操作方法上与上一代的Truform没有太多的不同,只是在其中的关键操作Tessellation棋盘型嵌入上显得更加灵活,之前的Radeon 8500限定了Truform只能采用在固定的8个等级中进行调整的方案,就好像如果设定了4级的Truform的话那么无论远景或是近景都将一律的采用4级的嵌入,这就造成了在一些游戏中出现了模型的变形与不符合现实的画面出现,例如在Serious Sam中的变形的圆形枪体,在Truform 2.0中将不会再出现这种现象,它会根据3D场景的远近自适应的判断该用哪一种等级又或者不采用嵌入的操作。
除此之外新的TruForm中还包含了Displacement Mapping功能,对于此功能之前我们在介绍Matrox Parhelia的技术文档中有关相当的描述在此就不再重复,但是我想提出的一个看法是Displacement Mapping并不真的可以像Matrox所说的那样,可以完全代替三角形构模法。实际上它很难独立地做出精细的立体模型,所以我更偏向ATi对于Displacement Mapping的定义:能够在3D对象与外形的表面上提供更多的控制,从特殊种类贴图取样值来进行顶点位置的修改,视觉效果类似Bump Mapping,但是比Bump Mapping更逼真与细致。
ATi对于Displacement Mapping用途的定义与Matrox有些不同<
OK,现在轮到Radeon 9700 Pro的另一个精髓部分了――Pixel Shader,很可惜Pixel Shader 2.0似乎并没有Vertex Shader 2.0进步的那么大,它并不支持流程控制,所以对于编程人员来说,应用它是件复杂的工作过程,但是对我们最终用户来说却没有什么不同之处。
Pixel Shader流水线
Radeon 9700 Pro始无前例的整合了8条像素Pipeline流水线,这在半年前还是不少人梦想中的事,现在却成为了事实。每一条流水线上只包含了一个纹理元素渲染器,这样ATi在单纹理渲染与多层纹理渲染的理论性能值上是一样的,可能你会对这样的设计在外理多层纹理时的性能是否相较当前流行的单流水线双纹理单元的性能的提升持有一些怀疑的意见,实际上这样做在处理多层纹理时的性能的确提升的并不明显,但这并不是ATi的错,而是受限于当前的存储介质。如果ATi再增加一个纹理元素渲染单元的话,256bit的显存位宽将无法满足纹理传输的需要,所以装了也是白装。
当然我们认为如果再加多一个纹理渲染TMU单元的话,对于Die的空间或许也是一个挑战。所幸的是ATi同样可以通过以循环的方式进行重复性的纹理贴图,这在上一代的显卡中已经被广泛的采用,所以并不用太担心只有单个的纹理渲染单元会耗掉你太多的渲染时间,我们认为如果ATi在将来设计代号为R350的新产品的时候,如果采用了DDRII的显存模块,那么将可以考虑加入更多的TMU单元,因为那时的R350已经是0.13微米的工艺生产了,当然这只是我们的设想,是否有改动还要看ATi的工程师们。
Pixel Shader渲染详细模块
Pixel Shader可以对于16份完全不同的纹理图层上各自进行32次纹理的寻址取样以及64种色彩的操作,其中黄色方块的Floating Point Texture Unit单元通过显存总线读取到不同精度的纹理数据,然后由Floating Point Address Processor浮点纹理寻址处理单元在上面搜寻相关的纹理地址,完成之后再由最后的Floating Point Color Processor色彩处理单元进行渲染。
从16bit的渲染过渡到32bit的渲染已经有相当长的一些年头了,但那些业界著名的3D领袖们似乎并没有很着急着将32bit的渲染再往更高级一些的渲染方式发展,这显然已经不符合时代的要求,在新一代的显卡中最先由Matrox提出10bit的渲染概念,当然Matrox的新产品Parhelia采用了一些折中的方式来实现高于传统32bit的渲染方式。众如周知,在32bit的渲染中,除去8bit的Alpha渲染之后,仅有24bit的通道来表现颜色,24bit通道大约为16,777,216,我们之前所能做的就是尽量在16.8M的范畴中来调整色彩,然而再往下细分的话,RGB[红+绿+蓝]每个通道可以分到的大约是8bit的精度,也就是大约在0-255之间进行色彩的调整,所以图形工作人员可能常会抱怨无法得到十分纯正的白色或黑色,在一些高精度的图形软件中部分信息的失真及错误的显示都有可能是由此而引起的。
PhotoShop等图形软件都受限于0-255范围的色彩调整
而Parhelia则大幅度的砍掉Alpha通道所占用的精度,降为2bit,接着提升每一个RGB通道为10bit的bppc,这样虽然总和仍是32bit,并符合目前标准的32bit帧缓存储,但实际再通过10bit的RAMDAC还原后的效果的确要比标准的32bit要真实得多,因为这个时候它的通道可以达到0-1023,但Parhelia这样处理是以牺牲Alpha通道来实现的,这在有些时候会让你的游戏在烟雾或者满是硝烟的场面中将不那么真实,也许会出现颗粒感很强,或者透明介质表现力不足的画面,因为此时的Alpha通道只有2bit了,连ID Software的招牌人物John Carmark都表示Parhelia的2bit Alpha可能不够DoomIII使用,而ATi的Radeon 9700 Pro或nVIDIA的NV30这些全128bit渲染的显卡才是DoomIII这类游戏的非常好的选择,当然这个时候32bit的帧缓可能不够用了。
在计算机的计算中通常我们都需要涉及到浮点的运算操作,简单一点的说浮点的运算操作,实际上就是在计算小数点位置,我们将小数达到32位的运算操作称为单精度的浮点运算,如果达到64位或128甚至更高的话,那么就属于双精度的运算。那么如果一个仅为16bit的浮点运算可以表示的最小数值至最大数值为0.0000000000000001-10,000,000,000,000,000的话,那么32bit的浮点运算所能表达的数字值就更大了,难道这样的单通道色彩信息的表现能力还不足以渲染出你所需要的各种颜色嘛?ATi的Radeon 9700 Pro就能做到这样精度的运算。
车的左边采用的是传统的8bit通道所渲染出来的画面,右边则是16bit通道所渲染出来的画面,可以看到右边的画面明显比左边的干净,少了许多的颜色杂质
在光源与反射的效果上,16bit或更高精度的渲染更加占据优势
但从目前ATi公布的资料来看,似乎并不是真的128bit的渲染,而是96bit的。那么也就是RGBA都各分配24bit的信息通道,至于为什么不是32bit每通道的分配,我们也不得而知,另一方面Radeon 9700 Pro的帧缓存却是可以支持128bit格式的帧缓存储,这样做应该是为了存储性上的方便,可惜的是受限于10bit的RAMDAC,也许96bit的渲染最终也不能完完全全无损的还原到我们的显示器上,同时目前也只有DirectX 9才支持128bit的帧缓存储,OpenGL还没有升级支持。但要知道如果真的有一天实现了全128bit的渲染游戏的话,那现目前的显存带宽都将再次受到严重的挑战,它需要的带宽是32bit格式存储的4条,也许那时我们又将回到30FPS就该觉得满足的时代,所以目前就算应用到128bit浮点精度的渲染应该还是在芯片内,之后会有一些抖动操作去除一些信息这样才能最后再以32bit的格式存放于帧缓存之中,具体情况还有待DirectX 9正式发布以及支持高于8bit通道渲染的游戏发布之后再能清楚。
另外Pixel Shader还可以实现多目标的信息输出,这在上一代中每一次只能输出一次的目标信息,现在却可以四个一起来,这在一些多纹理应用的游戏中很有用,比如实时实现描边滤镜等特效。另外它也支持双阴影模板的硬件加速。
一次性输出两种完全不同的纹理及光源效果<
ATi在上一代产品中Radeon 8500中,所设计的FSAA全屏抗锯齿与Anisotropic filtering各向异性过滤的作用一直为人所批评,其中包括了Radeon 8500的FSAA实际上只是暴力式OGSS的另一个名称和示例,Anisotropic Filtering各向异性过滤只能在双线过滤下起作用,如果开启三线过滤再同时打开各向异性过滤的话,那么三线过滤会自动降为双线过滤。
那么SmoothVision 2.0会有些什么进步呢,首先我们还是先来看看它的FSAA技术,在FSAA的世界里有两种主要的概念SuperSampling超采样与MultiSampling多采样,SuperSampling通常需要在后台进行高于实现显示分辨率很多的分辨率,或将同一帧画面渲染数次之后再进行子像素的采样,可以是OGSS方式或RGSS方式。但目前越来越少人喜欢用这种方法进行FSAA处理了,原因很简单,太消耗性能与显存带宽了。那么MultiSampling怎么样呢,它是通过将同样的一帧的画面只渲染一次,但分别的存储于多个的帧缓区内,进行各自的混合子像素操作,常用的方法除了上述的OGMS与RGMS之外还有PJMS(一种子像素采样位置不固定,可自行编程定义位置的方法),虽然MultiSampling要比SuperSampling快上很多,但是它却无法正常的抗锯齿渲染Alpha的非多边形画面,比如植物的叶子。造成这种现象的原因是Multi-Sampling只能识别出一帧画面中的前景与后景两种显而易见的画面,而对于Alpha这样夹在半中间的通道信息很难识别的出来,这可能是由于这种采样方法的通道表现能力不足所引起的。
但Radeon 9700 Pro却可以修正这个问题,另外它的FSAA采样分为了2x、4x、6x,这些指标所表示的是在每一个像素Block中所安放的采样点的数量,采样点越多,所能收集到的像素参考颜色信息也就越多,自然最后的效果也就越好了。这样的设计同时存在于SuperSampling与MultiSampling中(没错,Radeon 9700 Pro中也包含了SuperSampling,两种FSAA的关系就会像现在ATi驱动中的Quality与Performance设定一样)。Radeon 9700在SuperSampling情况下,会将像素的颜色值的采样点归类,比如在A像素内拥有1-6个的采样点,像这个采样点最终都取得到同样的一个色值,这样Radeon 9700 Pro就不会6次的存储同样一个色值的采样点以确定这个像素,只是干脆直接只存储一次这些色值的赋值数即可。这样的方法被证实了在大量的游戏中都十分的有效。因为每个3D物体或场景中颜色的过滤都不是完全突变的。
采样点的安放位置,如有需要,就对其中每个采样点的色值进行加权计算后存入帧缓, 它能以每个像素中各种色值所占多少比例的方式进行存储。
在MultiSampling中由于存在两种“场”—前后景,所以实际上它要比SuperSampling多做一项Z-Buffer对比的工作,以确定哪些场是属于前景哪些场是属于后场,而Radeon 9700 Pro中在这部分对比时也引入了它们引以为豪的Hyper-Z III概念,可以对需要对比的Z-Buffer数据进行2:1或4:1的压缩这看起来能使它的性能再一步的得到提升。
SmoothVision的另一项改进之处在于它们设计了一个专利的Gamma Correction伽玛纠正技术。伽玛纠正技术是一项被在实际显示中非线性响应特征中被广泛使用的技术。换句话说如果你传寄出一个“2”的亮度信息至显示器上,那么最终这个像素并不会显示出相当于两个“1”的亮度,这就需要由Gamma曲线响做一些的纠正,目前大部分的游戏或其它3D软件都提供了亮度响应的设定,但ATi却将这项技术的应用整合进了FSAA中,也就是说它可以自动的平滑一些闪烁的多边形边缘,能使色彩值看起来更加的自然。
动态伽玛的纠正
最后需要提的是,Radeon 9700 Pro终于改正了在各项异性过滤下只能开启双线性过滤的问题,现在我们又可以用回三线性过滤+各项异性纹理过滤了。
SmoothVision2.0的效果<
在新一代的Radeon9700中,ATi还提出了一套FullStream技术,这项技术实际上还被加入了Radeon9000的产品中,但很可惜就目前为此我们对此所知甚少,ATi只告诉我们是利用Pixel Shader来加速完成的,它能对一些杂讯的画面进行过滤还原,而且在播放视频流的时候,除了传统的Bob和Weave反交错技术之外,还有一套全新的动态可编程自适应的反交错技术,称之为增加型的动态De-Interlacing,甚至还可以实现一此视频画面的过滤编缉效果比如像模糊,压纹,描边等等,要知道这些也都是实现完成的。
VIDEOSHADER中的核心技术Fullstream流程运作:
1、 标准的原始视频帧
2、 对画面进行量子化的画面分析
3、 像素优化过滤
4、 实现最终的增效画质
Fullstream需要与Real Player等第三方软件商合作方能发挥出效用,但我们现在还没有拿到特别版的Real Player。<
自从在第一代Radeon 256发布时所带来的Hyper-Z开始,ATi就在每一代的显卡中都加入这项节省显存带宽的技术,可以这么说每一代相较上一代都有一定的进步,但都不是非常大的跨越性进步。
Hyper-Z III中仍旧包含了三项功能:Hierarchical Z、Fast-Z Clean、Z Compression
Hierarchical Z
Hierarchical Z,我们已经介绍过了,它是通过在芯片内部对Z-Buffer先进行金字塔式的分级,之后再进行比较得出一些较为方便进行对比的初级数据,然后再进行传统的Z-Buffer寻址。具体的说在Hierarchical Z中,它先将屏幕上的全像素以8x8分为基本像素块,然后再以2个像素为准在其中分为2x2标准的16个像素块,然后在每一个2x2的像素块中取出其中最大的一个Z轴数据,这样每一个原先全屏中像素块中的最大Z轴数据都取出后再放在一起形成一个新的像素Block,这样比到最后将每一组的最后生成值先进行对比,如果该项Z轴值比较大那么就表示离我们较远可以不必再做重复的渲染,如果有疑问就再进行下一级数据的对比。在Radeon 8500中标准像素块是4x4像素的。而Radeon 9700中则升级为2x2像素,显得更小,也更精确。
Fast-Z Clean
Fast-Z Clean,据说会比一般的Z-Buffer Clean清除快上64倍,因为它需要写入的清除资料要少得多。
Z Compression
Z Compression,有效的Z数据的压缩和解压缩,对于Pixel Shader中的FSAA操作特别的有帮助。<
AGP总线对比
ATi为Radeon 9700还带来了AGP 8X与256bit的全新总线传输及显存位宽界面,如果以每个顶点至少需要传输7K的数据量来看,从系统传通过AGP总线传输到显卡芯片上的通道也不过才1GB/s而已,但如果在3D应用中顶点数据超过百万个或更多的话,那么AGP总线将受到严峻的挑战,虽然AGP 8X的到来能为显卡总线稍缓解一些的压力,但我不认为这能解决根本的问题,因为顶点数据量随着Vertex Shader的普及将来越来越庞大。
显存交叉转换应用界面
ATi所设计的Radeon 9700拥有大约256bit的总线位宽,这在上文我们已经提及过了,再搭配上310MHz的显存频率,大约最后我们可以得到接近20GB/s的显存带宽,这在现在来看无疑是显存带宽最高的一款产品,更为有意思的是ATi也采用了类似nVIDIA的交叉式内存控制器,同样也设计了四个四通八达的内存控制器界面,在平时它们将256bit分成4个64bit的传输通道进行传输工作,在碰到大量数据时再自行合并,在较为细碎的3D游戏场境中,这要比一条独立的256bit通道有用得多。<
在完成了技术部分的介绍后,Radeon 9700显卡正式登场,我们这次先后收到了三块最高档的Radeon 9700 Pro版显卡(频率较低的Radeon 9700版显卡会晚些时候推出),除了Dataland(迪兰恒进)的“Evil Commando2”、S-Media(新基)的“镭电侠Radeon 9700 Pro”,当然也少不了ATi原厂的Radeon 9700 Pro显卡。
从三块显卡的外形和所带附件看,它们并无二致,当然在包装方面各有特色。ATi原厂的Radeon 9700 Pro显卡仍是其一贯风格的盒式包装,三头怪兽的形象颇为引人注目。
迪兰恒进的“Evil Commando2”包装粗看很传统,实际上采用了红白搭配的半透明手提箱式设计。
新基的“镭电侠Radeon 9700 Pro”似乎也不甘落后,采用了蓝色透明的包装盒,感觉非常清新。<
Radeon 9700 Pro显卡的核心工作频率为325MHz,在封装形式上不再采用以往的BGA封装,而是采用了在CPU上常使用的FC-PGA封装,由于仍然使用0.15工艺生产,它的核心面积比较大。
显存方面采用了三星出品的2.8纳秒DDR SDRAM颗粒,8颗Micro BGA封装的显存构成256bit的显存位宽,容量共计128M,工作频率为310MHz(DDR等效620MHz)。
为了保证工作的稳定性,Radeon 9700 Pro显卡特别提供了一个4针的电源接头,如果不接它的话,显卡将不能正常工作,在开机时会有相应的提示。
输出接口方面提供了D-Sub、DVI、TV-out三种接口,可以实现多种双头输出模式。<
ATi最新的Catalyst(催化剂)驱动程序已经相当成熟,无论在发挥Radeon9700的性能上还是在稳定性上表现的都相当令人满意。驱动程序提供了相当多的调教功能,不过不断增加的功能也使得驱动面板显得有些凌乱希望在这方面有所改进。
本次测试选用了驱动随卡附带的7.75版本驱动程序。
Direct 3D控制面板
OpenGL控制面板
可以看到其内置高达400MHz的 RAMDAC
桌面旋转功能
核心频率324MHz,显存频率621MHz<
测试平台:
测试说明:
1、 首先,因为Radeon9700 Pro作为面向高端市场的产品,所以就不再选用中低端市场的上的Radeon8500、Radeon9000等显卡进行对比,而nVIDIA的下一代产品“NV30”推出还有待时日,所以这里还只用GeForce4 Ti4600显卡与其对比。
2、三款Radeon9700 Pro产品中,两块第三方的产品也均采用原厂OEM产品,所以在测试中只选用了一块Radeon9700显卡进行做为代表,其余两块“克隆”显卡不再进行重复测试。
3、 在测试软件上我们尽量多选择支持DirectX8.1的游戏来进行测试,当然对于DircetX 7.0性能的考察仍选用MaxPayne等经典游戏来进行。对于微软还未正式发布的DirectX 9.0,我们只能再等等,疯洋葱公司会在DirectX 9.0发布后推出新的相应测试软。
4、 在测试显卡游戏性能的我们也用SPEC Viewperf 7.0对其进行了初步的测试,而ATi未来推出采用Radeon9700核心的FireGL X1时我们还会有更详细的专业测试。
5、 在画质方面,我们会主要以截图的方式来向读者展现Radeon9700以及GeForce4 Ti之间的差别。<
3DMark2001SE一直是衡量显卡DirectX 3D综合性能表现的最好工具,其中的四个场景中的前三项场景均有低细节度与高细节之分,最后一项测试采用了Pixel Shader渲染指令,只有支持DirectX 8的显卡才能完成测试。
总体来说Radeon9700 Pro在此测试中给人留下了很深刻的印象,它与GeForce4 Ti4600的差距显而易见,尤其是在高分辨率下,在后面的3DMark2001SE细节测试中我们还可以看到更详细的对比。<
Quake3 Arena不仅是“FPS”游戏的超经典代表之作,而且其出色的游戏引擎也使得三年以来我们一直将其做为测试硬件的一个基础标准。Quake3 Arena的图形质量随着分辨率的提高以及显示卡贴图质量的不断提升改进很大,因此我们不但用其来测试显卡的OpenGL速度,而且用其来对比其Radeon9700与GeForce4 Ti的渲染画质。
在测试过程中Radeon9700 Pro在2.8GHz处理器的帮助下得到了313帧的成绩,一向在Quake3 Aena测试中表现出众的GeForce4 Ti也只能甘败下风,而且随着分辨率的提高,两者之间的差距不断拉大。
<
MaxPayne采用的是传统的DircetX 7.0的游戏引擎,支持硬件T&L,用它来代表显卡运行DircetX 7.0的游戏的性能表现,不过游戏的制作严重不符合东方人的审美观点,人物造型不敢恭维。
在测试中,Radeon9700 Pro借助其比GeForce4 Ti4600多一倍的渲染流水线,在1024×768以上的分辨率下取得了绝对的领先优势,不过你将看到Radeon9700 Pro在后面的DircetX 8.1的测试中表现的更为出色。<
重返德军总部在“FPS”游戏中也非常受玩家的欢迎,其使用了改进后的Quake3 Arena引擎,支持硬件T&L,图象质量更高,当然也对显示卡的要求更加苛刻。
Radeon9700 Pro毫无争议的取得了所有分辨率下的成绩领先,而且分辨率越高,两者之间的差距越大。<
AquaMark支持DircetX 8.1中的Pixel Shader技术,并且支持此项技术的游戏在今后半年以内将成为主流,近期也不断的有支持DircetX 8.1的游戏开始推出。支持Pixel Shader技术的AquaMark测试中对显卡的要求也很高,目前还没有一款显卡可以跑过100帧。
Radeon 9700 Pro在此项测试中表现还不错,GeForce4 Ti当然不是它的对手,但在各个分辨率下的差距并不算太大。<
UT2003从开发到目前的准备发售一直都做为万众瞩目的焦点,不但是因为其前一代产品的成功,而且其采用了全新引擎,也使得PC游戏的画面可以赶上或超过优异的家用游戏机的画面品质以及效果,当然其也支持主流的DircetX 8.1 API。
在UT2003测试中,Radeon9700 Pro一直一路领先,即使在1600×1200的高分辨率下也能保持在110帧以上,而这同GeForce4 Ti4600的成绩已经来开了40%之多。<
Comanche 4也是支持DirectX 8.1的游戏,虽然这款游戏采用的游戏引擎非常前卫,但是,其对处理器的依赖性过于严重,以至于我们用Radeon 9700 Pro测试的时候无论在1600×1200还是在1024×768分辨率下得到的结果几乎没有差距。
在1024×768分辨率下Radeon9700 Pro同GeForce4 Ti4600之间的差距很小,但是分辨率提升到1600×1200后,Radeon9700 Pro的实力终于得以展现。<
CodeCreatures是个完全对应DirectX 8的较新测试软件,不能硬件支持DirectX 8的显卡无法运行测试,它的画面构成极为复杂,其精美和复杂程度超过了3DMark2001SE中的Nature场景,堪称杀手级的测试软件。
Radeon9700 Pro在此项测试中能达到38帧的成绩,做到了基本流畅,而GeForce4 Ti4600配合了新的雷管40驱动也可以达到30帧,但是同Radeon9700 Pro相比仍然有一段差距。<
虽然超采样技术得到的FSAA画质更优,但是由于执行上较多重取样FSAA慢很多,因此Radeon 9700 Pro也开始采用多重取样。FSAA也是目前来说提升画质的最好办法,因此FSAA的性能的表现如何也非常受到关注,下面我们进行了3DMark2001SE以及的游戏中的FSAA性能测试。
3DMark2001SE-FSAA:
Quake Arena-FSAA:
<
AquaMark-FSAA:
UT2003-FSAA:
Radeon9700 Pro借助8条渲染流水线以及256bit的内存带宽,在FSAA测试中取得了巨大的领先。很明显,如果说GeForce4 Ti4600与Radeon9700 Pro在关闭FSAA时差距还不够大的话,那么打开FSAA后GeForce4 Ti4600与Radeon9700 Pro就绝不是一个等级的产品了。<
ATi以往在各向异性过滤技术上领先于nVIDIA,而Radeon9700 Pro则借助更强劲的GPU与更快的显存使得异性过滤性能又上了一个崭新的台阶。Radeon 9700可以以双线性或三线性的方式执行各向异性过滤,并可以支持16X的各向异性过滤,而GeForce4 Ti仅提供三线性过滤模式,虽然三线性过滤可以提供更好的品质,但代价是更大的性能损失。
ATi与nVIDIA在处理各向异性过滤上的算法并不相同。ATi是使用了过滤等级会自动随对象的视角而进行改变的方法,这种方法也的确有效,但至于谁的画质更好,我们提供了截图下载,大家可以自己比较。
3DMark2001SE-各项异性:
Quake3 Arena-各项异性:
<
AquaMark-各项异性:
UT2003-各项异性:
测试很好的证明了ATi在各项异性过滤上的性能优势,无论在Direct3D还是OpenGL下,Radeon9700 Pro的成绩均几乎成倍的领先于GeForce4 Ti4600。<
既然Radeon9700 Pro有如此强劲的性能,那么我们也用更为残酷的FSAA+各项异性过滤的模式来测试一下Radeon9700 Pro的性能。当然还是由GeForce4 Ti4600来与之对比,不过GeForce4 Ti4600成绩下降很大。
3DMark2001SE测试:
Quake3 Arena测试:
UT2003测试:
<
在测试OpenGL专业性能方面,我们采用SPEC的新一代OpenGL测试专用软件SPECviewperf 7.0,它主要针对实际应用型的软件,可以较好的考察显卡在运行真实专业3D软件时的性能。
从测试成绩看,Radeon 9700 Pro的运行速度不错,虽然综合来说和那些专业级显卡还有不少差距,但作为一块娱乐级显卡已经算优秀了。与GeForce4 Ti4600相比,两者各有胜负,Radeon 9700 Pro没能像在别的测试中那样大出风头,看来nVIDIA在这方面的实力仍然令人钦佩。
首先,进行的是Radeon9700 Pro分别在DirectX 3D和OpenGL下的FSAA画质测试。DircetX 3D下使用《虚幻竞技场2003》 Demo版中的一个场景进行对比,OpenGL下则采用了《英雄萨姆二次出击》进行对比。
在《虚幻竞技场2003》FSAA场景测试中,分别进行了关闭FSAA、开启2xfsaa、4xfsaa、6xfsaa四种模式的对比,下面的局部接图均放大为200%,测试过程中始终关闭各项异性过滤。
虚幻竞技场2003—FSAA测试:
英雄萨姆二次出击—FSAA测试:
在《英雄萨姆二次出击》FSAA场景测试中,同样分别进行了关闭FSAA、开启2xfsaa、4xfsaa、6xfsaa四种模式的对比,下面的局部接图均放大为200%,测试过程中始终关闭各项异性过滤,并且自始至终打开三线性纹理过滤。
总体来说,Radeon9700 Pro的图像品质相当优秀,而且即使在开启全屏反锯齿的情况下性能下降非常小,这是以往的任何一款显卡都做不到的,因此建议使用Radeon9700 Pro显示卡的用户在任何情况下都打开4XFSAA模式,以得到最好的画质享受。至于Radeon 9700 Pro和GeForce4 Ti4600的对比,我们觉得Radeon 9700 Pro稍好,但两者的水平很接近。
各项异性过滤图像质量测试:
采用Quake3 Arena来测试Radeon 9700 Pro的各项异性过滤画面质量,上面是分别关闭各项异性过滤、开启8X各项异性过滤、开启16X各项异性过滤的画面对比,可以看到开启各项异性过滤时,画质提升很明显,而Radeon 9700 Pro和GeForce4 Ti4600的品质极为接近。
由于页面上的限制,我们不能在页面上提供完全没有损失的画面比较,因此我们提供了以上对比画面的未压缩格式的截图下载。下载连接:/cooler/pic.rar<
采用了一亿零七百万个晶体管的Radeon9700 Pro仍然有一定的超频余地,我们最后把其显示核心OC到了360MHz,显存OC到680MHz,使得Radeon9700在性能上更进了一步。相信,Radeon9700在未来改用0.13微米生产工艺后达到400MHz的频率也不成问题。<
请允许我们在NV30没发布之前用惊艳来形容ATi的新利器Radeon 9700,它拥有比以往任何一款显卡都强的性能与技术,并且与上一代产品拉开差距,4条多边形生成流水线,8条像素流水线以及256bit显存位宽等等都使得ATi首次真正的坐上3D性能王者的位置。
在我们的测试中基本可以看出Radeon 9700在环境越复杂、分辨率越高的游戏场景中性能优势也就越明显,有些情况下甚至比nVIDIA现在最快的GeForce4 Ti4600要快1倍以上。
NV30离我们还有多远呢?目前还不能确定,就我们所知在8月初NV30完成了Tape-Out,nVIDIA方面声称在圣诞节的时候会正式上市。ATi的Radeon 9700的优势在于目前市面上已经有卖,到NV30上市时它已经卖了一段时间了,所以现在的形势对于ATi还是非常有利的。
另外ATi表示,在十月份还会有一版全新的强劲驱动推出,到时Radeon 9700的性能还会再向上提升;看来ATi的Fans们也不必太担心,过去造成ATi性能低下的驱动问题应该不会再困扰Radeon 9700了。
PCPOP编辑选择:ATi Radeon 9700 Pro显示卡<
ATi原厂出品的显卡一向以2D显示品质优秀而著称,而我们测试的这几款Radeon9700 Pro在2D显示品质上到了一个崭新的台阶。需要特别注意的是,2D显示品质的优劣虽然同显卡的做工与用料有一定关系,但也并不代表用料优良显示品质就一定优秀。
从做工上看ATi Radeon9700 Pro并不比GeForce4 Ti4600显卡好,但是Radeon 9700的2D品质为什么那么优秀呢?其中的原因就是ATi工程师强大的PCB板设计能力,而其它厂商现在则难以做到。(而非ATi原厂的大多数产品2D品质就显得略逊一帆,只能达到同普通采用nVIDIA显示芯片的显卡一样的水平。)
ATi Radeon9700 Pro的2D显示品质可以说是相当优秀的。我们用GeForce4 Ti4600显卡来与之比较,发现Radeon9700 Pro的文本显示更显锐利,颜色更鲜艳,而且已经超过ATi原厂的Radeon8500显卡的显示品质。
RM回放效果:
前面已经讲过,Radeon9700中提供FullStream技术,通过特别版本的RealPlayer(ATi原厂Radoen9700 Pro驱动光盘中提供)便可以支持这项技术,而且效果立竿见影。(Radeon9000上也同样应用了这项技术,如果有朋友需要这个特殊版本的RealPlayer,可以在文章下面留言给我。)
下面是Radeon9700 Pro与GeForce4 Ti4600回放同一段RM文件的画面对本。由于屏幕抓图软件Hypersnap的截图并非实际回放效果,因此我们使用数码相机拍摄。当然数码相机拍摄的效果同实际看到还有一定差距,但是已经完全可以反映出两者之间明显的异同。
DVD回放效果:
下面DVD回放效果的比较,Radeon9700的画面色彩由于亮度、饱和度方面等等同GeForce4 Ti4600不同,所以两者之间的颜色有所诧异,但在回放质量上两者相差不大。
虽则用NVDVD播放GeForce4 Ti的画质会更好一些,但是由于NVDVD只能播放DVD光盘,因此对于用户来说使用有一定的局限性,因此还是使用PowerDVD XP做为测试DVD画质的播放。注:测试图均采用数码相机拍摄,ATi显示卡照片的网格状是由于相机聚焦产生的问题,实际显示效果并没有网格现象。<
创新在推出基于ATi中档市场的Radeon 9000 Pro图形芯片的显卡之后,在高档市场也不愿意错过ATi的Radeon 9700 Pro带来的热潮,同样在第一时间推出了3D Blaster5 RX9700显卡,我们在昨天收到了创新的这款产品。
创新推出的Radeon 9700 Pro显卡PCB设计完全同ATi公板一样,但是散热风扇采用了更为耀眼的黄金色,以及少了ATi Logo,并且正反面8颗显存上均覆盖了散热片。核心运行频率为325MHz,显存则搭配2.8纳秒256bit的128MB DDR SDRAM显存,运行频率为620MHz。
在附件方面同其它三款Radeon9700一样,显卡提供了S-Video以及AV信号延长线,S到AV和DVI到D-Sub转接头驱动光盘以及说明书电源线。
超频测试:
因为创新3D Blaster5 RX9700显卡也采用原厂产品,所以就不再重复进行基准测试,只是对其进行了简单的超频测试。超频测试时其核心最终稳定在355MHz,显存稳定在690MHz,成绩也相当不错,同ATi原厂Radeon9700 Pro显卡基本相同。<