泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

ATI挑战极限性能之颠!X850XT PE评测

    在2004年的显示卡性能大战中,NVIDIA GeForce 6800系列与ATI的X800系列的颠峰之战几乎从来没有停止过。从3DMark 03到3DMark 05,从Doom 3到Half-Life 2,那浓浓的硝烟至今似乎还留在空气中没有散去。

    而就在临近04年末,大家都在盘算怎样享受圣诞节和新年的时候,ATI并没有丝毫的懈怠,他们在2004年12月1日发布了代号为R480的Radeon X850系列显示卡。以下是Radeon X850系列和Radeon X800系列显示卡的规格对比:

    Radeon X850系列与Radeon X800系列的核心架构是完全相同的,而Radeon X850 XT PE的核心/显存工作频率达到了前所未有的540/1180MHz,这令其成为了2004年显示卡的性能之王。

    既然Radeon X850系列的核心架构较Radeon X800系列没有变化,我们就先来回顾一下ATI Radeon X800的特色规格和技术。<

    我们看到在新的X800图形芯片内部架构图中,主要包含了以下几个部分:

    ◎ AGP接口成为新一代显卡的瓶颈

    首先是负责和CPU通信的AGP接口。这个部分承担着所有和计算机进行数据通信的工作。目前AGP接口的带宽虽然不断提高,但是仍然被认为已经严重影响了显示卡的性能发展。因为相对于显卡内部动辄数以十数GB/s而论的带宽,AGP接口那仅仅2.1GB/s的带宽就显得十分捉襟见肘。

    AGP接口将数据从CPU读入以后,将数据传输给显存控制器。后者的作用不仅仅是控制数据在显存中的存储,还承担着显存的数据接口作用。它一共连接着6种不同的功能部件。除了显存本身以及AGP接口以外,它还要负责将数据传输给2D引擎、视频处理引擎以及3D引擎。而其中3D引擎则同时和顶点处理器,以及“Hyper Z HD”引擎相连接,将数据传输给这些部分。

    2D显示引擎和视频处理引擎部分我们没必要多谈了,这两个部分分别负责2D显示的运算以及视频回放处理。它们将数据处理完以后就可以直接将准备显示的数据放进显示接口(Display Interface)。

    ◎ 复杂的3D处理环节

    接下来,我们就进入了最关键的3D处理的一整套环节中了。3D图形处理是按照一定的顺序执行的,最主要的就是先进行几何方面的运算,然后进行像素处理方面的运算。当然,这个过程也不是这么简单的,复杂的3D几何运算过后,还要将这些3D点换算成在屏幕上显示的具体像素,这个过程就是由Setup Engine实现的。

    在像素处理管线以后,还要根据需要进行图像的后期处理,在X800图形芯片中,它的后期的图像处理引擎被称为“SmoothVision HD”。

    这些后期的处理过程能够生成实际需要显示的数据,所以它们均将最终的数据传入显示接口,经过一些相对简单的处理以后输出至显示设备。<

    Radeon X800系列显示芯片统一都采用了256bit的显存带宽,这256bit又被分为4个独立的通道,每个通道64bit。对于显存,X800系列显示芯片的标准配置是GDDR3显存,这种显存相比原来的显存来讲,能够运行在更高的频率上。这样X800上的显存数据带宽就能够轻易的达到32GB/s以上了。

    我们前面提到,X800系列显示芯片采用了4个独立的内存控制器,但是这并不意味着每一个内存控制器仅仅能控制4个内存模组中的一个。ATI采用了一个用来切换内存控制器和内存连接的装置“Switch”来保证这4个内存控制器和4组显存能够完全自由连接。当然,这个过程中还有一个非常重要的事情就是如何将数据传入内存,“Switch”同时也负责将一个总线控制器和任何一组内存进行连接。<

● 顶点处理引擎

    3D图形运算最基本的单位就是每一个单独的点。因为有这些点,才能根据这些点的坐标计算两点间的线以及三个点形成的面。所以说3D图形处理中几何部分的处理,其实就是对空间中的点进行运算,这也就是为什么人们会将3D图形中几何处理的引擎称之为“顶点处理引擎”。

    我们首先来看看X800系列显示芯片中的顶点处理引擎的架构。

    我们看到,当顶点的初始数据传入顶点处理引擎的时候,数据被分配至6条并行的管线之中。这6条管线分别拥有一个128位矢量数据算术运算单元以及一个32位标量数据的算术运算单元。数据经过矢量运算以及标量运算以后,并不一定就是最终需要的数据。而且由于矢量运算器和标量运算器的关系是并行的,所以有的需要进行两种运算的数据就需由流程控制器(Flow Control)再次送入前面的运算单元了。

    在经过了6条并行的数据运算以后,顶点处理的过程只能说是完成了其中最重要的部分,但是距离数据最终输出还有很远。

    接下来进行的过程需要进行遮掩面的选择(Backface Culling)、数据整理(Cliping)、透视分离(Perspective)和最后的可视范围变换(Viewport Transform)。经过这4个过程以后,数据就可以输出至将3D数据转换为2D数据的“Setup Unit”了。<

● 装入引擎(Setup Engine)

    Setup,我们最先熟悉这个词的时候一定是在安装软件时候认识的。在3D图形处理中的Setup引擎完成的是一种怎样的工作呢?

    在前面进行的顶点处理过程中,所有的顶点都被独立计算它们的位置。然而在实际的3D模型中,却不能够以纯粹的点来表示3D模型,更多时候需要借助两点间的线以及三个点围成的面来实现,所以将点和点之间的联系省略俨然是不可取的。

    Setup引擎的作用就是将这些独立的点再次结合到一起,组成最基本的三角形。因为任何多边形的最基本的元素就是三角形,所有复杂的多边形均可分离成为大量独立的三角形。

    Setup引擎的具体架构分为两个部分,首先是几何汇集(Geometry Assembly),这个步骤的作用就是将独立的点重新连接成一个个三角形。第二步就是Setup单元,这个部分完成的工作就是将一些作用在三角形上的函数分派至具体的三角形上。

    在上图中,Setup引擎首先将独立的点连接成为三角形,然后将三角形安排在很多的块中,然后根据顶点在这些块中的位置来确定怎样对三角形进行处理。<

● 像素处理引擎

    3D处理过后,我们就要进入2D处理的环节了。这里称之为2D,并不是和前面我们提到的2D处理引擎相同。这里是指将3D运算结束以后,在像素级别进行的处理过程。这个过程我们也已经非常熟悉了,这就是经常被提到的Pixel Pipline(像素处理管线)。

    X800系列显示芯片的像素处理管线一共有16条,这比原来的R9800XT上的8条增加了一倍,这就意味着在理论上,即使频率保持不变的情况下也能有一倍的像素处理能力的性能提高。

 像素处理管线的架构图

    我们看到在这16条管线上,ATI采用了4组4条的设计。这样的设计不仅可以更加有效的控制管线条数,也可以保证在其中一条失效的时候,不至于被迫放弃整个芯片,而仅仅屏蔽掉其中的一组就能作为X800Pro或者标准版来出售了。

 一组像素处理管线架构图

 一个独立的像素处理单元的架构图

    我们看到,在像素处理的环节,其复杂度远远超过了前面的顶点处理部分。因为在一个场景中每时每刻都要运算的数据点是海量的,而且这些点包含的信息也绝不仅仅是一个坐标而已。它还包括颜色、亮度和其他点的关系在内的各种数据,这些都要进行不断的运算。这也是为什么在像素处理部分的管线需要16条,而顶点处理部分则仅仅用6条的原因。<

    我们前面介绍了X800系列显示芯片在架构方面的一些情况。这些架构层次上的情况基本上可以算是硬件结构,它们是发挥产品效能的一个基础。那么如何才能将这些管线以及各种各样的单元发挥出最大的效果呢,这就需要相应的技术作为支持。X800系列显示芯片诞生的同时也是ATI展示最新技术的一个绝好机会,我们就趁此来看看随X800而来的各种新技术应用。

    在X800发布的过程中,ATI发布了以High Definition Gaming(高画质游戏)为主题的一些最新的技术,其中包括:

· SmartShader HD
· SmoothVision HD
· Hyper-Z HD
· 3Dc

    首先,我们来看看X800系列显示芯片中带的SmartShader HD技术。对于SmartShader技术我们已经非常熟悉这个名称了,早在Radeon 8500发布的时候,ATI就推出了他们的第1代SmartShader技术,这次推出的SmartShader HD是其第4代技术。

    SmartShader HD技术本身其实是一个技术的合集,其中包括了关于顶点处理引擎以及像素处理引擎的技术,其名称中“Shader”正是VertexShader和PixelShader中的“Shader”。

● VertexShader方面的改进

    VertexShader,这个名词我们可以说在所有的硬件文章中都频繁的见到,但是究竟这个“Shader”应该翻译成什么,笔者还没有完全搞明白。反正对于最常用的翻译方法“顶点着色器”的说法,笔者认为不尽正确。虽然“Shade”的意思中有“遮蔽”的含义,但是在3D处理芯片中,顶点运算绝不仅仅是一个“着色”或者是“遮蔽”的过程,其具体操作非常复杂,绝不是一个“着色器”能够涵盖的。

    VertexShader这个名字的出处来自于DirecX规范,其本意是一组针对顶点处理的函数的集合,显示芯片厂商在研发显示芯片的时候,将这些功能用他们的显示芯片在硬件中实现。

    SmartShader HD技术能够很大程度提高VertexShader的性能。由于增加了顶点处理管线的条数,并且能够在每个时钟周期中进行两次操作,在数据的精度方面X800支持32位的精度。

    顶点处理能力的增强主要会体现在一些几何运算量非常大的情况中。例如波涛起伏的海面上拥有大量的三角形,采用最新的X800显示芯片进行运算的时候就能很大程度上提高速度。

● PixelShader方面的改进

    相对于面向顶点坐标运算的VertexShader,PixelShader的作用则是面向像素的处理,也就是最终显示在显示器之前的画面处理。

    同样的,由于管线条数的增加,PixelShader的能力有了大幅的提高,X800系列显示芯片最高能在每秒钟完成400亿条像素的运算操作。这些操作完全支持了DirectX 9.0中数据格式24位精度的要求。

    对于程序中指令的长度,SmartShader HD也有一定的改进。在R360时代,每个PixelShader程序的指令最大长度仅仅为160条,而到了X800上,则可以支持1536条指令。<

● SmoothVision HD

    ATI的SmoothVision HD技术同样是一个有着一定历史的技术,发展到X800的时代就多了一个“HD”的后缀。SmoothVision HD技术只要面向的是后期的图像的处理,这里面包括了抗锯齿、伽马校正和材质过滤等多种技术。

    对于SmoothVision HD中支持的抗锯齿方面的技术,绝大部分是和目前已经被广泛采用的技术类似的,所以在这里我们就没有必要再说那些事情了。值得注意的是在X800系列显示芯片中,首次增加了一种全新的抗锯齿采样方式,这就是近期大家讨论非常多的Temporal Anti-Aliasing(临时取样抗锯齿)。

● Temporal Anti-Aliasing

    这种全新的抗锯齿的原理是这样的:

    每一帧采样的位置不同,连续两帧的取样位置也不同。这样就能够在两帧来回切换的时候,利用人眼的视觉暂留特点,实现接近于两倍原有取样的效果。但是这个过程由于每一帧的取样点数并没有提高,所以在性能上将不会有任何下降。

    另外,这种技术产生的抗锯齿的效果只能由肉眼看出来,如果进行抓图的话,仍然将截取到其中的单一帧,所以通过截图是看不出这种“临时采样”的抗锯齿效果。<

    今天测试的显示卡是来自ATI原厂的Radeon X850 XT PE,其PCB使用了非常醒目的火红色,上面密布的元器件让这块显示卡显得非常厚实:

    由于ATI Radeon X850 XT PE的核心/显存工作频率达到了540/1180MHz,其散热系统也就成为了显示卡能否稳定工作的关键。我们看到这款显卡采用了风道式散热系统,铜制的鳍片保证了良好的散热效果:

    揭开散热片,我们看到了R480核心的真容,上面“PCI Express”的标志格外显眼:

    在电源电路方面,Radeon X850 XT PE使用了高质量的元器件为显示卡的稳定工作提供了保障。除了两个DVI接口之外,这块显示卡还提供了带有VIVO功能的S-Video接口:

    上图中的ATI RAGE THEATER 是一种低成本、单芯片、多标准的视频编码/解码器,Radeon X850 XT PE依靠它实现VIVO功能。

    Radeon X850 XT PE使用三星mBGA封装的编号为“K4J55323QF-GC16”的显存,正反面共8颗组成了256MB/256bit的规格,1.6纳秒的速度令其能够稳定工作在1180MHz的默认频率上。<

  • 测试平台

硬件系统

Intel P4 5603.6GHz

   

Intel 925X

   

Apacer DDR2 533 1GB×2

    

Seagate 7200.7 60GB

爱国者 998FD

驱动程序

显卡驱动

Catalyst 4.11

操作系统

英文Windows XP + SP1

  • 测试项目

    和往常的显示卡测试一样,这次我们仍然选择Aquamark和3DMark系列作为基准测试项目,而不可或缺的游戏部分使用的是《半条命2》、《Doom 3》、《UT2003》、《光环》、《波斯王子·时之砂》、《分裂细胞》和《孤岛惊魂》来对显示卡进行测试。<

  • AquaMark3

  • 3DMark03

    在传统的基准测试项目AquaMark3和3DMark03中,X850 XT PE比较X800 XT PE普遍有了5%左右的成绩提升,其中以AquaMark3最为明显,分数提高幅度达到了8%以上。<

  • 3DMark05

    和刚才的传统基准测试项目情况类似,在刚刚发布不久的3DMark05的测试中X850 XT PE比较X800 XT PE有了3%—5%的成绩提高,接下来我们在游戏实战中检验一下X850 XT PE的威力。<

  • Half-Life 2

    ATI的显示卡在《半条命2》中占有的优势是大家有目共睹的,X850 XT PE的发布令这个优势更进一步了。在测试中X850 XT PE比X800 XT PE的成绩再提高了5%以上,这令ATI显示卡在这款经典游戏中的王者地位更加难以动摇。<

  • DOOM3

    与《半条命2》的情况正相反,众所周知《Doom3》这款基于OpenGL开发的游戏是NVIDIA显示卡的“天下”。在这个测试项目中我们发现X850 XT PE的成绩并没有太多的提升,各个分辨率下帧速率的提高都在2fps左右。<

  • Prince of Persia:The Sands of Time

    《波斯王子·时之砂》是一款画面非常华丽的DirectX 9游戏,X850 XT PE在这个项目的1024×768分辨率下居然有将近18%的帧速率提升,这个趋势随着分辨率的升高而递减。<

  • UT2003

    UT2003的测试成绩与前面的情况大同小异,X850 XT PE在两个测试项目都有5%左右的帧速率提升。<

  • HALO

    在《光环》这款游戏的测试中,X850 XT PE在频率上面的提升并没有为其带来太多的帧速率提高,不过105fps的速度也足够达到流畅运行的标准了。<

  • Tom Clancy''s Splinter Cell

    《分裂细胞》的测试结果和其他测试项目类似,X850 XT PE提高的频率在各个分辨率下都带来了3fps左右的帧速率提升。<

  • FarCry

    《孤岛惊魂》是第一批上市的DirextX 9游戏之一,在2004年初曾经将无数硬件“斩于马下”。不过现在我们看到X850 XT PE已经完全能够胜任这款视觉效果惊人的游戏了,即使是在1600×1200分辨率下打开4×的各项异性过滤也能保持80fps以上的帧速率。<

    前面已经提到,Radeon X850系列是在Radeon X800系列的基础上提高核心/显存的工作频率而来,其核心架构并没有改变。极速升高的频率令ATI得到了2004年度显卡性能之王的桂冠,这同时也是ATI的高端芯片生产实力的体现。

    自从ATI发布Radeon X850系列产品之后,微星、华硕、蓝宝等很多厂商都已经跟进推出了自己品牌的产品,相信极限玩家们很快就能够体验到目前PC显示卡性能之王的风采了。<

0人已赞

关注我们

泡泡网

手机扫码关注