泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

完美DX10!ATI新王者HD2900XT权威评测

    自从ATI在R300(9700)上面首次使用256Bit显存位宽之后,高端显卡的显存控制器已经连续五年停滞不前,显存带宽的提升只能依赖于DRAM厂商生产出速度更快的显存颗粒,从GDDR1一直发展到GDDR2/3/4,高频显存对显卡的PCB和散热设计提出了很高要求,显存在显卡成本中所占比例也越来越高,显卡性能一定程度上受到了显存带宽的制约。新一代DX10游戏对显存带宽需求变本加厉,所以NVIDIA和ATI不约而同的升级了显存控制器,G80支持384Bit,而R600则是翻了一倍达到512Bit!

{imageTitle}
 
 512Bit显存带来性能飞跃

第四章\\第十节 Memory Control(显存控制器)

    G80的显存控制器很容易理解,与G71相比就是添加了两组64Bit控制器,每组显存控制器都与ROP绑定,从而组成了384Bit的位宽,依然是(Crossbar)交叉式结构。之所以不用512Bit,一方面是出于显存成本方面的考虑,当然还有一个原因就是交叉存取的结构在规模较大时管理非常复杂,PCB布线难度大增,信号延迟容易增大。

{imageTitle}

 G80的ROP和显存控制器

    这就是ATI引入环形总线的原因,从R520开始我们就接触到了Ring Bus这个词,R520内部显存总线其实是512Bit(即两个256Bit环形管道),4个环站和8组32Bit显存组成:

{imageTitle}

 R520的显存控制器

    为什么要这么设计呢?主要是在提高带宽的同时减缓显存控制器的压力。当程序指令提出显存读取要求时,显存控制器会安排数据从显存颗粒中读取,但数据不会回传至显存控制器,而是只把数据放在环形总线之中,然后程序自行通过环站取回所需数据包,从而减轻控制器的压力。这种方式对于单个的存取操作有可能会使延迟变大,但总体来说能够降低大多数操作的延迟,而且提高数据命中率!

    环形总线围绕在控制器的外围,这样可以简化线路设计使连接处于最优化状态。这意味着任何时候内核各部件都能处于最短的连接线路状态,这样在显存进行数据写入操作过程中有效降低延迟及降低信号品质。当然环形总线的另一大优势就势可以轻松达到高频率,传统显存控制器则由于显存控制器内部线路之间的串扰等原因很难保证GDDR4这种高频显存的效能!

{imageTitle}

 ATI显存控制器的演化

    但是,X1000系列的显存控制器并非是真正的环形总线,它只是通过引入两条环形管道来分担中央控制器的压力,这可以说是ATI做出的一个大胆尝试,X1000系列属于半分布式的混合型控制器。而在R600上面,ATI真正实现了全分布式的环形总线:

{imageTitle}
 
 R600内部1024Bit环形总线,外部512Bit总线

    R600的显存控制器拥有2条512Bit环形通道和四个环站,每个环站控制两个64Bit显存通道,可以看到R600不存在中央控制器,所有显存读写操作都由四个环站经过仲裁器判定后执行:

{imageTitle}
 
 R600显存控制器之环站结构

    可以这么认为,如果是传统交叉式显存控制器的话,必须统一指挥8个64Bit通道,而R600的4个环站只需各自管辖2个64Bit通道就可以了,然后四个环站通过1024Bit(读写各512Bit)内部总线连接起来,所有操作都通过仲裁器优化和排序后执行,比起混乱的交叉操作更加有序和高效!

    如此一来,R600的环形总线可以达到更低的延迟、更高的频率、更大的带宽。同时也可以一定程度上降低PCB布线难度,将16颗显存之间的干扰降至最低,稳定性更容易保证,对于GDDR4提供了完美支持。在现有的技术条件下,R600可以轻松实现1GB 512Bit和512MB 512Bit两种实用的组合方案,今天发布的HD 2900XT就是512MB 512Bit(16颗8M×32Bit颗粒)的规格,未来还会有1GB 512Bit GDDR3/4的XTX版本。

    另外,ATI的双向环路总线是可编程设计的,显存仲裁操作可以交由驱动程序控制,或者是用户通过驱动程序的“CATALYST A.I(智能参数设定)”功能为特定的应用程序设定仲裁优先次序,以便GPU可以优先处理最迫切、对性能影响最明显的数据读写请求。

{imageTitle}

0人已赞
第1页:完美DX10!ATI新王者HD2900XT权威评测第2页:完美DX10!ATI HD2000系列评测提纲第3页:2007显卡年!AMD/NVIDIA决战图形市场第4页:奋起直追!全新Radeon HD 2000产品线解析第5页:功能化发展!Radeon HD2000系列亮点逐个看第6页:第二章:统一渲染架构解析第7页:第二章/第二节:革命!R600的统一渲染架构第8页:4第9页:第三章:DirectX发展回顾以及DirectX10详细介绍第10页:第二节 DX10的架构特性 以及带来的好处第11页:第三章/第三节:ATI 3Dc功能回顾第12页:3第13页:3第14页:3第15页:3第16页:集众家之长,R600架构总览第17页:R600架构分块介绍第18页:Setup Engine(装配引擎)第19页:Ultra-Threaded Dispatch Processor(超线程分配处理器)第20页:Stream Processing Units(流处理器)第21页:R600的超标量SIMD架构第22页:4第23页:5第24页:ATI片内缓存相关技术第25页:Memory Control(显存控制器)第26页:第六章 R600的神工鬼斧——Tessellation技术第27页:第六章\\第二节 传统的虚拟3D技术回顾第28页:第二小节 凹凸贴图 Bump mapping第29页:第六章\\第二节\\第三小节 法线贴图(normal mapping)第30页:视差贴图技术parallax occlusion mapping第31页:位移贴图(displacement mapping)第32页:Ati的独门秘籍 Trumform 第33页:Tessellation技术第34页:神奇的小数点——细分网格算法中小数位的意义第35页:Tessellation效率的源泉——控制“笼子”第36页:Tessellation技术的流程第37页:Tessellation技术的应用和前景第38页:1第39页:AA发展第40页:CFAA第41页:123第42页:ATI显卡产品形象代言人——Ruby四度出击第43页:X800 & X850 Ruby第44页:DX9C的最高境界 X1800 Ruby第45页:R600 DX10 Ruby高清晰截图赏析第46页:R600 DX10 Ruby引擎和技术解析第47页:23第48页:R600 DX10 Ruby所用图形引擎揭秘第49页:1第50页:2第51页:第九章\\第二节第52页:庞大的运算资源,R600单卡就能物理加速第53页:3第54页:第四章:AMD高清视频功能解析第55页:22第56页:第三节 硬件视频加速第57页:第四节 UVD 引擎解码流程第58页:第五节 UVD测试第59页:第一节 电脑音频的数码之路第60页:第二节 HDMI数字音频技术背景第61页:第三节 各种显卡HDMI接口方案第62页:第四节 R600系列方案第63页:第五节:实战R600音频播放第64页:第六节 HD 2900XT怎么用?第65页:显卡介绍第66页:123123第67页:显卡介绍第68页:123第69页:显卡介绍第70页:3第71页:123123第72页:测试系统配置和设置第73页:阿苏大发送颠覆第74页:113123第75页:4第76页:05第77页:06第78页:游戏第79页:游戏第80页:123第81页:6第82页:6第83页:交火第84页:功耗测试第85页:1第86页:第二节 客观,公正,专业,全面,泡泡网为您带来最权威的DX10测试第87页:第三节 Call of Juarez游戏DX10测试 第88页:第四节 DirectX SDK测试(微软官方2007年四月版)第89页:第四小节:Draw Predicated第90页:第七小节:MotionBlur10第91页:第十小节:Skining 10第92页:第十四章 总结 另觅蓝海!AMD让ATI看得更远第93页:123

关注我们

泡泡网

手机扫码关注