泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

完美DX10!ATI新王者HD2900XT权威评测

第四章\\第八节 Shader Export & Render Back-Ends(像素输出部分)

    ATI的Render Back End(后期渲染)其实就相当于NVIDIA的ROP(Raster Operation Processor光栅操作处理器),其主要作用就是像素输出,但是它还担负了Z(深度)操作、抗锯齿取样等繁重任务,在DX10中被称作“Output Merger”。

{imageTitle}

 R600拥有4个后期输出模块

    与G80相同,R600也提供了最大8个MRT(Multiple Render Target),直接支持8xMSAA。其最大的特点就是可编程AA模式,可以在2/4/8xMSAA的基础上衍生出N多种高效率的CFAA(最大24x),这部分内容将在后文章详细介绍。

    R600可以在一个时钟周期内采样32个Z/模版,速度翻倍,而且深度/模版是分开处理的,执行效率更高。

    深度/模版压缩率提高至16:1,到达了X1000的两倍,在8xMSAA模式下更是可以达到128:1的超高压缩率。

第四章\\第九节 独立的专属缓存

    GPU所要处理的几乎所有数据和指令都是被存储在海量的显存之中,虽然显存速度逐年增长、512Bit总线将带宽翻了两倍、环形总线也有效的降低了延迟,但始终不可能与GPU同步运行,因此片内缓存依然是必备之物。其设计理念与CPU的L1/L2、数据/指令缓存完全相同。

{imageTitle}

    从R600的架构图中可以看到,几乎每一个模块都配备了大量的缓存,这些缓存各自独立、各司其职,如图深黄色部分,接下来简要介绍各部分缓存的用途及相关技术:

{imageTitle}

    超线程分配处理器配备了独立的着色常数缓存和指令缓存,使得代码长度几乎可以不受限制,而且可以在队列中存放更多条优先级较低的指令。

{imageTitle}

    纹理缓存(Texture Cache)部分,R600的L1和L2分别是一个整体(而G80被分割为8块,因为有8个Shader阵列,加起来是384KB),四个纹理单元共享256KB的容量。RV630的L2减半,RV610则没有L2。

    顶点缓存(Vertex Cache)容量达到R580的8倍!

{imageTitle}

    颜色缓存(Color Cache)其中内容可以是颜色索引或者RGBA数据,很多时候拥有左右两个甚至上下左右四个缓存,用以实现立体图。

{imageTitle}
 
    深度缓存(Depth Cache)就是通常所说的Z轴缓存,用于保存象素Z方向的数值,深度大的被深度小的代替,用以实现消隐。R600支持32Bit浮点Z缓冲,上代X1000最高仅支持24Bit精度。
  
    模板缓存(Stencil Cache)用以保持屏幕上某些位置图形不变,而其他部分重绘。例如大家熟悉的开飞机和赛车的游戏的驾驶舱视角,只有挡风外面的景物变化,舱内仪表等等并不变化。

    除此之外,R600的Z缓存和模板缓存压缩比率提高到16:1(达到X1000的2倍),打开8xMSAA时压缩率高达128:1!R600中模板缓存和深度缓存依然是一个整体,但两者是单独压缩独立存取的。压缩信息可以存放在片内缓存或者是显存当中,这使得模板和深度压缩几乎可以被无限制的使用。

{imageTitle}

    显存读写缓存(Memory Read/Write Cache),与CPU相同,GPU并不能直接访问庞大的外部显存,也是通过一块映射缓存充当内存的镜像后访问。

    数据流输出缓冲(Stream Out Buffer),以往几何体必须在写入显存之前是被光栅化之后送入Pixel Shader。而Stream Out技术允许数据从VS或PS中直接传入Buffer或者显存,这种缓存可以被传回Shader重新处理,允许GPU重复利用已有的结果从而减少重复计算。DX10新纳入的几何着色器通过顶点信息批量处理几何图形,快速生成大量多变形,在此过程中会生成大量重复性数据,此时Stream Out Buffer就能起到事倍功半的作用,大幅提高新图形算法及物理运算的效率!

    如此众多的片内缓存有效的提高了芯片个部分模块的运行效率,但同时也让R600的晶体管规模膨胀。

{imageTitle}

0人已赞
第1页:完美DX10!ATI新王者HD2900XT权威评测第2页:完美DX10!ATI HD2000系列评测提纲第3页:2007显卡年!AMD/NVIDIA决战图形市场第4页:奋起直追!全新Radeon HD 2000产品线解析第5页:功能化发展!Radeon HD2000系列亮点逐个看第6页:第二章:统一渲染架构解析第7页:第二章/第二节:革命!R600的统一渲染架构第8页:4第9页:第三章:DirectX发展回顾以及DirectX10详细介绍第10页:第二节 DX10的架构特性 以及带来的好处第11页:第三章/第三节:ATI 3Dc功能回顾第12页:3第13页:3第14页:3第15页:3第16页:集众家之长,R600架构总览第17页:R600架构分块介绍第18页:Setup Engine(装配引擎)第19页:Ultra-Threaded Dispatch Processor(超线程分配处理器)第20页:Stream Processing Units(流处理器)第21页:R600的超标量SIMD架构第22页:4第23页:5第24页:ATI片内缓存相关技术第25页:Memory Control(显存控制器)第26页:第六章 R600的神工鬼斧——Tessellation技术第27页:第六章\\第二节 传统的虚拟3D技术回顾第28页:第二小节 凹凸贴图 Bump mapping第29页:第六章\\第二节\\第三小节 法线贴图(normal mapping)第30页:视差贴图技术parallax occlusion mapping第31页:位移贴图(displacement mapping)第32页:Ati的独门秘籍 Trumform 第33页:Tessellation技术第34页:神奇的小数点——细分网格算法中小数位的意义第35页:Tessellation效率的源泉——控制“笼子”第36页:Tessellation技术的流程第37页:Tessellation技术的应用和前景第38页:1第39页:AA发展第40页:CFAA第41页:123第42页:ATI显卡产品形象代言人——Ruby四度出击第43页:X800 & X850 Ruby第44页:DX9C的最高境界 X1800 Ruby第45页:R600 DX10 Ruby高清晰截图赏析第46页:R600 DX10 Ruby引擎和技术解析第47页:23第48页:R600 DX10 Ruby所用图形引擎揭秘第49页:1第50页:2第51页:第九章\\第二节第52页:庞大的运算资源,R600单卡就能物理加速第53页:3第54页:第四章:AMD高清视频功能解析第55页:22第56页:第三节 硬件视频加速第57页:第四节 UVD 引擎解码流程第58页:第五节 UVD测试第59页:第一节 电脑音频的数码之路第60页:第二节 HDMI数字音频技术背景第61页:第三节 各种显卡HDMI接口方案第62页:第四节 R600系列方案第63页:第五节:实战R600音频播放第64页:第六节 HD 2900XT怎么用?第65页:显卡介绍第66页:123123第67页:显卡介绍第68页:123第69页:显卡介绍第70页:3第71页:123123第72页:测试系统配置和设置第73页:阿苏大发送颠覆第74页:113123第75页:4第76页:05第77页:06第78页:游戏第79页:游戏第80页:123第81页:6第82页:6第83页:交火第84页:功耗测试第85页:1第86页:第二节 客观,公正,专业,全面,泡泡网为您带来最权威的DX10测试第87页:第三节 Call of Juarez游戏DX10测试 第88页:第四节 DirectX SDK测试(微软官方2007年四月版)第89页:第四小节:Draw Predicated第90页:第七小节:MotionBlur10第91页:第十小节:Skining 10第92页:第十四章 总结 另觅蓝海!AMD让ATI看得更远第93页:123

关注我们

泡泡网

手机扫码关注