完美DX10!ATI新王者HD2900XT权威评测-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

完美DX10!ATI新王者HD2900XT权威评测

2007年05月15日 08:10作者：泡泡网评测室编辑：孙敏杰

第四章\\第六节\\第三小节 R600的超标量SIMD架构

从架构图上来看，R600拥有64个Stream Processing Units，它依然是传统的SIMD架构，但不能简单地认为它拥有64个流处理器，因为R600的每个Units内部包含了5个超标量ALU：

R600每个Stream Processing Units的结构

Branch Execution Unit（分歧执行单元）进行流控制和条件运算，BEU获得指令包后将会安排至它管辖下5个ALU执行，流控制效率非常高，几乎不产生延迟或者性能损失。General Purpose Registers（通用寄存器）存储输入数据、临时数值和输出数据，并不存放指令。

与传统GPU ALU架构不同的是，R600的5D SIMD矢量ALU可以在动态流控制的支配下自由的处理任何组合形式的指令，诸如1+1+1+1+1、2+2+1、4+1等组合形式。

换句话说，既然是5D SIMD矢量架构，那么内部的5个1D ALU就只共享一个指令发射端口，但是R600的Thread Processor可以智能的将各种离散指令（比如将5个1D指令）分类打包，然后通过分支执行单元交给5D SIMD矢量ALU处理，这样同样能够保证GPU所有的ALU资源不被浪费！

宏观上R600依然是SIMD矢量架构，但在微观上可以称之为超标量架构，完美支持Co-issue（矢量指令和标量指令并行执行），单时钟周期可以进行5次MAD（Multiply-Add，乘加）运算。另外还可以看到，5个1D ALU其中有个“胖”一点的，它除了MAD之外还能够进行一些特殊（SIN、COS、LOG、EXP等函数）运算，在特殊条件下提高运算效率！

现在R600的架构优势就完全体现了出来，它拥有如假包换的64×5＝320个恐怖ALU阵容，说它是320个流处理器毫不为过，尤其是在科学计算方面，320个流处理器可以很容易就发挥出接近100%的效能，而普通多核心CPU想要发挥出70%的效能都非常困难。

通过上图可以看出R600XT的理论浮点算术运算能力＝320（SPU）×2（MAD指令）× 742MHz＝475 GLOPS，而G80Ultra的理论浮点算术运算能力＝128×2×1500MHz＝384 GLOPS。R600的晶体管规模与G80相近，却实现了更高的理论运算能力，并且突破了传统GPU架构的瓶颈，提升了单位晶体管所实现的效能！但是，理论归理论，GPU在实际游戏中的表现还要受到多方面因素的制约，R600的动态流控制能否最大限度发挥320个流处理器的实力，这还有待测试证明。

通过前面的分析我们可以初步得出这样的结论：G80纯标量架构的效能比较依赖于将矢量指令拆分为标量指令的效率；而R600超标量架构的效能依赖于将各种混合指令重新排序并且打包分配给SIMD单元的效率。R600虽然在流处理器数量上有着绝对优势，但在架构执行效率方面受到的限制也比较多。

0人已赞

第1页：完美DX10!ATI新王者HD2900XT权威评测第2页：完美DX10！ATI HD2000系列评测提纲第3页：2007显卡年!AMD/NVIDIA决战图形市场第4页：奋起直追!全新Radeon HD 2000产品线解析第5页：功能化发展！Radeon HD2000系列亮点逐个看第6页：第二章：统一渲染架构解析第7页：第二章/第二节：革命！R600的统一渲染架构第8页：4 第9页：第三章：DirectX发展回顾以及DirectX10详细介绍第10页：第二节 DX10的架构特性以及带来的好处第11页：第三章/第三节:ATI 3Dc功能回顾第12页：3 第13页：3 第14页：3 第15页：3 第16页：集众家之长，R600架构总览第17页：R600架构分块介绍第18页：Setup Engine（装配引擎）第19页：Ultra-Threaded Dispatch Processor（超线程分配处理器）第20页：Stream Processing Units（流处理器）第21页：R600的超标量SIMD架构第22页：4 第23页：5 第24页：ATI片内缓存相关技术第25页：Memory Control（显存控制器）第26页：第六章 R600的神工鬼斧——Tessellation技术第27页：第六章\\第二节传统的虚拟3D技术回顾第28页：第二小节凹凸贴图 Bump mapping 第29页：第六章\\第二节\\第三小节法线贴图（normal mapping）第30页：视差贴图技术parallax occlusion mapping 第31页：位移贴图（displacement mapping）第32页：Ati的独门秘籍 Trumform 第33页：Tessellation技术第34页：神奇的小数点——细分网格算法中小数位的意义第35页：Tessellation效率的源泉——控制“笼子”第36页：Tessellation技术的流程第37页：Tessellation技术的应用和前景第38页：1 第39页：AA发展第40页：CFAA 第41页：123 第42页：ATI显卡产品形象代言人——Ruby四度出击第43页：X800 & X850 Ruby 第44页：DX9C的最高境界 X1800 Ruby 第45页：R600 DX10 Ruby高清晰截图赏析第46页：R600 DX10 Ruby引擎和技术解析第47页：23 第48页：R600 DX10 Ruby所用图形引擎揭秘第49页：1 第50页：2 第51页：第九章\\第二节第52页：庞大的运算资源，R600单卡就能物理加速第53页：3 第54页：第四章：AMD高清视频功能解析第55页：22 第56页：第三节硬件视频加速第57页：第四节 UVD 引擎解码流程第58页：第五节 UVD测试第59页：第一节电脑音频的数码之路第60页：第二节 HDMI数字音频技术背景第61页：第三节各种显卡HDMI接口方案第62页：第四节 R600系列方案第63页：第五节：实战R600音频播放第64页：第六节 HD 2900XT怎么用？第65页：显卡介绍第66页：123123 第67页：显卡介绍第68页：123 第69页：显卡介绍第70页：3 第71页：123123 第72页：测试系统配置和设置第73页：阿苏大发送颠覆第74页：113123 第75页：4 第76页：05 第77页：06 第78页：游戏第79页：游戏第80页：123 第81页：6 第82页：6 第83页：交火第84页：功耗测试第85页：1 第86页：第二节客观，公正，专业，全面，泡泡网为您带来最权威的DX10测试第87页：第三节 Call of Juarez游戏DX10测试第88页：第四节 DirectX SDK测试（微软官方2007年四月版）第89页：第四小节：Draw Predicated 第90页：第七小节：MotionBlur10 第91页：第十小节：Skining 10 第92页：第十四章总结另觅蓝海！AMD让ATI看得更远第93页：123

完美DX10!ATI新王者HD2900XT权威评测

关注我们