泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

完美DX10!ATI新王者HD2900XT权威评测

 
第四章\\第六节\\第三小节 R600的超标量SIMD架构
 
    从架构图上来看,R600拥有64个Stream Processing Units,它依然是传统的SIMD架构,但不能简单地认为它拥有64个流处理器,因为R600的每个Units内部包含了5个超标量ALU:
 
{imageTitle}
 
 R600每个Stream Processing Units的结构
 
    Branch Execution Unit(分歧执行单元)进行流控制和条件运算,BEU获得指令包后将会安排至它管辖下5个ALU执行,流控制效率非常高,几乎不产生延迟或者性能损失。General Purpose Registers(通用寄存器)存储输入数据、临时数值和输出数据,并不存放指令。
 
    与传统GPU ALU架构不同的是,R600的5D SIMD矢量ALU可以在动态流控制的支配下自由的处理任何组合形式的指令,诸如1+1+1+1+1、2+2+1、4+1等组合形式。
 
{imageTitle}
 
    换句话说,既然是5D SIMD矢量架构,那么内部的5个1D ALU就只共享一个指令发射端口,但是R600的Thread Processor可以智能的将各种离散指令(比如将5个1D指令)分类打包,然后通过分支执行单元交给5D SIMD矢量ALU处理,这样同样能够保证GPU所有的ALU资源不被浪费!
 
    宏观上R600依然是SIMD矢量架构,但在微观上可以称之为超标量架构,完美支持Co-issue(矢量指令和标量指令并行执行),单时钟周期可以进行5次MAD(Multiply-Add,乘加)运算。另外还可以看到,5个1D ALU其中有个“胖”一点的,它除了MAD之外还能够进行一些特殊(SIN、COS、LOG、EXP等函数)运算,在特殊条件下提高运算效率!
 
    现在R600的架构优势就完全体现了出来,它拥有如假包换的64×5=320个恐怖ALU阵容,说它是320个流处理器毫不为过,尤其是在科学计算方面,320个流处理器可以很容易就发挥出接近100%的效能,而普通多核心CPU想要发挥出70%的效能都非常困难。
 
{imageTitle}
 
    通过上图可以看出R600XT的理论浮点算术运算能力=320(SPU)×2(MAD指令)× 742MHz=475 GLOPS,而G80Ultra的理论浮点算术运算能力=128×2×1500MHz=384 GLOPS。R600的晶体管规模与G80相近,却实现了更高的理论运算能力,并且突破了传统GPU架构的瓶颈,提升了单位晶体管所实现的效能!但是,理论归理论,GPU在实际游戏中的表现还要受到多方面因素的制约,R600的动态流控制能否最大限度发挥320个流处理器的实力,这还有待测试证明。
 
    通过前面的分析我们可以初步得出这样的结论:G80纯标量架构的效能比较依赖于将矢量指令拆分为标量指令的效率;而R600超标量架构的效能依赖于将各种混合指令重新排序并且打包分配给SIMD单元的效率。R600虽然在流处理器数量上有着绝对优势,但在架构执行效率方面受到的限制也比较多。

{imageTitle}

0人已赞
上一页171819202122232425下一页查看全文
第1页:完美DX10!ATI新王者HD2900XT权威评测第2页:完美DX10!ATI HD2000系列评测提纲第3页:2007显卡年!AMD/NVIDIA决战图形市场第4页:奋起直追!全新Radeon HD 2000产品线解析第5页:功能化发展!Radeon HD2000系列亮点逐个看第6页:第二章:统一渲染架构解析第7页:第二章/第二节:革命!R600的统一渲染架构第8页:4第9页:第三章:DirectX发展回顾以及DirectX10详细介绍第10页:第二节 DX10的架构特性 以及带来的好处第11页:第三章/第三节:ATI 3Dc功能回顾第12页:3第13页:3第14页:3第15页:3第16页:集众家之长,R600架构总览第17页:R600架构分块介绍第18页:Setup Engine(装配引擎)第19页:Ultra-Threaded Dispatch Processor(超线程分配处理器)第20页:Stream Processing Units(流处理器)第21页:R600的超标量SIMD架构第22页:4第23页:5第24页:ATI片内缓存相关技术第25页:Memory Control(显存控制器)第26页:第六章 R600的神工鬼斧——Tessellation技术第27页:第六章\\第二节 传统的虚拟3D技术回顾第28页:第二小节 凹凸贴图 Bump mapping第29页:第六章\\第二节\\第三小节 法线贴图(normal mapping)第30页:视差贴图技术parallax occlusion mapping第31页:位移贴图(displacement mapping)第32页:Ati的独门秘籍 Trumform 第33页:Tessellation技术第34页:神奇的小数点——细分网格算法中小数位的意义第35页:Tessellation效率的源泉——控制“笼子”第36页:Tessellation技术的流程第37页:Tessellation技术的应用和前景第38页:1第39页:AA发展第40页:CFAA第41页:123第42页:ATI显卡产品形象代言人——Ruby四度出击第43页:X800 & X850 Ruby第44页:DX9C的最高境界 X1800 Ruby第45页:R600 DX10 Ruby高清晰截图赏析第46页:R600 DX10 Ruby引擎和技术解析第47页:23第48页:R600 DX10 Ruby所用图形引擎揭秘第49页:1第50页:2第51页:第九章\\第二节第52页:庞大的运算资源,R600单卡就能物理加速第53页:3第54页:第四章:AMD高清视频功能解析第55页:22第56页:第三节 硬件视频加速第57页:第四节 UVD 引擎解码流程第58页:第五节 UVD测试第59页:第一节 电脑音频的数码之路第60页:第二节 HDMI数字音频技术背景第61页:第三节 各种显卡HDMI接口方案第62页:第四节 R600系列方案第63页:第五节:实战R600音频播放第64页:第六节 HD 2900XT怎么用?第65页:显卡介绍第66页:123123第67页:显卡介绍第68页:123第69页:显卡介绍第70页:3第71页:123123第72页:测试系统配置和设置第73页:阿苏大发送颠覆第74页:113123第75页:4第76页:05第77页:06第78页:游戏第79页:游戏第80页:123第81页:6第82页:6第83页:交火第84页:功耗测试第85页:1第86页:第二节 客观,公正,专业,全面,泡泡网为您带来最权威的DX10测试第87页:第三节 Call of Juarez游戏DX10测试 第88页:第四节 DirectX SDK测试(微软官方2007年四月版)第89页:第四小节:Draw Predicated第90页:第七小节:MotionBlur10第91页:第十小节:Skining 10第92页:第十四章 总结 另觅蓝海!AMD让ATI看得更远第93页:123

关注我们

泡泡网

手机扫码关注