HD7970脱胎换骨全测试!5年架构大革命-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

HD7970脱胎换骨全测试!5年架构大革命

2012年01月09日 01:00作者：蒋尚文编辑：蒋尚文文章出处：泡泡网原创

第二章/第八节 HD6970昙花一现：北方群岛5D改4D返璞归真

相信有些读者很早就想问这样一个问题了：既然图形渲染的主要指令是4D矢量格式，那为什么R600要设计成5D的流处理器结构呢？还沿用了5代之久？有结果就有原因，通过对Cayman核心的分析，我们可以找到答案。

R600为什么是5D VLIW结构？

在5D VLIW流处理器中，其中的1个比较“胖”的ALU有别于其它4个对等的ALU，它负责执行特殊功能（例如三角函数）。而另外4个ALU可以执行普通的加、乘、乘加或融合指令。

Barts核心的流处理器结构

从R600开始的Shader是4D+1D的非对等设计，ATI这样做的目的是为了让顶点着色器更有效率，以便能同时处理一个4D矢量点积(比如w、x、y、z)和一个标量分量(比如光照)。

Cayman核心返璞归真，改用4D结构

随着DX10及DX11大行其道，AMD通过自己长期内部测试发现，VLIW5架构的五个处理槽中平均只能用到3.4个，也就是在游戏里会有1.6个白白浪费了。显然，DX9下非常理想的VLIW5设计已经过时，它太宽了，必须缩短流处理器单元(SPU)，重新设计里边的流处理器(SP)布局。

Cayman核心的流处理器结构

于是Cayman核心诞生了，胖ALU下岗，只保留了剩下4个对等的全功能ALU。裁员归裁员，原来胖ALU的工作还得有人干，Cayman的4D架构在执行特殊功能指令时，需要占用3个ALU同时运算。

5D改4D之后最大的改进就是，去掉了体积最大的ALU，原本属于它的晶体管可以用来安放更多的SIMD引擎，据AMD官方称流处理器单元的性能/面积比可以提升10%。而且现在是4个ALU共享1个指令发射端口，指令派发压力骤减，执行效率提升。双精度浮点运算能力也从原来单精度的1/5提高到了1/4。

效率更进一步：双图形引擎

前面介绍过，从RV770到Cypress核心，图形引擎和超线程分配处理器都只有一个，但图形引擎内部的Hierarchical Z（分层消影器）和Rasterizer（光栅器）分为两份。

到了Barts核心，超线程分配处理器从一个变成两个。现在的Cayman核心则更进一步，图形引擎也变成了两个，也就是除了分层消影器和光栅器外，几何着色指令分配器、顶点着色指令分配器、还有曲面细分单元都变成了两份：

两个曲面细分单元再加上两个超线程分配处理器，AMD官方称HD6970的曲面细分性能可以达到HD6870的两倍、HD5870的三倍。其它方面比如顶点着色、几何着色性能都会有显著的提升。

通用计算效能也有改进

和Cypress、Barts相比，Cayman在通用计算方面也有一定程度的改进，主要体现在具备了一定程度的多路并行执行能力；双路DMA引擎可以同时透过外部总线和本地显存读写数据；改进的流控制提高了指令执行效率和运算单元浪费；当然双精度运算能力的提高对于科学计算也大有裨益。

不过，这些改进都是治标不治本，VLIW架构从5D到4D只是一小步，只能一定程度上的提高指令执行效率，而无法根治GPU编程困难、复杂指令和条件指令的兼容性问题。总的来说，Cayman核心依然只是单纯为游戏而设计的GPU，AMD把5D改为4D也是基于提升3D渲染性能的考虑。

0人已赞

第1页：前言：AMD“南方群岛”耀世而出第2页：GPU核心概述：半导体制造工艺之瓶颈第3页：皇位之争：AMD和NVIDIA的“巅峰对决”第4页：Radeon是一款好显卡，但不是颗好GPU 第5页：成也微软败也微软：XBOX360阻碍显卡/游戏发展第6页：从X1900XTX谈起：用3:1黄金架构做计算第7页：HD2900XT走向不归路：超长指令集的弊端第8页：HD4870的救赎：暴力扩充流处理器第9页：HD5870的辉煌：在错误的道路上越走越远第10页：HD6870的一小步：双超线程分配处理器第11页：HD6970昙花一现：北方群岛5D改4D返璞归真第12页：GPU的一大步：NVIDIA G80图形架构解析第13页：真正的并行计算架构：GT200只为计算优化第14页：DX11与并行计算的完美结合：GF100/110的野心第15页：HD7970华丽登场：曲面细分性能大幅提升第16页：GCN架构的精髓：流处理器完全重新设计第17页：GCN架构的缓存：和GF100异曲同工第18页：Tihiti其他方面的改进：AMD真是个激进派第19页：GCN架构的真正意义：GPU计算效能大增第20页：浴火重生，新的开始新的期待第21页：呼之欲出：南方群岛全系列发售前瞻第22页：南方群岛应用篇：DDM Audio 解析第23页：南方群岛应用篇：EYEFINITY“2.0”解析第24页：南方群岛应用篇：HD3D技术解析第25页：南方群岛应用篇：AMD APP 加速并行技术第26页：AMD再度领跑：DX11.1规范详解第27页：首测显卡曝光：蓝宝HD7970 第28页：首测显卡曝光：迪兰HD7970 第29页：首测显卡曝光：镭风HD7970 第30页：首测显卡曝光：讯景HD7970 第31页：首测显卡曝光：讯景非公版HD7970 第32页：首测显卡曝光：双敏HD7970 第33页：其他首发显卡曝光汇总展示第34页：六核3960X客串：HD7970鏖战众卡皇第35页：DX10基准测试：《3DMark Vantage》第36页：DX10游戏性能测试：《孤岛危机》第37页：DX10.1游戏测试：《孤岛惊魂2》第38页：DX11基准测试：《3DMark11》第39页：DX11游戏性能测试：《尘埃3》第40页：DX11游戏性能测试：《战地3》第41页：DX11游戏性能测试：《AVP》第42页：DX11游戏性能测试：《地铁 2033》第43页：DX11游戏性能测试：《孤岛危机2》第44页：曲面细分专项测试：《石巨人》第45页：曲面细分专项测试：《Heaven 2.5》第46页：PhysX特效专项测试：《BatmanAC》第47页：通用计算：纹理压缩/光线追踪第48页：通用计算：流体模拟/蒙特卡罗算法第49页：附加测试：AES加解密/像素纹理填充第50页：附加测试：HD7970功耗最低3W 第51页：成绩汇总：HD7970 PK GTX580 第52页：成绩汇总：HD7970 PK HD6970 第53页：成绩汇总：HD7970 PK HD6990 第54页：成绩汇总：HD7970 CrossFire交火效率第55页：成绩汇总：HD7970 超频效能测试第56页：全文总结：架构、效能与应用的全面胜利

HD7970脱胎换骨全测试!5年架构大革命

关注我们