泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

HD7970脱胎换骨全测试!5年架构大革命

第二章/第七节 HD6870的一小步:双超线程分配处理器

    也许有人会问,如此暴力的扩充流处理器规模而不更改架构,R600架构会成为AMD的常青树吗?难道不会有什么瓶颈吗?当然会有,AMD也发现了,所以从HD6000系列开始又进行了一轮架构的微调,透过AMD架构微调这一结果,我们可以了解出现问题原因到底是什么?

    HD6870的一小步:两个超线程分配处理器

    Barts核心的HD6870率先问世,这颗核心定位中端,所以流处理器从Cypress的1600个精简到了1120个,流处理器结构依然没有任何变化,但是前端控制模块一分为二:

第二代DX11架构!HD6870/6850全面评测

    相信大家应该注意到了,以往AMD的SIMD架构则是整颗GPU共享单一的控制单元,自R600以来都是如此。

Cypress的单一图形装配引擎

    但随着晶体管规模和流处理器数量的迅速膨胀,单一的控制单元已经无法满足大规模并行指令分配的需要,因此从Cypress开始,AMD采用了“双核心”的设计,将SIMD阵列一分为二,也就是类似于NVIDIA GPC的设计。与此相对应的,图形装配引擎虽然只有一个,内部却设计了两个Hierarchical Z(分层消影器)和Rasterizer(光栅器),但是其它的特殊功能模块均只有一个。

    Barts和Cypress一样,依然保持了双核心设计,图形引擎也只有一个,内部的功能模块并没有太多变化。但是Ultra-Treaded Dispatch Processor(超线程分配处理器)却变成了两个,相对应的,超线程分配处理器的指令缓存也变成了两份。

第二代DX11架构!HD6870/6850全面评测

Barts的图形装配引擎

    我们知道,Barts的流处理器数量是Cypress的70%,按理说线程分配压力有所下降,那么设计两个线程分配处理器的目的只有一个,那就是提升效率。在DX11时代,几何着色再加上曲面细分单元引入之后,图形装配引擎会产生更多的并行线程及指令转交SIMD进行处理,因此指令派发效率成为了新的瓶颈。

    SIMD架构的优势就是可以用较少的晶体管制造成庞大的流处理器规模,拥有恐怖的理论运算能力;但缺点就是流处理器执行效率比MIMD架构低,其效率高低完全依赖于分配单元的派发效率。因此Barts这种双线程分配处理器的设计意义重大。

    双超线程分配处理器的意义:曲面细分性能翻倍

    HD6000系列可以说是半代改进的架构,既然数量上维持不变,就只能从改进效率的方面考虑了。而改进的内容就是加强线程管理和缓冲,也就是“双倍的超线程分配处理器和指令缓存”。

第二代DX11架构!HD6870/6850全面评测

    根据AMD官方提供的数据来看,HD6870的曲面细分性能最多可达HD5870的两倍,这种情况出现在10级左右的中等细分程度,当曲面细分达到20级以上的时候,那么它们的性能就基本上没有区别了。

    由此可见,Barts核心当中的Tessellator单元本身在性能方面应该没有改进,其性能提升主要源于两颗超线程分配处理器。中等级别的曲面细分在指令分配方面是瓶颈,Barts改进的架构消除了这一瓶颈,所以性能提升十分显著,但如果细分级别特别高时,Tessellator本身的运算能力将成为瓶颈,此时线程派遣器的效率再高,也无济于事。

    看起来,AMD迫切的想要改进指令派发效率,以满足庞大规模流处理器的胃口,并且有效的提升备受诟病的曲面细分性能。AMD的做法就是继续保持现有架构不变,发现瓶颈/缺陷然后消除瓶颈/缺陷,这让笔者想起了一段老话:“新三年旧三年,缝缝补补又三年”。

0人已赞
第1页:前言:AMD“南方群岛”耀世而出第2页:GPU核心概述:半导体制造工艺之瓶颈第3页:皇位之争:AMD和NVIDIA的“巅峰对决”第4页:Radeon是一款好显卡,但不是颗好GPU第5页:成也微软败也微软:XBOX360阻碍显卡/游戏发展第6页:从X1900XTX谈起:用3:1黄金架构做计算第7页:HD2900XT走向不归路:超长指令集的弊端第8页:HD4870的救赎:暴力扩充流处理器第9页:HD5870的辉煌:在错误的道路上越走越远第10页:HD6870的一小步:双超线程分配处理器第11页:HD6970昙花一现:北方群岛5D改4D返璞归真第12页:GPU的一大步:NVIDIA G80图形架构解析第13页:真正的并行计算架构:GT200只为计算优化第14页:DX11与并行计算的完美结合:GF100/110的野心第15页:HD7970华丽登场:曲面细分性能大幅提升第16页:GCN架构的精髓:流处理器完全重新设计第17页:GCN架构的缓存:和GF100异曲同工第18页:Tihiti其他方面的改进:AMD真是个激进派第19页:GCN架构的真正意义:GPU计算效能大增第20页:浴火重生,新的开始新的期待第21页:呼之欲出:南方群岛全系列发售前瞻第22页:南方群岛应用篇:DDM Audio 解析第23页:南方群岛应用篇:EYEFINITY“2.0”解析第24页:南方群岛应用篇:HD3D技术解析第25页:南方群岛应用篇:AMD APP 加速并行技术第26页:AMD再度领跑:DX11.1规范详解第27页:首测显卡曝光:蓝宝HD7970第28页:首测显卡曝光:迪兰HD7970第29页:首测显卡曝光:镭风HD7970第30页:首测显卡曝光:讯景HD7970第31页:首测显卡曝光:讯景非公版HD7970第32页:首测显卡曝光:双敏HD7970第33页:其他首发显卡曝光汇总展示第34页:六核3960X客串:HD7970鏖战众卡皇第35页:DX10基准测试:《3DMark Vantage》 第36页:DX10游戏性能测试:《孤岛危机》第37页:DX10.1游戏测试:《孤岛惊魂2》第38页:DX11基准测试:《3DMark11》第39页:DX11游戏性能测试:《尘埃3》第40页:DX11游戏性能测试:《战地3》第41页:DX11游戏性能测试:《AVP》第42页:DX11游戏性能测试:《地铁 2033》第43页:DX11游戏性能测试:《孤岛危机2》第44页:曲面细分专项测试:《石巨人》第45页:曲面细分专项测试:《Heaven 2.5》第46页:PhysX特效专项测试:《BatmanAC》第47页:通用计算:纹理压缩/光线追踪第48页:通用计算:流体模拟/蒙特卡罗算法第49页:附加测试:AES加解密/像素纹理填充第50页:附加测试:HD7970功耗最低3W第51页:成绩汇总:HD7970 PK GTX580第52页:成绩汇总:HD7970 PK HD6970第53页:成绩汇总:HD7970 PK HD6990第54页:成绩汇总:HD7970 CrossFire交火效率第55页:成绩汇总:HD7970 超频效能测试第56页:全文总结:架构、效能与应用的全面胜利

关注我们

泡泡网

手机扫码关注