图形与计算那些事 AMD次世代架构解析-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

图形与计算那些事 AMD次世代架构解析

2012年01月06日 05:07作者：孙敏杰编辑：孙敏杰文章出处：泡泡网原创

下面我们就来看看R580的核心架构，也就是当年的王者X1900XTX/X1950XTX所使用的GPU，后来次高端RV570核心（X1950Pro）的架构也类似。

R580：8个顶点着色单元、48个像素着色单元、16个纹理单元

DX9C显卡还没有统一渲染架构的概念（XBOX360的Xenos是个特例），所以R580依然是顶点与像素分离式的设计。当时的GPU核心部分被称为管线，比如7800GTX拥有24条像素渲染管线，但X1900XTX却不能称为拥有48条像素渲染管线，因为它的像素与纹理单元数量不对等。

GPU的工作原理：

显卡的渲染流程是通过顶点单元构建模型骨架，纹理单元处理纹理贴图，像素单元处理光影特效，光栅单元负责最终的像素输出。

GPU的管线是什么：

在R580之前，GPU的像素单元与纹理单元还有光栅单元是绑定在一起的，数量一样多，整个渲染过程就是流水线作业，因此像素与纹理加起来称为一条管线。

什么是3:1架构？

R520核心（X1800XT）的像素与纹理都是16个，但R580核心在纹理单元维持16个不变的情况下，把像素单元扩充了3倍达到了48个之多。ATI研发工程师发现新一代游戏中使用像素着色单元的频率越来越高，各种光影特效（尤其HDR）吃掉了像素着色单元的所有资源，而纹理单元的负载并不高，继续维持像素与纹理1:1的设计就是浪费资源，于是ATI根据3D游戏引擎的发展趋势做出了改变，并把R580这种不对等的架构称之为3:1黄金架构，管线的概念至此消失。

像素(算数)与纹理的比例逐年提高

当年ATI前瞻性的架构在部分新游戏中得到了应验，比如在优品飞车10、细胞分裂4、上古卷轴4等游戏中X1900XTX的性能远胜7900GTX。此外ATI专为HDR+AA优化的架构与驱动也让ATI风光无限。

但事实上，从1:1大跃进到3:1有点太激进了，在包括新游戏在内的绝大多数主流游戏中，都无法充分利用多达48个像素着色单元的能力。于是ATI的工程师们又有了新的想法：何不用这些像素单元来做一些非图形渲染的计算呢？像素单元的核心其实就是ALU（算术逻辑单元），拥有十分可观的浮点运算能力。

蛋白质折叠分布式计算开启GPU计算大门：

2006年9月，在X1900XTX发布半年之后，ATI与斯坦福大学相关科研人员合作，开发了首款使用GPU浮点运算能力做非图形渲染的软件——Folding @ Home第一代GPU运算客户端。

Folding@home是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程。最开始F@H仅支持CPU，后来加入了对PS3游戏机的支持，但同样是使用内置的CELL处理器做运算。F@H因ATI的加入为GPU计算翻开了新的一页，当然F@H加入了对NVIDIA DX10 GPU的支持那是后话。

什么是通用计算？

当时的GPU计算被称为GPGPU（General Purpose GPU），传统的图形处理器可以被用来做通用目的计算项目。所谓通用计算的大体流程就是：待处理的数据—〉转换成图形数据—〉GPU处理—〉处理后的图形数据—〉转换成所需数据。其实通用计算就是把数据转换为GPU能够“看懂”的图形数据，实际上是作为虚拟硬件层与GPU通讯，由于需要前后两次编译的过程，因此想要利用GPU强大的浮点运算能力，需要很强大的编译器，程序员的开发难度可想而知，CPU的运算量也比较大。

除了蛋白质折叠分布式计算外，当年ATI还开发了AVIVO Video Converter这款使用GPU加速视频转码的小工具，虽然效果一般，但也算是开了个好头。

虽然GPU通用计算的实现难度很大，但至少GPU实现了非图形计算的目的，而且其性能确实要比当时的CPU快十几倍。小有所成的ATI被胜利冲昏了头脑，他们认为自己研发出了非常先进的、最有前瞻性的GPU架构，还找到了让GPU进行通用计算的捷径、还有了AMD这座靠山……最终促使AMD-ATI做出了保守的决定——下代GPU继续沿用R580的架构，不做深层次的改动。

2人已赞

第1页：Radeon是一款好显卡，但不是颗好GPU 第2页：成也微软败也微软：XBOX360阻碍显卡/游戏发展第3页：从X1900XTX谈起：用3:1黄金架构做计算第4页：HD2900XT走向不归路：超长指令集的弊端第5页：HD4870的救赎：暴力扩充流处理器第6页：HD5870的辉煌：在错误的道路上越走越远第7页：HD6870的一小步：双超线程分配处理器第8页：HD6970昙花一现：北方群岛5D改4D返璞归真第9页：GPU的一大步：NVIDIA G80图形架构解析第10页：真正的并行计算架构：GT200只为计算优化第11页：DX11与并行计算的完美结合：GF100/110的野心第12页：HD7970华丽登场：曲面细分性能大幅提升第13页：GCN架构的精髓：流处理器完全重新设计第14页：GCN架构的缓存：照搬GF100的设计？第15页：Tihiti其他方面的改进：AMD真是个激进派第16页：GCN架构的真正意义：GPU计算效能大增第17页：全文总结：浴火重生，新的开始新的期待

图形与计算那些事 AMD次世代架构解析

关注我们