完美DX10!ATI新王者HD2900XT权威评测
ATI从R520到R580核心,将像素渲染单元翻了三倍之多,但纹理单元的数量和性能没有改进,因为ATI认为今后的游戏中纹理操作指令并没有增多,而且所占比重逐年下降。到了DX10时代,ATI为R600设计了恐怖的320个流处理器,那么纹理单元有何变化呢?
第四章\\第七节 Texture Units(纹理单元)
首先来看看R600的对手——G80在纹理单元部分有些类似于传统的管线式架构,只不过传统GPU是每个ALU绑定TMU,而G80是每组流处理器(16个)阵列绑定一组TMU&L1&L2,这种架构非常灵活,也很容易衍生出一系列产品。
与G80每组流处理器阵列绑定纹理单元&缓存不同,R600的纹理单元与流处理器部分是分开的,都受到Thread Processor的统一调度,这种架构沿用R520/R580的设计,但在结构部分改动特别大。
R600拥有4个纹理单元(R580也是4个,4×4结构),但在每个纹理单元内部包含了8个纹理寻址单元(黄色,共32个,R580的2倍),20个32位浮点纹理采样单元(橘黄色,共80个,R580的5倍),和4个纹理过滤单元(深红色,共16个,与R580相等)。
再来看看细节部分,可以看到8个黄色的纹理寻址单元和20个FP32纹理采样单元还要区分大小,这是因为顶点着色只能使用到其中4个小纹理寻址单元进行纹理采样,而像素/几何着色则可以使用全部的8个;顶点着色只能使用其中4个小FP32纹理采样单元,而像素/几何着色则可以使用全部的20个。
可能很多人都比较奇怪R600怎么会有这么多的FP32纹理采样单元,这是因为Shader Mode 4.0只能支持128Bit色彩精度(IEEE FP32)纹理采样,而且Textures和Samplers现在是各自独立的,程序会大量使用Sampler指令,因此独立、大规模的FP32纹理采样单元可以大幅提升纹理贴图效率和高分辨率纹理精度。
● 纹理单元特性:
FP16 HDR纹理全速双线性过滤(X1000系列的7倍)
FP32浮点纹理半速过滤
支持所有格式的三线性和各项异型过滤
驱动默认高品质各项异型过滤
软边阴影着色性能提高
支持分辨率高达8192×8192的纹理贴图
Fetch4纹理样本过滤器,采样速度提升四倍