开创视觉计算帝国GTX280/260权威评测
数量和规格上的扩充是一目了然的,不过GTX200核心不止是堆积晶体管和扩充规模而已,在一些技术细节部分,GTX200的改进也很明显。
第二章/第七节 GTX200图形架构细节方面的改进
为了能够更加胜任于未来的DX10游戏,NVIDIA针对图形渲染的三大重要环节进行了改良:几何着色、纹理单元和光栅单元。
● 改进几何着色性能
几何着色(Geometry Shader)是DX10的新增的着色器,它允许GPU来动态的生成和销毁几何图元数据,通过和新的数据流输出功能配合使用,许多以前无法实时使用的算法现在都可以在GPU中使用了。相比以往由CPU来处理简单的几何坐标变换,现在DX10渲染的效能增加不少(相同画质下DX10的效率高与DX9C),而且图形变换也可以做的更加复杂。
G8X相对于R6XX系列有着绝对的性能优势,但是它有个致命的缺点就是几何着色效能一般,这也成为ATI攻击NVIDIA的重要把柄,记得当时ATI在其内部演示PPT中指出,R600的理论几何着色性能可达G80的好几倍!
由于第一批DX10游戏对于几何着色的使用还不够广泛,因此G8X的弱点并没有体现出来,不过NVIDIA官方还是承认自己在几何着色方面确实不如ATI做的好。通过Rightmark 3D理论测试可以看出,HD3870的几何着色性能就要比8800GTX强不少,HD3870X2则更加强大。
在GTX200核心中,NVIDIA主要通过改进数据流输出(Stream Output)及帧缓冲(Frame Buffer Memory)的方式,有效地提高了几何着色器的效能。数据流输出也是DX10新增的特性,它允许数据从顶点着色器或几何着色器中直接被传入帧缓冲,这种输出可以被传回渲染流水线重新处理,当几何着色器与数据流输出结合使用时,GPU不仅可以处理新的图形算法,还可以提高一般运算和物理运算的效率。GTX200的帧缓冲达到了G80的6倍之多,由此可以允许更多的数据往返于着色器之间,避免重复性的数据处理,提升执行效能。
● 纹理单元进一步增强,但所占比率下降
G92核心总共拥有64个TA和64个TF(G80是32TA、64TF),而GTX200拥有80个TA和80个TF,数量上的增加只是表象,实际上最关键之处就是流处理器与纹理单元的比率:
G92与GTX200核心每个TPC拥有的纹理单元数目相同,但每个TPC所包括的流处理器数量增加了50%,如此一来流处理器与纹理单元的比率直接从2:1上升至3:1。这与ATI前两年所鼓吹的“3:1架构”不谋而合,虽然两家产品的架构相差十万八千里,但针对游戏的渲染模式作出调整的方针是一致的。
虽然纹理单元比例下降了,但GTX200核心的每个纹理单元的效能却增加了,通过优化指令执行的调度机制,在实际游戏中打开高倍各向异性纹理过滤时,GTX200的效率要比G9X高22%左右。
● 光栅单元规模增大,高倍抗锯齿成为可能
G8X/G9X的ROP单元可以说是革命性的,它首次对8xMSAA(多重采样抗锯齿)提供支持,当然还支持最高精度的SSAA(超级采样抗锯齿)和TSAA(透明抗锯齿),此外NVIDIA独创的CSAA(覆盖采样抗锯齿)让人眼前一亮,它能够以接近4xMSAA效能实现8xCSAA甚至16xCSAA的精度,让游戏画质得到了近乎免费的提升。
近两年时间过去了,现在我们可以发现绝大多数新出的游戏(尤其是DX10游戏)都内置了对CSAA技术的支持,玩家可以在普通MSAA的基础上选择性能损失很小、但精度提升很大的CSAA。相比之下对手ATI所倡导的CFAA(可编程过滤抗锯齿)由于自身问题(边缘模糊)几乎被玩家所无视,也没有任何游戏对CFAA提供内置支持。
不过G8X/G9X存在的问题就是8xMSAA的效率不高,在8xMSAA基础上衍生出来的两种CSAA(8xQAA和16xQAA)效率自然更差,在很多复杂游戏中几乎没有实用性。为此在GTX200这一代GPU中,NVIDIA将ROP规模从24个扩充至32个,单个ROP在执行8xMSAA Z轴取样操作时的速度可达上代的两倍,由此使得高倍AA的效能得到了明显改善,加之显存容量的带宽增加不少,现在的旗舰显卡可以在很多主流DX10游戏中开启8xMSAA(或8xQAA、16xQAA)流畅运行!