决战性能之巅！NV双芯旗舰GTX590评测-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

决战性能之巅！NV双芯旗舰GTX590评测

2011年03月25日 00:00作者：蒋尚文编辑：蒋尚文文章出处：泡泡网原创

讲完了GPC（内含光栅引擎）和SM（内含多形体引擎）之后，就轮到了GF100的最小单元——流处理器，现在NVIDIA将它称为CUDA核心。

9.4 GF100图形架构：第三代流处理器的诸多改进

论单个CUDA核心，GF100与GT200/G80的基本功能是相同的，沿用了之前的1D标量流处理器设计，无论程序要求什么类型的指令，都可以通过线程分配器打散之后交给CUDA核心处理，从而保证任何指令都能获得100%的执行效率。

GF100的SM与CUDA结构

虽说像素和顶点等4D指令依然是主力，但在进入DX10时代后Z缓冲区（1D）或纹理存取（2D）等非4D指令所占比重越来越多，此时NVIDIA的标量流处理器架构处理起来依然如鱼得水。

● CUDA核心的改进：

每一个CUDA核心都拥有一个完全流水线化的整数算术逻辑单元（ALU）以及浮点运算单元（FPU）。GF100采用了最新的IEEE754-2008浮点标准，2008标准的主要改进就是支持多种类型的舍入算法。新标准可以只在最终获取数据时进行四舍五入，而以往的标准是每进行一步运算都要四舍五入一次，最后会产生较大的误差。

GF100能够为32bit单精度和64bit双精度运算提供FMA（Fused Multiply-Add，积和熔加）指令，而GT200只在64bit时才能提供。FMA不仅适用于高性能计算领域，事实上在渲染紧密重叠的三角形时，新的FMA算法能够最大限度的减少渲染误差。

● 16个载入/存储单元：

每一个SM都拥有16个载入/存储单元，从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和存储到高速缓存或显存中。

● 四个特殊功能单元：

GF100每个SM内部还拥有额外的四个SFU（Special Function Units，特殊功能单元），可用于执行抽象的指令，例如正弦、余弦、倒数和平方根，图形插值指令也在SFU上执行。每个SFU在一个时钟周期内针对每个线程均可执行一条指令，一个Warp（32个线程）的执行时间可超过八个时钟周期。SFU流水线从分派单元中分离出来，让分派单元能够在SFU处于占用状态时分发给其他执行单元。复杂的程序着色器在特殊功能专用硬件上的运行优势尤为明显。

● 双Warp调度器：

SM可对32个为一组的并行线程（又叫做Warp）进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元。这样就能够同时发出和执行两个Warp。

GF100的双Warp调度器可选出两个Warp，从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的，所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行（Dual-issue）模式，GF100能够实现接近峰值的硬件性能。

大多数指令都能够实现双路执行，两条整数指令、两条浮点指令或者整数、浮点、载入、存储的混合指令以及SFU指令均可同时执行。但双精度指令不支持与其它指令同时分派。

4人已赞

第1页：不可思议的存在：GTX590发布第2页：第一章：NVIDIA GTX590产品解析第3页：首发产品：华硕GTX590 第4页：首发产品：索泰GTX590极速版第5页：首发产品：映众GTX590 第6页：首发产品：七彩虹iGame590 第7页：首发产品：铭瑄GTX590 第8页：首发产品：盈通GTX590 第9页：三大双芯卡皇实物对比第10页：第二章：GTX590游戏3D性能测试第11页：DX10理论测试：《3DMark Vantage》第12页：DX11理论测试：《3DMark 11》第13页：Tessellation测试：《Heaven 2.1》第14页：DX11理论测试：《石巨人》第15页：DX11游戏测试：《尘埃2》第16页：DX11游戏测试：《异形大战铁血战士》第17页：DX11游戏测试：《地铁2033》第18页：DX11游戏：《失落星球2》第19页：DX11游戏：《H.A.W.X.2》第20页：DX10.1游戏测试：《孤岛惊魂2》第21页：DX10游戏测试：《孤岛危机：弹头》第22页：DX10游戏测试：《冲突世界》第23页：DX9游戏测试：《街头霸王IV》第24页：PhysX测试：《黑手党II》第25页：CUDA视频转码测试第26页：温度、功耗、噪音全面领先对手第27页：性能测试总结第28页：第三章：NVIDIA附加图形技术之灵活应用第29页：特色技术应用：NV 3D Vison Srround 第30页：虚拟现实必经之路：CUDA光线追踪第31页：第四章：最强游戏即时渲染画面赏析第32页：DX10基准：《3DMark Vantage》画面赏析第33页：DX11游戏：《HAWX2》画面赏析第34页：DX11游戏：《地铁2033》画面赏析第35页：Tessellation软件：《Heaven》画面赏析第36页：Tessellation软件：《石巨人》画面赏析第37页：DX11基准：《3DMark11》画面赏析第38页：第五章：令人兴奋的DirectX API发展历程第39页：号称实现“一切图形特效”的DX9C 第40页：不应备受冷遇的DX10 第41页：第六章：揭秘DX11技术革新第42页：DX11五大革新之：Shader Model 5.0 第43页：DX11五大革新之：Multi-Threading 第44页：DX11五大革新之：Texture Compression 第45页：第七章争论漩涡中心的Tessellation 第46页：Tessellation（曲面细分）的前世今生第47页：Tessellation不仅仅会“细分曲面第48页：当Tessellation遭遇“法线贴图”第49页：曲面细分究极奥义动起来更精彩第50页：当Tessellation遭遇“物理运算”第51页：第八章：DX11核心技术：DirectCompute11 第52页：CUDA和Stream之争的内幕第53页：DirectCompute 10/11版本间的区别第54页：DirectCompute11的妙用：顺序无关透明第55页：DirectCompute11的妙用：电影级景深第56页：DirectCompute11的妙用：高清晰环境光第57页：第九章：GF100/110图形架构深入解析第58页：GF100构架八倍于上代旗舰的几何性能第59页：GF100/110和Cayman图形架构对比第60页：GF100/110图形架构：强大的多形体引擎第61页：GF100/110图形架构：第三代流处理器第62页：GF100/110图形架构：精兵简政的纹理单元第63页：GF100/110图形架构：一级缓存与二级缓存第64页：GF100/110图形架构：光栅单元高倍抗锯齿第65页：第十章：适合并行计算的Fermi架构第66页：Fermi计算架构：GPU的未来是并行计算第67页：Fermi计算架构：高效的双精度性能第68页：Fermi计算架构：首次支持C++编程第69页：Fermi计算架构：首次支持显存ECC 第70页：Fermi计算架构：NVIDIA Nexus开发平台第71页：全文总结：该胜不胜与当败不败第72页：附录：追寻那些曾经的双核卡皇第73页：Rage Fury Maxx——曙光女神第74页：昙花一现的挑战者——XGI Volari V8/V5 第75页：不为人知的经典——双核心9800Pro 第76页：普及双核心——影驰双核7600GT 第77页：GeForce 7950GX2——双拳出击誓夺王位第78页：ATI双核心——Gemini技术第79页：双G92核心的怒吼——GeForce 9800GX2 第80页：55nm王者——GeForce GTX 295

决战性能之巅！NV双芯旗舰GTX590评测

关注我们