泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

决战性能之巅!NV双芯旗舰GTX590评测

    讲完了GPC(内含光栅引擎)和SM(内含多形体引擎)之后,就轮到了GF100的最小单元——流处理器,现在NVIDIA将它称为CUDA核心。

9.4 GF100图形架构:第三代流处理器的诸多改进

    论单个CUDA核心,GF100与GT200/G80的基本功能是相同的,沿用了之前的1D标量流处理器设计,无论程序要求什么类型的指令,都可以通过线程分配器打散之后交给CUDA核心处理,从而保证任何指令都能获得100%的执行效率。

GF100的SM与CUDA结构

    虽说像素和顶点等4D指令依然是主力,但在进入DX10时代后Z缓冲区(1D)或纹理存取(2D)等非4D指令所占比重越来越多,此时NVIDIA的标量流处理器架构处理起来依然如鱼得水。

CUDA核心的改进:

    每一个CUDA核心都拥有一个完全流水线化的整数算术逻辑单元(ALU)以及浮点运算单元(FPU)。GF100采用了最新的IEEE754-2008浮点标准,2008标准的主要改进就是支持多种类型的舍入算法。新标准可以只在最终获取数据时进行四舍五入,而以往的标准是每进行一步运算都要四舍五入一次,最后会产生较大的误差。

    GF100能够为32bit单精度和64bit双精度运算提供FMA(Fused Multiply-Add,积和熔加)指令,而GT200只在64bit时才能提供。FMA不仅适用于高性能计算领域,事实上在渲染紧密重叠的三角形时,新的FMA算法能够最大限度的减少渲染误差。

16个载入/存储单元:

    每一个SM都拥有16个载入/存储单元,从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和存储到高速缓存或显存中。

四个特殊功能单元:

    GF100每个SM内部还拥有额外的四个SFU(Special Function Units,特殊功能单元),可用于执行抽象的指令,例如正弦、余弦、倒数和平方根,图形插值指令也在SFU上执行。每个SFU在一个时钟周期内针对每个线程均可执行一条指令,一个Warp(32个线程)的执行时间可超过八个时钟周期。SFU流水线从分派单元中分离出来,让分派单元能够在SFU处于占用状态时分发给其他执行单元。复杂的程序着色器在特殊功能专用硬件上的运行优势尤为明显。

双Warp调度器:

    SM可对32个为一组的并行线程(又叫做Warp)进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元。这样就能够同时发出和执行两个Warp。

    GF100的双Warp调度器可选出两个Warp,从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的,所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行(Dual-issue)模式,GF100能够实现接近峰值的硬件性能。

    大多数指令都能够实现双路执行,两条整数指令、两条浮点指令或者整数、浮点、载入、存储的混合指令以及SFU指令均可同时执行。但双精度指令不支持与其它指令同时分派。

4人已赞
第1页:不可思议的存在:GTX590发布第2页:第一章:NVIDIA GTX590产品解析第3页:首发产品:华硕GTX590第4页:首发产品:索泰GTX590极速版第5页:首发产品:映众GTX590第6页:首发产品:七彩虹iGame590第7页:首发产品:铭瑄GTX590第8页:首发产品:盈通GTX590第9页:三大双芯卡皇实物对比第10页:第二章:GTX590游戏3D性能测试第11页:DX10理论测试:《3DMark Vantage》第12页:DX11理论测试:《3DMark 11》第13页:Tessellation测试:《Heaven 2.1》第14页:DX11理论测试:《石巨人》第15页:DX11游戏测试:《尘埃2》第16页:DX11游戏测试:《异形大战铁血战士》第17页:DX11游戏测试:《地铁2033》第18页:DX11游戏:《失落星球2》第19页:DX11游戏:《H.A.W.X.2》第20页:DX10.1游戏测试:《孤岛惊魂2》第21页:DX10游戏测试:《孤岛危机:弹头》第22页:DX10游戏测试:《冲突世界》第23页:DX9游戏测试:《街头霸王IV》第24页:PhysX测试:《黑手党II》第25页:CUDA视频转码测试第26页:温度、功耗、噪音全面领先对手第27页:性能测试总结第28页:第三章:NVIDIA附加图形技术之灵活应用第29页:特色技术应用:NV 3D Vison Srround第30页:虚拟现实必经之路:CUDA光线追踪第31页:第四章:最强游戏即时渲染画面赏析第32页:DX10基准:《3DMark Vantage》画面赏析第33页:DX11游戏:《HAWX2》画面赏析第34页:DX11游戏:《地铁2033》画面赏析第35页:Tessellation软件:《Heaven》 画面赏析第36页:Tessellation软件:《石巨人》画面赏析第37页:DX11基准:《3DMark11》画面赏析第38页:第五章:令人兴奋的DirectX API发展历程第39页:号称实现“一切图形特效”的DX9C第40页:不应备受冷遇的DX10第41页:第六章:揭秘DX11技术革新第42页:DX11五大革新之:Shader Model 5.0第43页:DX11五大革新之:Multi-Threading第44页:DX11五大革新之:Texture Compression第45页:第七章 争论漩涡中心的Tessellation第46页:Tessellation(曲面细分)的前世今生第47页:Tessellation不仅仅会“细分曲面第48页:当Tessellation遭遇“法线贴图”第49页:曲面细分究极奥义 动起来更精彩第50页:当Tessellation遭遇“物理运算”第51页:第八章:DX11核心技术:DirectCompute11第52页:CUDA和Stream之争的内幕第53页:DirectCompute 10/11版本间的区别第54页:DirectCompute11的妙用:顺序无关透明第55页:DirectCompute11的妙用:电影级景深第56页:DirectCompute11的妙用:高清晰环境光第57页:第九章:GF100/110图形架构深入解析第58页:GF100构架八倍于上代旗舰的几何性能第59页:GF100/110和Cayman图形架构对比第60页:GF100/110图形架构:强大的多形体引擎第61页:GF100/110图形架构:第三代流处理器第62页:GF100/110图形架构:精兵简政的纹理单元第63页:GF100/110图形架构:一级缓存与二级缓存第64页:GF100/110图形架构:光栅单元高倍抗锯齿第65页:第十章:适合并行计算的Fermi架构第66页:Fermi计算架构:GPU的未来是并行计算第67页:Fermi计算架构:高效的双精度性能第68页:Fermi计算架构:首次支持C++编程第69页:Fermi计算架构:首次支持显存ECC第70页:Fermi计算架构:NVIDIA Nexus开发平台第71页:全文总结:该胜不胜与当败不败第72页:附录:追寻那些曾经的双核卡皇第73页:Rage Fury Maxx——曙光女神第74页:昙花一现的挑战者——XGI Volari V8/V5第75页:不为人知的经典——双核心9800Pro第76页:普及双核心——影驰双核7600GT第77页:GeForce 7950GX2——双拳出击誓夺王位第78页:ATI双核心——Gemini技术第79页:双G92核心的怒吼——GeForce 9800GX2第80页:55nm王者——GeForce GTX 295

关注我们

泡泡网

手机扫码关注