泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

决战性能之巅!NV双芯旗舰GTX590评测

    在竞争对手还在游戏性能方面苦苦追赶之时,NVIDIA已经在朝着更高的目标迈进了。3D和游戏当然是一个重要方面,是GPU的老本行,而并行计算则是GPU的未来,两者不但不冲突而且是相辅相成的,NVIDIA的目的是游戏和计算同步发展。

10.2 适合科学计算的Fermi架构

    在前文中笔者提到过,GF100是近年来GPU架构变化最大的一次,它不仅仅体现在图形架构方面,其实他在并行计算架构方面的改进更彻底,现在要讲的才是Fermi架构的精华部分。

    G80是统一图形及并行计算的雏形,而GT200是对G80在性能及功能性方面的扩展。而对于Fermi,NVIDIA利用了从之前两款处理器以及为它们所编写的应用程序所获得的经验,并采用了一种全新的方法而设计和创建了世界上第一款计算GPU。在为Fermi的研发开展准备工作时,NVIDIA听取了自推出G80和GT200以来大量从事GPU计算的用户的反馈,并将以下关键领域作为改进的重点:

1. 提高双精度浮点运算的性能——高性能计算与科学计算很少用到单精度。

2. ECC支持——ECC使得GPU计算用户在数据中心中可放心地部署大量的GPU,并确保数据敏感型应用程序如医学影像及财务期权定价等不出现内存错误。

3. 真正的缓存层次——有些并行算法无法使用GPU的共用存储器,用户需要一个真正的缓存架构以提供帮助。

4. 更大的共用存储空间——许多CUDA程序员需要超过16KB的共用存储器来实现应用程序的加速。

5. 更快速的情境转换——用户需要在应用程序之间实现更快速的情境转换,以及图形与计算应用之间更快的互操作。

6. 更快速的原子操作——用户需要为他们的并行算法实现更快速的“读-修改-写”原子操作。

    针对以上的这些需求,Fermi工作小组设计了一款处理器,总计算能力得到了很大的提升,通过架构上的创新还大大增加了可编程性以及计算效率。Fermi在架构上的亮点体现在:

第三代流处理器簇(SM)

每个SM有32个CUDA核,是GT200的4倍
双精度浮点运算的峰值性能是GT200的8倍
双Warp调度器同时调度和分配来自两个不同warp的指令
64KB的RAM,可配置为共享缓存+L1缓存

第二代并行线程执行ISA

统一寻址空间,提供完全的C++支持
针对OpenCL和DirectCompute做优化处理
完全的IEEE 754-2008 32-bit/64-bit精度支持
完全的32-bit整数路径,64-bit扩展
内存存取指令支持向64-bit寻址的转换
通过Predication提升性能

改进的内存子系统

并行DataCacheTM 层次,拥有可配置的L1和统一的L2缓存
第一款提供ECC内存支持的GPU
显著提升原子内存操作性能

NVIDIA TM引擎

应用程序情境切换性能10倍于上代产品
同时执行多个核心程序
线程块乱序执行
双重叠式内存传输引擎

4人已赞
第1页:不可思议的存在:GTX590发布第2页:第一章:NVIDIA GTX590产品解析第3页:首发产品:华硕GTX590第4页:首发产品:索泰GTX590极速版第5页:首发产品:映众GTX590第6页:首发产品:七彩虹iGame590第7页:首发产品:铭瑄GTX590第8页:首发产品:盈通GTX590第9页:三大双芯卡皇实物对比第10页:第二章:GTX590游戏3D性能测试第11页:DX10理论测试:《3DMark Vantage》第12页:DX11理论测试:《3DMark 11》第13页:Tessellation测试:《Heaven 2.1》第14页:DX11理论测试:《石巨人》第15页:DX11游戏测试:《尘埃2》第16页:DX11游戏测试:《异形大战铁血战士》第17页:DX11游戏测试:《地铁2033》第18页:DX11游戏:《失落星球2》第19页:DX11游戏:《H.A.W.X.2》第20页:DX10.1游戏测试:《孤岛惊魂2》第21页:DX10游戏测试:《孤岛危机:弹头》第22页:DX10游戏测试:《冲突世界》第23页:DX9游戏测试:《街头霸王IV》第24页:PhysX测试:《黑手党II》第25页:CUDA视频转码测试第26页:温度、功耗、噪音全面领先对手第27页:性能测试总结第28页:第三章:NVIDIA附加图形技术之灵活应用第29页:特色技术应用:NV 3D Vison Srround第30页:虚拟现实必经之路:CUDA光线追踪第31页:第四章:最强游戏即时渲染画面赏析第32页:DX10基准:《3DMark Vantage》画面赏析第33页:DX11游戏:《HAWX2》画面赏析第34页:DX11游戏:《地铁2033》画面赏析第35页:Tessellation软件:《Heaven》 画面赏析第36页:Tessellation软件:《石巨人》画面赏析第37页:DX11基准:《3DMark11》画面赏析第38页:第五章:令人兴奋的DirectX API发展历程第39页:号称实现“一切图形特效”的DX9C第40页:不应备受冷遇的DX10第41页:第六章:揭秘DX11技术革新第42页:DX11五大革新之:Shader Model 5.0第43页:DX11五大革新之:Multi-Threading第44页:DX11五大革新之:Texture Compression第45页:第七章 争论漩涡中心的Tessellation第46页:Tessellation(曲面细分)的前世今生第47页:Tessellation不仅仅会“细分曲面第48页:当Tessellation遭遇“法线贴图”第49页:曲面细分究极奥义 动起来更精彩第50页:当Tessellation遭遇“物理运算”第51页:第八章:DX11核心技术:DirectCompute11第52页:CUDA和Stream之争的内幕第53页:DirectCompute 10/11版本间的区别第54页:DirectCompute11的妙用:顺序无关透明第55页:DirectCompute11的妙用:电影级景深第56页:DirectCompute11的妙用:高清晰环境光第57页:第九章:GF100/110图形架构深入解析第58页:GF100构架八倍于上代旗舰的几何性能第59页:GF100/110和Cayman图形架构对比第60页:GF100/110图形架构:强大的多形体引擎第61页:GF100/110图形架构:第三代流处理器第62页:GF100/110图形架构:精兵简政的纹理单元第63页:GF100/110图形架构:一级缓存与二级缓存第64页:GF100/110图形架构:光栅单元高倍抗锯齿第65页:第十章:适合并行计算的Fermi架构第66页:Fermi计算架构:GPU的未来是并行计算第67页:Fermi计算架构:高效的双精度性能第68页:Fermi计算架构:首次支持C++编程第69页:Fermi计算架构:首次支持显存ECC第70页:Fermi计算架构:NVIDIA Nexus开发平台第71页:全文总结:该胜不胜与当败不败第72页:附录:追寻那些曾经的双核卡皇第73页:Rage Fury Maxx——曙光女神第74页:昙花一现的挑战者——XGI Volari V8/V5第75页:不为人知的经典——双核心9800Pro第76页:普及双核心——影驰双核7600GT第77页:GeForce 7950GX2——双拳出击誓夺王位第78页:ATI双核心——Gemini技术第79页:双G92核心的怒吼——GeForce 9800GX2第80页:55nm王者——GeForce GTX 295

关注我们

泡泡网

手机扫码关注