决战性能之巅！NV双芯旗舰GTX590评测-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

决战性能之巅！NV双芯旗舰GTX590评测

2011年03月25日 00:00作者：蒋尚文编辑：蒋尚文文章出处：泡泡网原创

自从NVIDIA于1999年发布第一颗GPU（GeForce 256）开始，GPU就已经与并行计算结下了不解之缘，GPU被扩展成为可进行浮点运算的可编程处理器，而不仅仅是图形处理器。GPU无论计算能力还是内存带宽都要远胜于CPU，其性能不应该被限制在游戏和3D渲染之中。这也是Fermi架构和竞争对手GPU架构最大的本质区别。想通过目前为止最优秀的GPU技术一窥未来图形芯片的发展方向吗？本章将从浅显到深刻，为大家打开通用计算GPU的大门！

10.1 异构计算的威力和不足

GPU的性能远远超出了CPU的想象

针对非图形应用程序的GPU编程的探索始于2003年。通过使用高级绘制语言如DirectX、OpenGL和Cg，将多种数据平行算法导入GPU。诸如蛋白质折叠、股票期权定价、SQL查询及MRI重建等问题都能通过GPU获得非凡的加速表现。早期将图形API用于通用计算的努力被称之为GPGPU（GPU通用计算）。

虽然GPGPU模型展现了不俗的加速性能，但仍然有不少缺陷：

首先，它要求程序员全面掌握与图形API以及GPU架构相关的知识；
其次，问题必须以顶点坐标、纹理及着色器程序的形式表达出来，这就大大增加了程序的复杂程度；第三，不支持基础的编程特性如面向内存的随机读写，极大地限制了编程模型；最后，缺乏双精度支持（直到最近才具备这一特性）意味着有些科学应用程序将不能在GPU上运行。

为了解决这些问题，NVIDIA采用了两种关键技术——G80统一图形及计算架构和CUDA。CUDA是一种软硬件架构，可以使用多种高级编程语言来针对GPU进行编程。这两种技术代表着一种新的应用GPU的方式。跟以前通过编程将专门的图形单元同图形API结合到一起不同，程序员可以利用CUDA的扩展来编写C语言程序，并面向一个通用的平行处理器。NVIDIA将这种新的GPU编程方式称为“GPU计算”，它意味着更广泛的应用程序支持、更多编程语言的支持以及同早期GPGPU编程模型的彻底分离。

G80标量流处理器架构的诞生使得全新的GPU计算成为可能，并创造了无数项第一：

    第一款支持C语言的GPU，它让程序员可以利用GPU的运算能力而无需掌握一门新的编程语言；
    第一款以单一的非统一的处理器取代分离式顶点及像素管线的GPU，这种处理器可以执行顶点、几何、像素及计算程序；
    第一款利用标量线程处理器的GPU，从而使得程序员无需手工操控向量寄存器。

G80还采用了单指令、多线程（SIMT）的执行模型，多个独立线程同时执行单个指令，并针对线程间通信采用了共用存储器和障栅同步。

之后NVIDIA又对G80架构进行了重大改进，第二代统一架构GT200将流处理器的数量从128增加到了240个。每一个处理器的寄存器数量增倍，使得任何时候都可以在芯片上处理更多的线程。采用了硬件存储器存取合并技术以提高存储器存取的效率。此外，还采用了双精度浮点运算支持以满足那些科学及高性能计算（HPC）应用程序的需求。

在设计每款新一代GPU时，都必须遵循这样的原则——提高当前应用程序的性能及GPU的可编程性。应用程序的速度提高会立竿见影地带来诸多好处。正是GPU在可编程性方面的不断进步才使得它演变成为当前最通用的并行处理器。也正是基于这样的理念，GT200架构的继任者又被赋予了更多新的功能。

4人已赞

第1页：不可思议的存在：GTX590发布第2页：第一章：NVIDIA GTX590产品解析第3页：首发产品：华硕GTX590 第4页：首发产品：索泰GTX590极速版第5页：首发产品：映众GTX590 第6页：首发产品：七彩虹iGame590 第7页：首发产品：铭瑄GTX590 第8页：首发产品：盈通GTX590 第9页：三大双芯卡皇实物对比第10页：第二章：GTX590游戏3D性能测试第11页：DX10理论测试：《3DMark Vantage》第12页：DX11理论测试：《3DMark 11》第13页：Tessellation测试：《Heaven 2.1》第14页：DX11理论测试：《石巨人》第15页：DX11游戏测试：《尘埃2》第16页：DX11游戏测试：《异形大战铁血战士》第17页：DX11游戏测试：《地铁2033》第18页：DX11游戏：《失落星球2》第19页：DX11游戏：《H.A.W.X.2》第20页：DX10.1游戏测试：《孤岛惊魂2》第21页：DX10游戏测试：《孤岛危机：弹头》第22页：DX10游戏测试：《冲突世界》第23页：DX9游戏测试：《街头霸王IV》第24页：PhysX测试：《黑手党II》第25页：CUDA视频转码测试第26页：温度、功耗、噪音全面领先对手第27页：性能测试总结第28页：第三章：NVIDIA附加图形技术之灵活应用第29页：特色技术应用：NV 3D Vison Srround 第30页：虚拟现实必经之路：CUDA光线追踪第31页：第四章：最强游戏即时渲染画面赏析第32页：DX10基准：《3DMark Vantage》画面赏析第33页：DX11游戏：《HAWX2》画面赏析第34页：DX11游戏：《地铁2033》画面赏析第35页：Tessellation软件：《Heaven》画面赏析第36页：Tessellation软件：《石巨人》画面赏析第37页：DX11基准：《3DMark11》画面赏析第38页：第五章：令人兴奋的DirectX API发展历程第39页：号称实现“一切图形特效”的DX9C 第40页：不应备受冷遇的DX10 第41页：第六章：揭秘DX11技术革新第42页：DX11五大革新之：Shader Model 5.0 第43页：DX11五大革新之：Multi-Threading 第44页：DX11五大革新之：Texture Compression 第45页：第七章争论漩涡中心的Tessellation 第46页：Tessellation（曲面细分）的前世今生第47页：Tessellation不仅仅会“细分曲面第48页：当Tessellation遭遇“法线贴图”第49页：曲面细分究极奥义动起来更精彩第50页：当Tessellation遭遇“物理运算”第51页：第八章：DX11核心技术：DirectCompute11 第52页：CUDA和Stream之争的内幕第53页：DirectCompute 10/11版本间的区别第54页：DirectCompute11的妙用：顺序无关透明第55页：DirectCompute11的妙用：电影级景深第56页：DirectCompute11的妙用：高清晰环境光第57页：第九章：GF100/110图形架构深入解析第58页：GF100构架八倍于上代旗舰的几何性能第59页：GF100/110和Cayman图形架构对比第60页：GF100/110图形架构：强大的多形体引擎第61页：GF100/110图形架构：第三代流处理器第62页：GF100/110图形架构：精兵简政的纹理单元第63页：GF100/110图形架构：一级缓存与二级缓存第64页：GF100/110图形架构：光栅单元高倍抗锯齿第65页：第十章：适合并行计算的Fermi架构第66页：Fermi计算架构：GPU的未来是并行计算第67页：Fermi计算架构：高效的双精度性能第68页：Fermi计算架构：首次支持C++编程第69页：Fermi计算架构：首次支持显存ECC 第70页：Fermi计算架构：NVIDIA Nexus开发平台第71页：全文总结：该胜不胜与当败不败第72页：附录：追寻那些曾经的双核卡皇第73页：Rage Fury Maxx——曙光女神第74页：昙花一现的挑战者——XGI Volari V8/V5 第75页：不为人知的经典——双核心9800Pro 第76页：普及双核心——影驰双核7600GT 第77页：GeForce 7950GX2——双拳出击誓夺王位第78页：ATI双核心——Gemini技术第79页：双G92核心的怒吼——GeForce 9800GX2 第80页：55nm王者——GeForce GTX 295

决战性能之巅！NV双芯旗舰GTX590评测

关注我们