泡泡网显卡频道 PCPOP首页      /      显卡     /      评测    /    正文

决战性能之巅!NV双芯旗舰GTX590评测

10.4 统一寻址空间实现完全的C++支持

    Fermi是第一个支持新并行线程执行(PTX)2.0指令集的体系结构。PTX是级别较低的虚拟机和ISA,目的是为了支持并行线程处理器的运作。在程序安装的时候,PTX指令会被GPU驱动转译成机器代码。

    PTX的主要目标包括:

1. 提供一个能跨越数代GPU的稳定ISA
2. 让经过编译的应用程序充分利用GPU的性能
3. 提供一个支持 C、C++、Fortran以及其他编译器对象并且与机器无关的ISA
4. 为应用程序和中间件开发者提供一个代码分发ISA
5. 为优化映射PTX 代码至对象机器的代码产生器和转移器提供一个一般化的ISA
6. 让库以及性能核心程序(performance kernel)代码编写更容易
7. 提供一个可以跨越GPU内核规模(从几个到多个)的可伸缩编程模型

    PTX2.0具备许多新的特性,大大提升了GPU(图形处理器)的可编程性、精度及性能。这些特性包括:完全的IEEE 32位浮点精度;所有变量和指针都有统一的寻址空间;64位寻址;以及针对OpenCL和DirectCompute的新指令。尤为重要的是,PTX2.0完全支持C++编程语言。

    Fermi和PTX 2.0 ISA采用统一的寻址空间,将存取操作的三个不同的寻址空间(线程的私有局部空间、线程块的共用空间、全局空间)进行了统一。在PTX 1.0中,存取指令都具体对应这三个寻址空间中的一个,程序就可以在一个编译时确知的指定寻址空间中存取数值。这样很难为C和C++指针提供完全的支持,因为一个指针的目标寻址空间在编译时可能根本无从知晓而只有在运行时才能动态确定。

    PTX 2.0把三个寻址空间都统一为一个单独、连续的寻址空间,因此只需一套存取指令,而不再需要三套针对不同寻址空间(局部的、共用的及全局存储器)的存取指令。统一寻址空间为40位,可以支持1 Terabyte的可设定地址的内存,而存取ISA支持64位以适应未来的增长。

    采用统一的寻址空间让Fermi可以真正支持C++程序。在C++中,所有的变量和函数都存在于对象中,而对象又通过指针进行传递。有了PTX 2.0,就可以利用统一的指针传递任意存储空间里的对象。Fermi的硬件地址转译单元自动将指针参考映射到正确的存储空间。

    Fermi和PTX 2.0 ISA还支持C++虚拟函数、函数指针、针对动态对象分配、解除分配的“new”和“delete”操作以及针对异常处理的“try”和“catch” 操作。

针对OpenCL和DirectCompute的优化

    OpenCL及DirectCompute同CUDA的编程模型有非常密切的对应关系,CUDA里的线程、线程块、线程块格、障栅同步、共用存储器、全局存储器以及原子操作都能在OpenCL和DirectCompute中看到,可以说OpenCL和DirectCompute的整个框架就是照搬CUDA的,因此基于CUDA的Fermi天生就已经为OpenCL和DirectCompute提供了优化。

    此外,Fermi还为OpenCL和DirectCompute的表面(surface)格式转换指令提供了硬件支持,允许图形与计算程序能简单地对相同的数据进行操作。PTX 2.0 ISA还为DirectCompute提供了population count、append以及bit-reverse 指令的支持。

4人已赞
第1页:不可思议的存在:GTX590发布第2页:第一章:NVIDIA GTX590产品解析第3页:首发产品:华硕GTX590第4页:首发产品:索泰GTX590极速版第5页:首发产品:映众GTX590第6页:首发产品:七彩虹iGame590第7页:首发产品:铭瑄GTX590第8页:首发产品:盈通GTX590第9页:三大双芯卡皇实物对比第10页:第二章:GTX590游戏3D性能测试第11页:DX10理论测试:《3DMark Vantage》第12页:DX11理论测试:《3DMark 11》第13页:Tessellation测试:《Heaven 2.1》第14页:DX11理论测试:《石巨人》第15页:DX11游戏测试:《尘埃2》第16页:DX11游戏测试:《异形大战铁血战士》第17页:DX11游戏测试:《地铁2033》第18页:DX11游戏:《失落星球2》第19页:DX11游戏:《H.A.W.X.2》第20页:DX10.1游戏测试:《孤岛惊魂2》第21页:DX10游戏测试:《孤岛危机:弹头》第22页:DX10游戏测试:《冲突世界》第23页:DX9游戏测试:《街头霸王IV》第24页:PhysX测试:《黑手党II》第25页:CUDA视频转码测试第26页:温度、功耗、噪音全面领先对手第27页:性能测试总结第28页:第三章:NVIDIA附加图形技术之灵活应用第29页:特色技术应用:NV 3D Vison Srround第30页:虚拟现实必经之路:CUDA光线追踪第31页:第四章:最强游戏即时渲染画面赏析第32页:DX10基准:《3DMark Vantage》画面赏析第33页:DX11游戏:《HAWX2》画面赏析第34页:DX11游戏:《地铁2033》画面赏析第35页:Tessellation软件:《Heaven》 画面赏析第36页:Tessellation软件:《石巨人》画面赏析第37页:DX11基准:《3DMark11》画面赏析第38页:第五章:令人兴奋的DirectX API发展历程第39页:号称实现“一切图形特效”的DX9C第40页:不应备受冷遇的DX10第41页:第六章:揭秘DX11技术革新第42页:DX11五大革新之:Shader Model 5.0第43页:DX11五大革新之:Multi-Threading第44页:DX11五大革新之:Texture Compression第45页:第七章 争论漩涡中心的Tessellation第46页:Tessellation(曲面细分)的前世今生第47页:Tessellation不仅仅会“细分曲面第48页:当Tessellation遭遇“法线贴图”第49页:曲面细分究极奥义 动起来更精彩第50页:当Tessellation遭遇“物理运算”第51页:第八章:DX11核心技术:DirectCompute11第52页:CUDA和Stream之争的内幕第53页:DirectCompute 10/11版本间的区别第54页:DirectCompute11的妙用:顺序无关透明第55页:DirectCompute11的妙用:电影级景深第56页:DirectCompute11的妙用:高清晰环境光第57页:第九章:GF100/110图形架构深入解析第58页:GF100构架八倍于上代旗舰的几何性能第59页:GF100/110和Cayman图形架构对比第60页:GF100/110图形架构:强大的多形体引擎第61页:GF100/110图形架构:第三代流处理器第62页:GF100/110图形架构:精兵简政的纹理单元第63页:GF100/110图形架构:一级缓存与二级缓存第64页:GF100/110图形架构:光栅单元高倍抗锯齿第65页:第十章:适合并行计算的Fermi架构第66页:Fermi计算架构:GPU的未来是并行计算第67页:Fermi计算架构:高效的双精度性能第68页:Fermi计算架构:首次支持C++编程第69页:Fermi计算架构:首次支持显存ECC第70页:Fermi计算架构:NVIDIA Nexus开发平台第71页:全文总结:该胜不胜与当败不败第72页:附录:追寻那些曾经的双核卡皇第73页:Rage Fury Maxx——曙光女神第74页:昙花一现的挑战者——XGI Volari V8/V5第75页:不为人知的经典——双核心9800Pro第76页:普及双核心——影驰双核7600GT第77页:GeForce 7950GX2——双拳出击誓夺王位第78页:ATI双核心——Gemini技术第79页:双G92核心的怒吼——GeForce 9800GX2第80页:55nm王者——GeForce GTX 295

关注我们

泡泡网

手机扫码关注