游戏外的竞争!NVATI通用计算技术分析-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 评测 / 正文

游戏外的竞争!NVATI通用计算技术分析

2008年12月26日 00:45作者：孙敏杰编辑：孙敏杰文章出处：泡泡网原创

[泡泡网显卡频道 12月26日] 最近几个月两大显示芯片巨头都没什么真正意义上的新产品，高/中/低端全线显卡一对一的PK已趋于尾声，玩家们也逐渐对原本势均力敌的产品非要通过超频才能取胜的测试失去兴趣。NVIDIA和ATI之间由明刀明枪比拼产品性能转为冷战暗斗技术与附加值。

2008年全年，最出风头的无疑是NVIDIA的CUDA技术，Tesla视觉计算、PhysX物理加速以及Badaboom视频编码足以让NVIDIA无视AMD的存在，直接用GPU向Intel最强CPU发起挑战。

GPU强大的浮点运算能力是CPU无法企及的，GPU并行计算的确给未来PC的发展指明了一条阳光大道。但绝大多数消费者都是比较现实的，他们认为显卡就是用来玩游戏的3D加速卡，毕竟支持GPU通用加速的软件还不够多、不够完善。GPU未来发展的蓝图并不是他们最关心的内容，CUDA和Stream是干嘛的并不重要，他们真正关注的是当前显卡除了玩游戏还能干什么？

首先我们来看看，在NVIDIA提供的Forceware驱动以及体积达4GB的CUDA大礼包中有什么好玩又好用的东西：

Folding @ home_GPU_v620nv：N卡专用的蛋白质折叠分布式计算客户端
Badaboom试用版：视频转换器，30天内可免费转码30次
PhysX游戏：一大堆试玩版、演示Demo还有屏保
TMPGENC XPRESS 4.6.2.266试用版：视频编辑器
POWER DIRECTOR 7.0试用版：另一款视频编辑器

那么，显卡除了玩游戏之外，又能提供给用户什么东西呢？一起来看看。

● GPU非3D游戏应用之一：Folding@home分布式蛋白质折叠计算

要说GPU做通用计算的概念，最早还是由ATI所提出来，早在2006年9月的Radeon X1000时代，ATI与斯坦福大学相关科研人员合作，开发了首款使用GPU浮点运算能力做非图形渲染的软件——Folding @ Home第一代GPU运算客户端。

Folding@home是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程。最开始F@H仅支持CPU，后来加入了对PS3游戏机的支持，但同样是使用内置的CELL处理器做运算。F@H因ATI的加入为GPU计算翻开了新的一页，如今F@H第二代GPU客户端已经能够支持ATI和NVIDIA的全系列DX10 GPU。

ATI显卡运行F@H时的屏保画面

如果您有兴趣让您的电脑在空闲时为科学计算贡献一份力量的话，那就到斯坦福大学官方网站下载最新的客户端。只要您不玩游戏（意味着GPU空闲），那就可以在后台开启F@H客户端进行科学运算，这并不会影响您的办公与上网操作（CPU和内存使用率都很小）。

关于显卡运行F@H的效能问题，这就跟游戏一样需要显卡驱动的不断优化与改进，根据民间对比数据来看，单核心的A卡不及同级N卡，HD4870的性能还不如9800GTX+，但GTX260也没比9800GTX+强多少，GTX280还不如上代的9800GX2，双核心的HD4870X2及GTX295自然是双方的最强者。

根据官方排名来看，NVIDIA GPU所贡献的运算量早已超越所有CPU总和，甚至超过了PS3，而参与运算的GPU数量却要比CPU少很多。ATI GPU的表现也不差，仅次于NVIDIA和PS3，从表中可以看出ATI GPU数量要比NVIDIA少，这可能是A卡市场占用率不够高、ATI推广不力、或AFan不够积极所致。

● 小知识：什么是Folding@home？什么是蛋白质折叠？

蛋白质是一个生物体系的动力和纳米机器。在蛋白质实现它的生物功能之前，它们会把自己装配起来，或者说是折叠；虽然蛋白质折叠是对所有的生物体系来说最重要的和最基本的过程，但这个过程对人类而言仍然是个未解之谜。此外，当蛋白质没有正确的折叠（折叠错误）会导致严重的后果，包括许多知名的疾病，比方阿兹海默症(Alzheimer''''s)，疯牛病(Mad Cow, BSE)，可传播性海绵状脑病(CJD)，肌萎缩性脊髓侧索硬化症(ALS)，帕金森氏症(Parkinson''''s)，和其他多种癌症及其相关得综合病症。

Folding@home是一个分布式计算的项目——从世界各地来的人下载运行这个客户端程序，彼此组合在一起构成了世界上最大的超级计算机之一。每一台参与的计算机都使蛋白质折叠项目更接近成功一步。Folding@home把分布式运算和革新的计算方法有机的结合在一起，使人类能解决比以前碰到的困难无数倍的问题。

● GPU非3D游戏应用之二：高清视频解码

视频解码加速一直都是A卡的强项，从HD2000系列开始(HD2900XT除外)，ATI全线显卡都内置了UVD引擎，这个专用模块能够对当前盛行的H.264和VC-1两大编码提供完全硬件解码。

NVIDIA也有PureVideo引擎，但它只能够做到完全硬解H.264编码，对于VC-1编码依然是半硬半软，播放时CPU占用率偏高。当然NVIDIA也有个别显卡(G98核心8400GS)支持完全硬解码，只可惜市面上很难买到。

N卡对于H.264视频能完全硬解码

主流N卡对VC-1视频不能做到完全硬解码

此外在高清影音一线通HDMI输出方面ATI也有自己的独门绝技，ATI HD2000/3000/4000全系列显卡中都整合了音频模块，可以为HDMI输出音频信号，而N卡必须通过“飞线”从板载声卡SPDIF导入音频信号，需要占用额外的音频声道。

DX10显卡中端对决！HD2600大战GF8600
N卡实现HDMI存在功能上的不足

当然NVIDIA的整合主板做得还是挺不错的，MCP78、MCP79都能够完美硬解H.264/VC-1/MPEG2三大编码(A卡不能完全硬解MPEG2)，而且主板的声卡本来就是整合的，所以HDMI输出音频也不需要飞线。只是NVIDIA的独立显卡在高清方面不如ATI显卡完美。

● GPU非3D游戏应用之三：视频转码

GPU视频编码的鼻祖，同样是由ATI最先实现的，在X1000时代，ATI在催化剂驱动中集成了一款名为Avivo Video Converter的小工具软件，该工具能够将常见视频转换为手持设备(iPod、PSP等)支持的格式，速度比单纯CPU编码快好几倍。

X1000时代的Avivo Video Converter

虽然Avivo的速度非常快，但据测试表明该软件似乎跟GPU的处理能力没关系，X1300/X1600/X1800/X1900的编码速度几乎相同，而且ATI的新显卡(HD2000/3000/4000)并不支持Avivo编码器。随后Avivo被破解，使得它能够应用在所有DX9/DX10显卡(包括N卡)上面，于是很多人怀疑Avivo只是一个打着GPU的幌子、通过牺牲画质换取速度的CPU编码工具！

时过境迁，当Avivo编码器快被众人所遗忘，Badaboom大出风头之时，ATI在2008年最后一款催化剂驱动8.12当中重新启用尘封已久的Avivo编码器：

虽然名称没变，但ATI称这个小工具基于Stream流处理技术重新编写，仅支持HD4000系列显卡，速度更快，而且同样坚持完全免费的策略。这对于垂涎Badaboom已久的A卡用户来说，的确是个不小的惊喜。

DVD转iPod格式速度对比

AIT转换CPU占用率

NVIDIA转换CPU占用率

根据国外媒体的测试结果，可以明显看出ATI在速度上拥有更强大的实力，然而却也使用了更多的CPU占用率作为代价，作为集CPU于GPU于一家的AMD来说，并不在意GPU应用时CPU占用率的高低，不需要去刻意的控制CPU占用率，这或许也是它速度更快的一大原因。

NVIDIA虽然速度稍慢，却在输出的画质上明显高于ATI，CPU占用率也要低出不少。就两者看来，并没有一个明显的赢家，都体现出了GPU的并行计算能力，虽然Avivo速度更快，支持格式更多，但输出质量结果并不完美。Badaboom输出画质质量高，界面精美，但速度比Avivo慢，支持格式也相对有限，最重要的是还要收费——试用版本只能转30次，同时试用版转出来的视频带讨厌的Logo。(好在目前网上已有完美破解版本)

详细评测请看：无视CPU！GPU视频转换ATI与NV谁更强?

对于ATI Avivo视频转换器所存在的问题，ATI官方也毫不避讳，称这款才刚刚面世的小工具确实还不够完善，存在一些BUG，这将会在未来的催化剂驱动中得到修正。ATI称：Avivo视频转换器仅使用GPU完成视频编码中的一部分工作，具体的说，GPU目前仅负责视频编码过程中对运算能力最敏感，最适于GPU应用的“运动估算”部分。由于在视频编码中交给GPU的负载是固定的，因此该过程中的GPU占用率可能因型号的不同而出现高低不等的现象。

详细报道请看：AMD官方回应Avivo视频转码质量问题！

● GPU视频转码小结：

ATI Avivo Video Convert的优点：免费、片源兼容性好、转码速度超快
ATI Avivo Video Convert的缺点：软件功能太简单、只能转出低码率低分辨率影片、视频画质较差、CPU占用率很高、软件BUG不少
NVIDIA Badaboom的优点：软件界面友好、视频画质高、能输出1080p、CPU占用率低
NVIDIA Badaboom的缺点：付费软件、只支持正版光碟(网络片源支持格式有限)、转低码率影片速度不如Avivo
两者都不支持嵌入字幕

可以说，两款GPU转码软件都还不够完美，但比起纯CPU转码都要快很多，尤其是Badaboom软件版本更新非常频繁，新版本不但转换效率进一步提高，而且还能够支持H.264的CABAC可变长编码熵运算，对于片源支持度也进一步放宽。

当初GPU高清视频解码技术发布时，也是问题一大堆：仅支持正版影碟和PowerDVD，不支持第三方软件，不支持外挂字幕，不支持网络常见的编码及封装格式如X264/MKV等，但随着时间的推移这些问题都迎刃而解。现在GPU转码技术正处在起步阶段，存在一些问题是可以理解的，但GPU加速是大势所趋，相信今后会有越来越多的软件加入支持，功能和兼容性将会更完美。

● GPU非3D游戏应用之四：视频编码加速

不管ATI的Avivo视频转换器还是NVIDIA的Badaboom，都只是非常初级的视频转换软件，仅适合那些拥有手持设备的入门级用户使用。如果专业级的视频编辑软件能够应用到GPU强大的并行计算能力，那才能真正吸引大批用户的关注。所以NVIDIA和ATI都在积极的与软件开发商合作，以便拓展GPU的应用领域。

TMPGEnc 4.0 XPress支持NVIDIA CUDA

TMPGEnc 4.0能够支持CUDA架构的N卡，它将CUDA能力使用在了重要的滤镜部分，使得TMPGEnc在视频编辑方面比起其他类似软件更加有着性能上的吸引力。通过CUDA，能够减少一半以上的工作时间，可以说实在是一个相当令人惊异的成绩。

不过很可惜的是，TMPGEnc在转码部分还没有使用好CUDA，这使得软件在视频输出的时候仍然受到CPU的限制。当然，TMPGEnc Xpress在CPU部分上已经做出了很好的优化，无论是Intel还是AMD都能够利用到相应的指令集。对于需要大量压制视频的用户来说，CUDA的加入可以说是锦上添花，能够帮助用户节省大量时间，在减低制作平台成本的同时，也能够加快用户的工作效率。

CyberLink PowerDirector Ultra 7已支持CUDA即将支持Stream

CyberLink PowerDirector（威力导演）的威名相信很多人都有所耳闻，这款台湾产的软件简单易用特别适合国人使用，而且功能十分强大，很多方面都要强过日本产的TMPGEnc。现在PowerDirector已经能够借助CUDA进行加速，但也主要局限在滤镜特效操作方面：如高斯模糊、镜像模糊、万花筒、光射线、颜色替换、钢笔墨水、色彩边缘、水彩画、抽象派、火焰燃烧等等。而视频转码输出时还是只能依靠CPU处理。

CyberLink宣称，用户在使用支持CUDA技术的GeForce、GeForce Mobile、Quadro、Quadro Mobile、Tesla系列显卡时，执行滤镜操作可以获得最多五倍的速度提升，同时还能将CPU占用率从100％降至60％左右。

就在前几天，CyberLink发布了最新的公告，宣布新的7.1版本将会加入Stream支持，但最快要在2月份才能出炉。事实上在此之前ATI已经拿到了内部测试版本，在很多场合公开展示ATI加速视频转换的效能。

据称，PowerDirector对于Stream技术的应用会比CUDA更多，它除了滤镜渲染之外，在视频编辑、回放及输出环节都会利用到GPU的并行计算能力，视频编辑速度将会大大提高！当然，现在吹得多么天花乱坠是没用的，还是等待专业评测对比吧。

● GPU视频编码小结：

很显然，在视频编码方面NVIDIA要领先ATI至少半年，大约半年前TMPGEnc和PowerDirector 7就已经发布了支持CUDA加速的正式版。ATI虽然也在与软件开发商紧密合作，但支持Stream的PowerDirector 7.1最快要到09年2月份才能发布。

PowerDirector 7.1将成为同时支持CUDA和Stream技术的第三方软件，那么N卡和A卡在通用计算领域的性能表现如何呢？我们拭目以待！

● GPU非3D游戏应用之五：实时倍线视频播放

除了视频解码和编码，还有一种非常消耗处理器资源的应用，那就是视频倍线——使用特殊的插值算法以及画面补偿技术，让低分辨率视频扩充至高分辨率，从而让视频与显示器分辨率相匹配，做到点对点完美呈现。有些人喜欢将480p或者720p压制成1080p，这样做虽然会使文件体积膨胀，但画质确实能够获得一定程度的提升。

当然最好的办法并不是重新压制视频，而是实时倍线播放，基本上双核CPU是没有希望的，只有高端四核CPU才能做到实时倍线软解视频。现在，GPU也能实时倍线硬解视频了，硬解画质得到进一步增强。

ArcSoft TotalMedia Extreme实时倍线，已支持CUDA即将支持Stream

ArcSoft TotalMedia Thertre这款高清视频播放器的名气虽然没有PowerDVD和WinDVD那么大，但其功能却丝毫不差，它能够同时支持ATI AVIVO、NVIDIA PureVideo和Intel ClearVideo三大硬解码技术，更重要的是它支持直接从硬盘播放下载到的HDDVD或BD，这无疑非常适合国内用户使用。

除此之外，TotalMedia Thertre还有自己的独门绝技，那就是使用GPU的并行计算能力来实时倍线视频，将标清视频插值扩充至高清分辨率，大幅提升画面细节与品质。

现在TotalMedia Thertre已经能够对N卡提供支持，而到明年初将会发布新补丁用以支持A卡，现在AMD已经拿到了测试版本，并现场展示了GPU实时倍线的效果：

倍线前后的视频画质对比，效果确实有明显改观

软件倍线设置，采用ATI Stream流处理运算技术

在视频应用方面，ATI始终慢NVIDIA一拍，好在落后并不多，这几款重量级的软件目前已经能够支持N卡加速了，A卡还需要等几个月，希望它们不要让A卡用户等太久。

● GPU非3D游戏应用之六：图形显示/处理硬件加速

Adobe最新版的CS4系列套装软件最大的特性就是支持GPU加速，很多图形特效、旋转缩放等操作都可以通过GPU渲染完成，可以大大提高美工人员的工作效率。NVIDIA对此进行了很多的宣传，并专门针对PhotoShop CS4发布了Quadro CX专业绘图卡，而ATI方面却毫无动作，难道A卡不支持PhotoShop加速？

    事实上，Adobe全系列软件都基于开放式的OpenGL API开发，只要是DX9级别的GPU都支持加速，这并不是N卡的专利！看看Adobe官方的最低需求：
    1.硬件支持 DirectX 9；
    2.Pixel Shader (PS) 至少为1.3版；
    3.Vertex Shader (VS)至少1.1版；

主流显卡包括整合显卡都支持PhotoShop CS4硬件加速

Adobe Reader 9支持PDF 2D翻页及全屏演示加速，实时渲染文档中的3D元素

Adobe Flash Player 10，硬件加速要求很低，几乎不值一提

综上，Adobe是通过完全开放的OpenGL标准支持GPU加速，对于市面上主流显卡都能够提供无差别完美支持，由于之前媒体的相关报道都集中在NVIDIA方面，导致很多人以为只有N卡才支持Adobe GPU加速，实际上A卡甚至很多整合显卡都支持，这与CUDA或者Stream并没有什么直接关系。（相关评测：GPU加速时代来临! PhotoShop CS4解析）

但是，Adobe有一个视频输出插件RapiHD，它是基于CUDA架构设计的，能够利用GPU加速视频后期输出过程，但它仅支持Quadro系列专业显卡(包括Adobe专用的Quadro CX)，不支持GeForce系列消费级显卡，当然也不支持A卡。

● Adobe系列软件小结：

虽然NVIDIA对于Adobe CS4系列的支持很到位，但对于普通用户来讲，A卡和N卡是没有任何区别的，而且PhotoShop类软件对于GPU性能的要求并不高，只要是DX9以上级别的显卡都能大大提高图形操作速度。

只有专业视频编辑，在后期输出过程中用到RapiHD插件时，Quadro专业显卡才会显示出惊人的效能，而ATI FireGL专业卡则不支持。

● GPU非3D游戏应用之七：GPU物理加速

Intel闪电收购Havok，NVIDIA以迅雷不及掩耳之势拿下Ageia，两大物理引擎都被财大气粗的竞争对手所搞定，于是AMD成为了局外人。实际上之前的ATI与Havok关系非常暧昧，X1000时代ATI所展示的一些GPU物理加速Demo都是基于Havok FX引擎开发，所以说在GPU物理加速方面，ATI一直都不输于人。

ATI展示的GPU物理加速Demo，可以看到背景有Havok Logo

突如其来的收购案，犹如飞来横祸给AMD的GPU物理加速之路蒙上了一层阴影。物理引擎只有两家，到底该向左走还是向右走呢？竞争是残酷的，Intel收购Havok之后，支持GPU加速的Havok FX引擎就被暂时冻结，等到明年Intel自己的独立显卡发布之后，才有可能开放支持；而NVIDIA的PhysX引擎也没打算支持CPU加速。

比最强CPU快七倍！GPU物理加速全解析

AMD作为唯一一家同时拥有CPU与GPU业务的公司，可谓是手心手背都是肉，既要宣传GPU的好也不能鄙视CPU。最终AMD选择了拥有处理器业务而且即将拥有GPU业务的Intel(Havok)。因为只有Havok引擎才能同时利用CPU与GPU的富裕性能做物理加速。

AMD认为在进行游戏渲染时，多核心CPU的负载很低，完全可以用CPU来进行物理加速，当CPU性能还不够时再交给GPU处理，必须做到CPU与GPU负载平衡才能非常好的化系统性能。对于用户来说到底谁做物理加速并不重要，关键是要效果好，而且对系统要求越低越好。

不得不佩服NVIDIA的惊人实力，PhysX引擎被CUDA改造之后能够支持全线N卡，而且越来越多的游戏开发商开始力挺PhysX引擎，其中包括大名鼎鼎的EA、THQ、2K。不过目前的情况是PhysX缺乏重量级游戏大作的支持，UT3仅仅是个别地图支持PhysX而已，惊世骇俗之作Crysis也是采用CPU做物理加速。而像MKZ(铁甲突袭)、Cryostasis(雪域危机)这些非著名游戏的影响力着实有限。

Havok引擎将给《星际争霸2》带来一定的物理效果
尤其是在战争中的破坏效果会非常明显

Havok及其靠山Intel的实力也不容小视，Intel目前只是在积聚实力、尚未发力，将来一呼百应也并非天方夜谈。即便如此，暴雪官方宣布正式支持Havok引擎已经让广大玩家欣喜不已，试想重量级的《星际2》和《暗黑3》两款大作如果采用Havok物理引擎的话，这对于PhysX将造成打击。

● GPU物理加速小结：

不管未来物理引擎谁能称王，GPU物理加速已经成为大势所趋，这主要还得归功于NVIDIA的大力推广。当然AMD也没有闲着，今年有两件事最值得关注，一是AMD和Intel-Havok合作开发物理应用技术、二是AMD与暴雪结成战略合作伙伴关系，这对于AFan来说无疑是天大的喜讯。

当然，现在NVIDIA的PhysX技术已经有数十款游戏能够支持，而Intel和AMD的Havok技术目前只能用CPU进行物理运算，物理效果一般而且消耗资源不低，Havok的新一代GPU物理加速依然遥遥无期。

首款专门作流处理/并行计算的GPU产品并不是NVIDIA的Tesla，而是ATI的FireStream，早在2006年，ATI就发布了基于R580核心的流处理加速卡，48个像素渲染单元成为流处理器的雏形：

FireStream第一代，其实就是1GB显存的X1950XTX

可惜的是，在第一代DX10显卡较量中的失败，让AMD浪费了太多的时间与机会。G80核心成为高性能及并行计算的代名词，专门针对并行计算设计的Tesla也暂露头脚。

当然AMD的脚步也没有停止，FireStream产品线伴随着GPU的升级而更新，AMD的GPU架构天生就拥有很强的浮点运算能力，尤其是双精度浮点运算能力！

单精度浮点运算，A卡并没有比N卡高太多，但要知道在对精度要求很高的科学研究和勘探方面，单精度是没有价值的，所有计算都需要双精度64Bit。A卡的双精度运算是单精度的1/5，而N卡的双精度运算只有单精度的1/8。

显卡构建1U服务器看TESLA近来的发展
核心为4片GPU的1U服务器，Tesla S1070＝Tesla C1060×4

除了单GPU核心的产品之外，NVIDIA还有专门设计的多GPU Tesla Personal SuperComputer运算系统，AMD也有类似的运算加速系统：

Aprius CA8000允许在机架内部插上最多八块FireStream 9270流处理加速卡，从而提供将近10TFlops的单精度浮点运算能力，以及1.9TFlops的双精度浮点运算能力。当然AMD的机架体积也要比NVIDIA的1U机架大很多，双方的外观和结构虽然相差很多，但基本原理是一致的，都是类似于外置显卡的解决方案。

不过，A卡SIMD架构的效率一直让人担心，目前上没有能够直接对比双方实际浮点运算性能的软件，但根据Folding@home的民间数据来看，HD4870不如GTX260，而GTX260与9800GTX+是差不多的，看来双方在并行计算方面都还有继续优化提升的空间。

在GPU并行计算方面，一直都没有一个通用的标准，于是ATI和NVIDIA各自为政，NVIDIA有CUDA开发包及CUDA C编译器，ATI也开发了Stream SDK和Brook+语言。

ArcSoft TotalMedia Thertre支持Stream

CUDA C就是对C语言的延伸，而Brook+也是一种类C的语言，两者有一定的相似之处但并无法相容。也就是说使用CUDA编写的软件，想要支持ATI Stream的话，必须重新编写一遍，这显然是软件开放商极不愿意看到的事情。

支持Khronos Group标准化作业的AMD首席技术官(CTO)Jason Yang称：“软件开发人员希望自己编写的代码能在各种系统上执行。不过，对开发人员来说开发平台越少越好。而能够实现这一想法的正是OpenCL”。另外，Terry Makedon回顾计算机的历史，“供应商的自主规格不能扩大市场，为解决这一问题公开了开放标准，从而开拓新的市场”，OpenCL和DirectX的Compute Shader的公开显示了对GPGPU市场扩大的期待。AMD还将继续采用Brook+。今后还将提供作为高抽象度软件开发环境的Brook+，通过Brook+记述的程序，可以制成在支持OpenCL的处理器上执行的程序。

OpenCL的诞生给整合产业都带来了希望，对消费者来说，一个开放的行业标准无疑要比各自为战的企业标准亲切的多。由于AMD、NVIDIA、Intel同为工作组成员，这一标准的提出为我们描绘了一个美好的未来：无需区分哪家厂商的产品，不分GPU、CPU，系统可以根据当时的应用需要，调动各个处理器的运算能力，以协同合作的方式最快速度完成工作。OpenCL将统一管理一台电脑上的所有计算资源，比如你的多核CPU，以及多个GPU。OpenCL将这些资源统一看待，算作计算单元，并配置各种级别的内存：private、local和global。

据ATI Stream研发团队称，目前ATI已将工作重心转移到了OpenCL上来。ATI在最新公布的Stream SDK 1.3中重写了Brook+以提升性能，将在Stream SDK 2.0中完全支持OpenCL，并积极帮助客户从Brook+过渡到OpenCL。而NVIDIA仍坚持两手抓两手都要硬的策略，为客户同时提供CUDA C及OpenCL的支持，并称CUDA C与OpenCL是互补而非竞争关系。

不难看出，虽然NVIDIA CUDA所能提供的软件，大部分ATI也能提供支持，但是无论进度还是效果方面，都是相差甚远！比如PowerDirector和TotalMedia Thertre，N卡用户几个月前已经能够使用GPU加速了，而ATI只能在明年一季度才提供支持；PhysX游戏已经为数不少了，而Havok游戏(GPU加速)一款还没有；Badaboom虽然是收费软件，但国内并不缺乏盗版，而完全免费的Avivo尚无法令人满意。

NVIDIA和ATI从3D游戏战场打到了并行计算领域

AMD也坦诚，虽然GPU通用计算的概念最早由ATI提出并率先应用，但NVIDIA已经后来者居上，在很多方面都比ATI做得好。不过AMD近年来所做出的努力也是显而易见的，对于GPU功能的开发也是紧追不舍，并没有落后NVIDIA太多。

ATI(AMD)与NVIDIA之间GPU之战，远比AMD和Intel之间的CPU之战有意思，毕竟双方的实力差距并没有那么悬殊。竞争是激烈的，也是好看的，近年来A/N之间的龙争虎斗给广大用户带来了性能更强、价格更实惠的产品：如果没有HD4850/HD4870，9800GTX/GTX260就会永远高高在上，没有HD4870X2，NVIDIA也就不会急于发布55nm的GTX285/GTX295。同理，如果没有NVIDIA的辛勤努力及孜孜不倦的推广，GPU并行计算也就不会这么快的深入人心，AMD也可能会将ATI之前在GPGPU方面的努力束之高阁。

显卡，早已超出了游戏卡的范畴

2006年，当ATI率先提出GPU通用计算时，很多人都以为这是天方夜谭，也不知道何年何月才能得偿所愿。如今，只花了两年时间，GPU就已经在科学研究和超级计算领域取得突破性进展，在民用市场也开始遍地开花。现在，玩家们因一两款特别喜爱的游戏而升级显卡；将来，或许很多不玩游戏的人，也会冲着一两款支持GPU加速的软件去购买中高端显卡。

总结：

您或许感慨NVIDIA在并行计算方面十年磨一剑的艰辛；或许为ATI因AMD收购而错过近两年的发展而惋惜。然后对于这样一个全新的领域，无论对于领先者还是追赶者玩家们都应该给予同样的掌声。<

0人已赞

游戏外的竞争!NVATI通用计算技术分析

关注我们