泡泡网显卡频道 PCPOP首页      /      显卡     /      新闻    /    正文

专访黄仁勋:CUDA-X86效率远胜多核CPU

    泡泡网显卡频道9月25日 美国当地时间9月20日至23日,NVIDIA第二届GTC2010 GPU技术大会在NVIDIA总部加利福尼亚州圣何塞市召开,NVIDIA公司首席执行官黄仁勋在台上做了精彩的演讲,我们也第一时间为大家献上了现场报道。

    GTC2010相关报道:都是物理学家!NV四代GPU架构代号解读
    GTC2010相关报道:探秘游戏之道!NVIDIA公司总部大揭密
    GTC2010相关报道:NVIDIA发布CUDA-X86!跑CUDA无须显卡

NV下两代GPU代号:开普勒和麦克斯韦

    GPU技术大会结束后,出席会议的记者们有幸对NVIDIA创始人、总裁兼首席执行官黄仁勋先生进行了专访,黄先生饶有兴趣的为大家详细解读了NVIDIA的产品计划和相关技术,并耐心的一一解答了来自世界各地的媒体编辑的问题。下面笔者就将专访相关内容整理给大家:

专访黄仁勋:群核GPU效率远胜多核CPU

记者:您是否考虑研发基于X86架构的CPU?

黄仁勋:我们在CPU领域的策略是Arm,我们已经在Tegra中集成了Arm处理器。我选择Arm是因为Arm是目前世界上成长最快的CPU产品;我们选择Arm是因为Arm是目前世界上最重要的操作系统所适合的CPU产品,这些操作系统包括Android等;我们选择Arm是因为在Arm上集中了全球最多的应用编程人员;我们选择Arm是因为Arm是代表未来的CPU产品,而不是代表过去的CPU。

    X86是平缓的上升曲线,而Arm的成长是垂直提升。而我们应该选择哪个与之合作呢?

记者:但是我们目前并没有看到Arm在您业务中占有非常大的比重?

黄仁勋:你不能关注在目前的业务比重,而应该关注在未来的业务比重。当你前进的时候,一定要站在时代的前列,而不是人云亦云。

记者:您是否会考虑在GPU中集成X86的CPU?

黄仁勋:不会。我认为Tegra是我们成长最快的个人计算机业务。GeForce+Tegra的模式一定会成长。我不知道未来Windows未来会怎么发展,但是我注意到微软已经通过了对Arm的授权。微软是一个软件公司,而未来世界上最大的软件市场将会在哪里?——Arm!

    我认为所有有远见的公司都会在Arm进行投入,而不是在X86上进行投入。

记者:昨天我们看到了PGI发布了CUDA-X86编译器,我们理解:面向x86平台的PGI CUDA C编译器(CUDA-x86)能让开发人员在x86架构工作站、服务器、集群上编译、优化和运行CUDA架构应用程序,有无NVIDIA GPU均可。从这个角度上说,CUDA X86编译器的出现有何深远意义?是希望将CUDA架构进行更进一步的推广和普及,还是为了让编程人员看到CPU在硬件架构上的不足而更青睐于进行GPU的编程方式?

另外,您也提到,PGI的CUDA-X86是商业项目,如果运行效率较低的情况下,您认为应该以何种方式进行推广?

黄仁勋:多核心的CPU解决方案的是不可能与拥有核群GPU的解决方案在延展性达到一样的执行效率的。现实中很多应用中并不能对多核心并行运算进行非常好的扩展性支持。造成这种情况的原因与GPU拥有的高带宽及运算连贯性有关,但是不止如此。

    即使实际的性能表现并不像使用GPU的扩展性那么好,在CPU使用CUDA X86进行编程还是可以较大幅度提升应用运行的效率。如果CUDA可以在一个1000核心的CPU核心集群中运行,执行的速度仍然会得到提升,仍然会带来很多的优势。最重要的优势是CUDA应用可以在任何配置下运行。

    PGI将会努力提升CUDA X86的性能,我也会努力提升这个编译器的性能,因为我希望CUDA可以成功,那CUDA一定要在保证应用在所有平台上。

    PhysX可以在没有NVIDIA芯片的iPhone、Xbox 360,PSP都能运行,同样PhysX也可以在X86和CUDA上运行,我们为PhysX在所有的平台上进行优化,因为我们希望PhysX成功。

记者:最了解NVIDIA的是NVIDIA自己,在Tegra上,如果您能提供一个很好的硬件,但是软件是交给别的人在做,您在未来是否会考虑自己开发Tegra的操作系统?

    您怎么评价Intel的MeeGo,为什么?

    您是否会像Apple简历自己的Apple Store一样建立一个自己的CUDA Store。

黄仁勋:第一个问题的答案是:不会。

    第二个问题的答案是:这不是个好主意。

    第三个问题的答案是:有可能

    第一个问题而言,首先,我们需要做一些对全世界有帮助,同时又是我们长项的事情。有很多的公司在开发操作系统这个领域上非常出色,例如API,Middle Ware,System Software等等。我们不会成为这个领域中的顶尖人物。下一个问题是,我们是否会对全世界有帮助,目前全世界已经有很多很好的操作系统,比如说苹果的IOS、黑莓操作系统、Android、Symbian和Meego。

    就第二个问题而言,为什么Intel要做一个全球第六的操作系统?在操作系统中不存在第六名,没有软件工程师愿意为排名第六的操作系统写应用程序,你会愿意服务第五、第四吗?不会!你会直接选择第一或者是第二。那么为何Intel要开发一个Meego系统呢?问题是IOS、 Android、Symbian、Windows Mobile,所有这些操作系统都不知道X86架构。如果Intel不做Meego,他们就是排名0!所以Intel没有其他的选择。X86在移动市场上没有未来,X86是企业级的应用。而NVIDIA更没有必要去做排名第七的操作系统。

    如果NVIDIA不做自己的操作系统,就可以去选择用谁的CPU,我不容迟疑选择了前五,也就是选择了Arm的CPU。如果我选择了对Tegra运行X86,那我就是第二个Intel了!X86是过去的操作系统。

    CUDA Store,也许吧,可能。

预热ComputeX:黄仁勋揭秘NV展会主题

Tegra 2整合了Arm架构的双核CPU

记者:我们知道针对移动设备平台的研发要比电脑要慢,那么您是否有计划将CUDA引入Tegra?您是否准备在Tegra设备上引入3D立体?

黄仁勋:只要软硬件准备完备,这将非常快。

    3D立体这个想法非常好,我们将会有手持设备上的3D,并且是裸眼3D。非常完美。

记者:那您是否准备将基于Arm的产品作为台式机替代品?

黄仁勋:尽管Arm是成长最快的CPU,但是Arm的性能对于处理日常工作而言还是太弱了。Arm的处理能力至少要提升2-4倍以上,才能达到这个要求。我们也需要针对Arm进行功能调整才能能将其装入服务器等其他计算机。

    我认为这事时间的问题:10年,肯定没问问题;5年,有可能;1年,绝对不可能!

基于Tegra 2 的NVIDIA公版平板抢先看

NVIDIA自己的Tegra平板电脑样机

记者:你认为平板电脑替代普通台式机的时间点在哪里?

黄仁勋:平板电脑没有键盘,而PC(笔记本电脑)是在键盘之下的,这是因为笔记本电脑很热,需要进行风道、热管等方面的设计和散热,在设计上需要更大的空间。

    在未来,单片机(SOC)解决方案将会位于显示屏之后,这意味着键盘下面什么都没有,键盘只是个塑料片而已。所以在未来,SOC可能是笔记本的形式,也可能是平板电脑,也可能是一个外接的底座。

    从时间上来说,我预计:5年后,在座的没有人会带着PC过来;3年后,大部分人不会带PC,1年后,有些人不会带PC了。5年,将是PC行业的全部寿命。

记者:我想请您预测一下采用CUDA的图像处理在未来将会有什么发展的趋势?

黄仁勋:图像处理还是会非常重要。图像处理是最重要的采用并行计算的民用应用。比如说,我们与Adobe的合作很成功,我们与Musemage在未来的Photoshop也十分成功。你也看到Adobe实验室的可计算摄影功能,可计算摄影是摄影行业的未来!我认为这是一个很重要的领域,所以我们投入很大。

专访黄仁勋:群核GPU效率远胜多核CPU

Musemage:完全基于GPU的图像处理元件

记者:现在基于GPU的图像处理软件越来越多,而无论对于软件开发者还是最终用户而言,也都是希望开发的软件既能够面对AMD和NVIDIA都能达到支持,那么您认为应该如何影响普通消费者?

黄仁勋:我们希望先从游戏玩家开始进行影响。游戏玩家受到我们的影响。而普通消费者不同,他们会受到卖场促销、OEM、朋友之类的影响,直接沟通游戏玩家更加直接。

NVIDIA的GPU云计算产品RealityServer

记者:您怎么看将GPU应用于云计算?

黄仁勋:这对我们来说是个绝好的机会,我认为将GPU应用于云计算,我们首先面对的问题是要解决云的提供者的解决方案。人们不能只买一片显卡或者一个芯片,所以我们与IBM、HP、Dell有着合作伙伴关系。目前全球最大的三个服务器厂商均有Tesla的解决方案。现在Amazon可以买这样的解决方案。

    并且IBM、HP、Dell还发布了1U的刀片服务器,更加方便扩展。

记者:目前GPU的计算,目前主要应用于学术界,主要是出于什么优势让这些结构选用了GPU?

黄仁勋:人们选用GPGPU的原因,主要分为几类,有些人需要更多的性能,而这个性能是目前CPU集群无法提供的,比如这个房间就是你的机房,你能达到的极限性能就是用CPU填满这个房间能到的极限性能,而采用GPGPU可以让你在这个面积上在并行计算中达到10,20甚至50倍的性能提升。

    有些人需要移动性的需求,比如GE、西门子、东芝等,他们需要将整间房子的运算性能放进一个箱子里面,放在医院或者医生的办公室里。这类用户不需要性能提升,但是需要体积的减少。

    还有一类客户更加严格,他们既需要性能的提升,也需要体积的减小,比如带上飞机。

    还有一类客户,需要扩展PC的性能,例如Adobe,他们可以用一个集群做可计算视觉效果,但是需要一个PC来剪辑视频,这就是尺寸决定的。GPU也能可以满足。

    还有一类客户,需要降低成本,目前的系统可以满足他们的需求,但是他们需要将这个系统分给很多人用,成本限定了他们需求,而GeForce可以帮助他们解决这类问题。

    原因多种多样,但是总的来说GPGPU可以提升速度,降低成本!

记者:为何此次大会会要公布路线图?

黄仁勋:因为人们很想知道。

专访黄仁勋:群核GPU效率远胜多核CPU

NVIDIA下两代GPU路线图

记者:昨天在开场的Keynote演讲上你提到了下一代产品Kepler以及更下一代的产品的Maxwell,并且您也提到了针对Tesla产品,最终Maxwell在双精度运算每瓦特性能上将会有16倍以上的提升,那么您对未来的GPU在双精度运算性能与功耗之间的平衡是怎么看?

黄仁勋:现在的问题越来越有针对性了。可能是1:0.5,也许是2:3,也许是其他的比例。这些都是可能的答案,因为我还需要等待最终的设计完成。如果结论是1:0.5的比例的话,也许我将会在GPU中不知更多的SM单元,但是如果每个SM不能够充分的被利用,我也可能会减少SM单元,但是每个SM单元的效能上进行提升。

    再加上在制程以及显存等方面的选择,让这个问题的答案更加复杂了。这个答案只有在打样的一年到半年前左右才能够真正揭晓。

记者:您谈到Maxwell与Tesla的提升大约为16倍的性能功耗比,这个提升主要体现在性能上提升上还是功耗的控制上?

黄仁勋:不止16倍,Tesla到Fermi,大致提升3-4倍,Fermi到Kepler的提升大概3-4倍,Kepler到Maxwell的提升大致3-4倍。

这个提升主要体现在性能上,因为功耗一定的。对于整机而言,1000w是一个极限。我们的设计理念中不会过于强调晶体管的单个性能。这正是并行计算的优势所在,随着工艺的提升,晶体管的功耗会越来越低,我们就可以放入更多的晶体管,每个晶体管的性能会有提升,但是并不是

记者:未来会不会将IO加入到GPU的设计之中?

黄仁勋:这是个好主意,我们也正在进行相关的尝试。最大的问题不是物理上的接口问题,而是逻辑接口的问题,目前IO都是直接与系统存储相连,点用数据是需要从系统内存通过IO再到GPU,这个过程非常浪费。我认为PCI-E更为适合,PCI-E的贷款足够进行大规模数据传输。主要的瓶颈还是系统内存。我希望在未来可以从DMA直接到内存,不通过CPU。性能提升不只一翻。

记者:和欧美游戏市场更重视对GPU性能要求较高的单机游戏不同,目前亚洲市场更倾向于对GPU性能要求不非常高的网络游戏。对于这个情况,NVIDIA未来会不会在游戏项目合作开发商提供更多差异化的增值服务?

黄仁勋:我们在全球有游戏之道项目,前几天我们在韩国与暴雪一起发布了星际二,在中国,我们所有主要游戏开发商建立了联系,在美国,我们与暴雪保持紧密的沟通。我们创造了很多游戏开发商用得到的技术,例如PhysX就是其中之一。另外还有很多显示相关的技术,像Tessellation等,之后游戏开发商凭借这些技术完美他们的游戏。总的来说,我们并非只是做了游戏之道这个名称,我们与游戏开发商一起推动这个产业。

专访黄仁勋:群核GPU效率远胜多核CPU

记者:事实上,目前游戏和图形硬件的研发都围绕微软DirectX来设计。那么在未来,您认为NVIDIA能够从规则的执行者转变为规则的制定者,从硬件上对游戏发展进行一定程度的规划?

黄仁勋:我们研究DirectX,我们也要OpenGL,但是越来越多的,这只是一个底线,越来越多的游戏需要更为复杂的引擎,我们有3D立体幻镜引擎、PhysX引擎还有iRay引擎。除了API之外,这些引擎也是非常复杂的,我们需要为游戏开发商开发这些引擎。

    我们将支持大众需要的API,如果DirectX不够优秀了,还会有OpenCL,OpenGL以及CUDA等很多引擎。我们支持所有的这些API,让游戏开发商自己选择适合的API。但是在未来,中间件变得越来越重要。PhysX和iRay对游戏开发商而言都太过于复杂了,我们需要将这些中间件做好提供给游戏开发商。

记者:您认为GPU的几何单元和曲面细分还能在哪些方面起作用?

黄仁勋:最大的需要视觉计算的领域恰恰是PhysX。PhysX是接下来最主要的应用。我们需要将PhysX变得简单易用并且可扩展。还需要支持所有的物理效果。如果我们想让游戏变得像电影一样,那PhysX一定是必要的。

专访黄仁勋:群核GPU效率远胜多核CPU

记者:请您谈谈GPGPU与APU之间的区别?

黄仁勋:APU是CPU和GPU的结合体,而GPGPU是一个GPU与一个CPU分开的。

    集成不是个坏想法,但主要是针对降低成本的好办法。集成之后就降低了创新的速度,所以一旦集成了,就面临研发速度的下降。有些人需要非常好的CPU与非常好的GPU,但是一旦集成了,就会出问题。比如说Intel有很好的CPU,而AMD的GPU比Intel的要好,如果将Intel的CPU与AMD的GPU结合,那一定是一个不错的APU!你需要很好的CPU和GPU,是因为你有需求,但是有些人不在乎。不过如果是不在乎CPU和GPU性能的人,我想他也一定不在乎APU。所以我认为在GPU和CPU密集的领域如游戏、高性能计算等方面,CPU和GPU还是独立的。

    直到技术发展到瓶颈了,才会出现集成的想法,但是你看现在我们的Tesla、Fermi、Kepler、Maxwell的发展趋势,不需要集成。

    并且APU的功耗很高,据称有9w-25w,这在移动设备上几乎就是个核电站,会非常热!对于移动设备来说,最高的顶限是500mw,实在是太糟了!比太糟还要再糟十倍!■<

0人已赞

关注我们

泡泡网

手机扫码关注