专访NV&天河1A:中国骄傲 世界骄傲!
在参观并了解天河1A超级计算机之后,国家超级计算天津中心刘光明主任和NVIDIA®(英伟达?)公司PSG全球副总裁Shanker Trivedi接受了媒体采访,首先是国家超算天津中心刘光明的部分。
媒体:从天河一号A的配置上来看,主要采用了三种处理器,分别是Intel处理器、Tesla还有自主研发的飞腾1000。这三种不同架构的处理器各自不同的工作是什么?
国家超级计算天津中心刘光明主任:河一号当时提出来一个异构融合的结构,通俗地讲,就是CPU+GPU的组合,它的过程实际上是因为2005年到2007年,国防科技大学研究通用CPU和GPU加速器的结合来提高超级计算机的计算性能。这个问题的来由是什么呢?大家可以看到,不管是当前国际上还是自主研发的这种通用CPU,这些都是千万亿级计算机,或者更高级别的计算机,用通用CPU计算机去做的话很难做,因为规模大,功耗大,而且使用起来不一定很好。一个典型的例子,2011年下半年,当时美国IBM承担了一个美国计算机的研究项目,完全都是通用CPU的方法去构建最快计算机,结果这个项目流产了。研制它的费用很高,做出的机器规模也比较大占地规模大,功耗也比较大。实际上这之前,国防科技大学2005年到2007年就在研究,用通用CPU与GPU加速器结合,当时我们自己做了一个流处理器,结合起来之后发现有很大一类高性能计算机的应用,像流体力学、气动力学、FFT、CFD的东西,包括还有很多算法都适合这种结构,解决很多复杂的数学问题,这种结构是适用的。后来,在2009年的时候,天河一号做第一期的时候,当时因为要做一个实用性能比较高的系统,所以就选用了AMD的GPU来替代当时国防科技大学自己研究的流处理器,这样就诞生了当时的天河一号,这个机器当时排名是世界第五,亚洲第一。
后来我们发现了Tesla 2050,因为AMD的GPU没有ECC校验,而Tesla有ECC校验,所以在2010年的时候,我们做了一个升级,GPU换成了NVIDIA的,同时高速互联系统换成我们自己的了,我们自己银河的高速互联,我们自己强化的操作系统,升级了之后又做了一些优化,做出了天河一号A,整个过程是这样的。
另外天河一号A是怎么工作的?整体上这个系统分成两部分,一部分是Intel的CPU加上NVIDIA的GPU构成了一个现在新的系统,这个系统在整个所有天河系统的7/8,另外1/8的部分是用的我们自己的CPU,飞腾1000,这套系统应该说是实验优化的环境,我们有很多科技计算的程序,一些应用都在这上面做测试,做实验,有一些应用也是一种实际的应用,不断的调试,测试,完善。
天河1A的核心技术均为自主研发并且处于全球领先水平
媒体:在性能前10名的HPC里面有6个不是用混合架构的系统,我不知道您对这个如何评价,有6台这样的设备出现在最尖端的HPC的系统里面。
国家超级计算天津中心刘光明主任:国际上出现一个倾向,2010年10月之后,中国的天河一号A获得世界靠前之后,同时中国的曙光是世界第三,实际上欧美日政府对它的关注度提升了。国外建新的超算中心,投资一个新的机器这个周期比较长。天河一号A出来之后,政府追加了一些投资,有些投资可能提前执行了,是在原来的基础上把它扩充了。所以你看到,去年6月份出的三台都是天河一号A之前的,比较容易做,从政府投资,技术上来讲都比较容易,这是你所看到的前10台。实际上它存在的问题呢,就是要再扩大的话,比较受限,只能满足当前的需要。
媒体:我是有一个关于应用方面的问题想请教一下两位,刚才NVIDIA的领导也提到了,未来会把基于Kepler方面的应用推到成千上万个应用,同时今天也成立了这样一个联合的实验室,我觉得未来如何推动异构的编程可能是未来应用很重要的点,我想请教一下两位,在NVIDIA方面,我们在推动异构编程方面未来重点的方向是什么。在刘主任这方面,给我们大家分享一些关于异构编程和应用这方面的经验。
国家超级计算天津中心刘光明主任:在我们操作中心来讲,天河一号A这种异构结构几个典型的应用还是应用得不错的,最典型的石油勘探数据处理,经过天河一号A,已经完成了具有自主知识产权的石油三维历史偏移。这个软件过去是掌握在国外人手上,国外公司手上,对于我们来讲是高价政策,你要买价格很高,有的东西还不卖给你,他自己用还不卖。我们现在通过天河一号A,从2011年年初开始,跟东方物探进行合作,持续做了两年的时间,整体性能从通用CPU的版本上升到CPU+GPU的版本,整体性能提升了大概六倍。同时我们在这个基础上又做了一个基于计算系统做的优化,磁盘的数据处理系统变成一个基于内存的。另外包括现在的气动力学,大飞机的仿真,说得更通俗一点就是数字风洞的处理,还包括一些典型的应用,包括还有一些源的分析等等这些,现在应用都不错。
我们这次跟NVIDIA成立一个联合实验室,主要是两个方面,一个方面就是在异构结构上,在优化,用他们一些新的软件,提升用户使用的效率,这是一个方面。第二个层次,基于天河一号A新的通信处理技术,硬件和软件,刚刚讲的云计算,物联网,包括智慧城市,包括三网合一。这一块儿我们想跟NVIDIA,在这几个方面进行合作。落在滨海开发区,带动本地高端信息产业的发展,也做一个示范,带动我们国家在这些领域的快速发展。
刚才记者会上展示过过,人脸识别,这应该是NVIDIA的专长,做人脸的识别,图象处理是非常擅长的,这方面的应用,智慧城市来讲,国家安全方面有很好的应用前景。PC方面的合作之外,基于现在云计算这一大类新兴产业方面的发展,合作,还有很好的合作前景,也可以产生很好的合作效益。
实际上我们今天合作,包括云计算,在新兴产业方面怎么再上一个新台阶。那一块儿作为媒体来讲,天河一号获得世界靠前之后,我们实际上客观的讲,我跟很多媒体都说,我们实现一个重大的转身,或者叫华丽转身,一定是要上一个新的台阶做应用,做产业发展,其实天津给我们这个平台,起到了很好的科技招商,产业聚集作用。基于国家投资建设的超级计算中心,再结合各个部委现在支持建的云计算中心,或者叫数据中心,构建一个整体。前面的数据中心和云计算中心承担数据的搜集和用户的服务,数据的挖掘和分析是基于超级计算中心,这么一个模式和这么一个整体来讲,可以形成一个很好的生产力,要形成一个真正的生产力,不是停留在一个净资产上,只是做HPC大家去算一算。我跟很多参观的人讲,天河一号A能干什么呢,通常的讲是“算天算地算人”,把这三件事,三个“算”做成之后,才是真正国家关心的生产力,不是一个金字塔上大家看到的世界靠前。我们现在跟有很强优势的国外的公司、单位合作,目的就是实现强强结合,充分利用国外的技术优势,利用我们自己的优势,实现强强结合,达到双赢,最终的目的当然是推动我们国家向新的生产方式转变,推进滨海新区,开发区来讲,实际上是生产方式转变,新的增长点一个很关键的问题。