2560块4870X2打造天河一号超级计算机
泡泡网显卡频道10月30日 我国首台千万亿次超级计算机系统——“天河一号”由国防科学技术大学研制成功。在中国高性能计算机TOP100组织公布的2009年度前100强排名中,天河一号持续优秀。它的诞生也使中国成为继美国之后世界上第二个能够研制千万亿次超级计算机的国家。
天河一号不仅是国内首台千万亿次超级计算机,而且采用了创新的CPU+GPU异构计算设计,不但理论计算性能得到大幅提升,而且达到了很高的能效比。能效达431.7 MFlops/W,目前排列于Green500第五位。
天河一号的理论峰值计算性能高达1206万亿次双精度浮点数操作,LINPACK实测性能为560.3万亿次。该计算机系统的实测性能数据已经提交国际TOP500进行排名,按照2009年06月的性能数据,天河一号实测性能排列TOP500第四位,峰值性能列第三位。
天河一号采用6144个Intel通用多核处理器和5120个AMD图形加速处理器,内存总容量98TB,点对点通信带宽40Gbps,而共享磁盘总容量则达到1PB。该超级计算机系统将部署于天津滨海新区国家超级计算天津中心作为业务主机。
根据2009年中国高性能计算TOP100榜单公布的数据来看,业内知名的“天河一号”用了较少的处理器内核、更高的能效、达到了远超第二名的运算能力,当然其最大的亮点是首次使用GPU加速计算,而且是AMD的GPU:
天河一号的详细配置如下:
-
计算阵列:2560个计算结点,每个计算结点集成2个Intel CPU,配32GB内存。
-
加速阵列:2560个加速结点,每个加速结点含2个AMD GPU、 2GB显存。
-
服务阵列:512个服务结点,每个服务结点含2个Intel CPU、32GB内存。
总共使用了3072颗Intel Quad Core Xeon E5540 2.53GHz和3072颗Intel Quad Core Xeon E5450 3.0GHz,共计6144颗CPU,24576颗核心。
总共使用了2560块AMD Radeon HD4870X2显卡,5120颗运行在575MHz的RV770 GPU,每颗GPU拥有1GB GDDR5内存。
通过每个节点的主板来看,确实是两颗四核CPU搭配两块HD4870X2显卡的设计,外观和普通显卡没有区别,但运行频率比HD4850还要低,这应该是为了保证稳定性,从能效比的角度出发。
知道了详细的CPU和GPU配置之后,我们再来细算“天河一号”的理论计算能力与实际计算能力:
● 3072个E5540搭配3072个E5450的理论峰值计算能力为:
3072x(40.48+48)=271810.56GFlops≈272TFlops(双精度)
● 2560块HD4870X2的理论峰值计算能力为:
920x2x2560/5=942080GFlops≈942TFlops(双精度)
这样加起来的话,“天河一号”的理论双精度浮点运算能力为1214TFLPOS,比官方公布的峰值数据稍高一点。
“天河一号”的实测双精度浮点运算能力为564TFlops,一般CPU的运算效率最高可达80%左右,那么由此可估算出GPU所贡献的运算量为346TFlops,也就是说GPU在该超级计算机中的性能贡献已经超过了CPU!
通过估算来看,目前的GPU运算效率只有37%左右,官方称经过优化之后,GPU的计算效率可从20%提高至70%左右,看来“天河一号”还有很大的潜力可挖!
再来看看去年另外一台基于Tesla GPU的超级计算机,它是由东京工业大学打造的首款基于CPU+GPU异构计算架构的超级计算机,并率先挤入世界500强。
TSUBAME超级计算机通过加入170台Tesla S1070 1U系统,理论峰值性能为170TFLOP,2008年11月实测的Linpack性能达到了77.48 TFLOP,排名世界第29位,其后经过不断调试与优化,Linpack成绩提高至87.01TFlops,2009年6月排名第41位。
日本东京工业大学的TSUBAME总体实力和“天河一号”有很大的差距,但两者的运算效率差不多。由此可见中国国防科技大学的“天河一号”在异构计算方面的研发已经达到了世界顶尖水平,这对于我国超级计算机的发展来说是个不小的突破,也证明了异构计算已经成为了发展趋势。
虽然“天河一号”的核心技术和配件依然是由国外进口,但能够凭借自己的技术组装如此强大的超级计算机,在世界范围内也是极其罕见的。庞大复杂系统无论协同运行还是维护都需要付出很大的代价。也许有人会问:一台千万亿次的“天河一号”,是否等于10个百万亿次巨型机之和?中国科学院院士周兴铭说,系统的效能绝不是各单元计算效能的简单叠加。
“如果用高性能微处理器直接堆出一个千万亿次的系统,功率会大得惊人,用户可能连电费都付不起,同时机器的可靠性很低,根本无法稳定工作。表面上看‘干活’的器件多了,结果却是‘三个和尚没水吃’。”周兴铭说,“天河一号”采用7项关键技术,使得“一加一”的结果尽量接近“二”,从而发挥出机器最大的整体效能。
这7项技术包括:多阵列可配置协同并行体系结构、高速率扩展互联通信技术、高效异构协同计算技术、基于隔离的安全控制技术、虚拟化的网络计算支撑技术、多层次的大规模系统容错技术和系统能耗综合控制技术。
周兴铭介绍说,由于采用了一系列创新技术,这台计算机具有四大特点:
——高性能。无论是1206万亿次的峰值性能,还是563.1万亿次的Linpack实测性能,均位于国内榜首、世界优秀。
——低能耗。能耗是每瓦电创造的计算效能,“天河一号”目前能效为每瓦4.3亿次运算,与2009年6月公布的Top500(全球超级计算机前500强)业内知名的美国“走鹃”(Roadrunner)相当。参照2009年6月公布的Green500(全球绿色超级计算机前500强)排名,“天河一号”可以位居第5。
——高安全。“天河”实现了不同用户间数据和工作信息的相互隔离。对用户来说,相当于到银行租个保险柜,钥匙掌握自己手里。
——易使用。“傻瓜化”的操作界面和菜单、鼠标等常规操作,让机器的使用变得简单。同时,作为一台国际通用的标准化的超级计算机,“天河”上能运行来自各行业的各种程序,不存在兼容性问题。
公共服务设施承载三大功能
按照工程计划,“天河一号”将于2009年底至2010年在天津市滨海新区落户,成为国家超级计算天津中心的业务主机,面向国内外提供超级计算服务。 “天河”工程办公室主任李楠说,“天河一号”在投入使用后将实现三大功能。
第一,作为提供超级计算服务的全球公共科研设施,“天河”向国内外用户开放。无论身在何处,用户都可以通过国际互联网使用“天河”进行科学计算。
第二,作为产业带动平台,“天河”上集中的当今时代非常先进的信息技术将逐步转移到其他产业,从而解决国家与社会发展中的各种问题。
第三,作为吸引人才的平台,“天河”将进一步汇聚来自世界各地的尖端技术人才,对国民经济和世界科技的可持续发展作出更多贡献。
目前中国的巨型计算机用户主要集中在石油勘探、天气预报、基础研究等领域。上个世纪末期,西方发达国家的汽车、建筑、动漫等行业已经开始普及巨型计算机。
“我国对高性能计算机的需求已经进入一个高峰期。”李楠说,“天河”将用于石油勘探数据处理、生物医药研究、航空航天装备研制、资源勘探和卫星遥感数据处理、金融工程数据分析、环渤海生态动力和污染数值模拟、基础科学理论计算等方面。
与国家超级计算天津中心同时开始建设的,还有位于深圳的中心。这一南一北两个优异的超级计算中心,将成为中国高科技发展的重要引擎。
超级计算机是否只是科学研究者的“专利”?李楠介绍说,超级计算机的应用与老百姓的生活息息相关,最常见的天气预报就是超级计算的结果。而随着超级计算机的服务能力在未来进一步拓展,很可能会诞生一个庞大的巨型机服务产业,面向个人用户提供服务。
“天河的平台是开放的,我们愿意与全世界共享中国的创新成果。”刘光明说。■<