GPU已成为中科院及清华大学科研工具-泡泡网

泡泡网显卡频道 PCPOP首页 / 显卡 / 新闻 / 正文

GPU已成为中科院及清华大学科研工具

2009年10月29日 09:07作者：邱大川编辑：邱大川文章出处：泡泡网原创

昨日，全球视觉计算的领导者NVIDIA公司在北京召开了“GPU计算开创计算新纪元——CUDA卓越中心（CCOE）授牌仪式暨CUDA未来之星颁奖仪式”为主题的会议。会议地点安排在了位于北京中关村的中科院过程研究所，NVIDIA联合创始人、总裁兼首席执行官黄仁勋亲自参加了本次会议，同时参加本次会议的还有中国科学院副院长李静海、清华大学计算机系高性能所（HPC）教授陈文光以及多名NVIDIA高管、IT精英、学者及科学研究人员。

本次会议的主要内容为授予中国科学院过程工程研究所和清华大学CUDA卓越中心称号的授权仪式，以表彰他们在中国推广CUDA和GPU计算以及利用GPU在高性能计算领域做出的突出贡献。

中国科学院过程工程研究所和清华大学不仅开设了CUDA编程课程普及GPU计算，而且还成功的将GPU计算应用到大量科学以及工程设计研究项目中。在此之前，CUDA卓越中心已经在哈佛大学、剑桥大学等五所学府设立。

NVIDIA联合创始人、总裁兼首席执行官黄仁勋先生当天表示：“中国科学院过程工程研究所和清华大学都是中国顶尖的学府和科研机构，我们授予它们CUDA卓越中心的称号将有助于推进他们在GPU计算领域的研究，并使GPU计算成为推动中国自主创新能力的重要力量。”

CUDA是由NVIDIA推出的通用并行计算架构。该架构充分将GPU强大的并行计算能力调动起来，使GPU能够在解决复杂计算问题上发挥其先天的优势。开发人员现在仅使用C语言（C语言是应用最广泛的一种高级编程语言），就能在基于CUDA架构的GPU（图形处理器）上编写程序，所编写出的程序可以在支持CUDA的处理器上以超高性能运行。 CUDA将来还会支持其它语言，包括FORTRAN， Python以及C++。

截止到目前全球已经有超过250所大学开设了CUDA编程和GPU计算的课程，仅在上个季度CUDA开发工具包就被下载了超过90,000次。令人可喜的是，在全球掀起GPU计算浪潮的同时，中国的科研院所、高等学府和企业不仅没有落后，相反在包括油气勘探、离散模拟、三维扫描等领域利用GPU计算方面走到了世界的前沿，GPU计算为中国提高自主创新的能力提供了的较好机会。

中国科学院副院长李静海院士表示：“中国科学院过程工程研究所一直致力于多尺度模拟的研究工作，提出通过问题、软件和硬件结构的相似性来提高计算效率，GPU为实现这一多尺度计算模式提供了机遇。该所成功借助GPU实现了高效低成本的多尺度并行计算，并在复杂多相反应器、生物和材料分子、纳微系统、二三次采油和测量数据处理等领域获得了良好的应用效果。该所通过项目合作还有力带动了中科院的其它单位和企业在CPU－GPU协同计算方面的开发与应用。相信这种新兴的模式将会成为中国超级计算发展的重要方向。”

清华大学计算机系高性能所（HPC）的陈文光教授表示：“清华大学已经展开对CUDA编程的多项研究和应用，并开展了进一步增强GPU可编程性的研究工作。相对于传统的CPU计算来说，GPU为大规模并行计算提供了一种新的选择，具有很大的发展潜力。”

为进一步扩大CUDA 的应用，中国科学院过程工程研究所不仅会举办CUDA编程与应用的讲座，还将应用CUDA建立针对多尺度计算流体力学和分子动力学模拟的大规模并行计算软件，并应用于反应器设计、优化与控制，生物与材料分子结构与功能的研究等领域。同时着手编撰有关CUDA编程与应用的专著。力争在三年内建成应用CUDA技术的多相系统多尺度模拟的软硬件平台。

清华大学在CUDA教育推广方面已经走在了全国的前列，微电子研究所副教授邓仰东开展了CUDA培训课程，已有来自全国的300多名学生参加；薛巍博士已经为本科生教授包含CUDA编程的“并行编程”课程，吴永卫博士则在其研究生课程班上开设“并行程序设计实践”。

GPU计算对于国内的编程人员并不陌生，之前有随机对12所大学的1700名学生进行调查。有将近56%的大学生听说过基于CUDA利用GPU进行的并行计算，并有69%的学生表示有计划基于CUDA和GPU进行开发。为了鼓励更多的在校编程爱好者学习基于CUDA和GPU计算的编程，NVIDIA联合创始人、总裁兼首席执行官黄仁勋先生在活动当天还为在之前在中国成功举办的NVIDIA CUDA 编程竞赛中获奖的学生进行颁奖，授予他们CUDA未来之星的称号。

挑战

过程工业是以物质和能量的转化为核心的基础产业门类，包括了化工、冶金、钢铁、能源和环保等影响国计民生的重要行业，目前占中国GDP的近1/6。但这些产业也面临着能耗和资源消耗量大、污染严重等严峻的挑战。探索和引领优化工艺流程的新技术，提升生产效率和产品附加值，正日益成为这些行业竞争的焦点之一。计算机模拟技术在此大有用武之地，而模拟对象的复杂性决定了它对超级计算的迫切需求。而基于CPU的传统超级计算设备购置成本高，实验周期长，使企业既有成本压力带来的顾虑，又难以适应快速变幻的市场节奏，极大地限制了模拟技术在过程工程中的应用。宝钢、中石化、中石油等中国过程工业的龙头企业一直致力于探索与应用既能实现工艺流程优化，又能节约成本，提升效率的最新技术。

解决方案

为解决这一难题，中科院过程所经过长期探索，逐步认识到多尺度结构和离散化是许多工程问题的共同特征，由此建立了相应的通用算法框架和专门的硬件体系结构，通过模拟对象、软件和硬件的结构一致性实现高效能、低成本的超级计算。而2007年NVIDIA（英伟达）CUDA和Tesla GPU的发布为由商用部件搭建此类系统提供了可能。过程所敏锐地抓住了这个机遇，于2009年成功搭建了主要基于NVIDIA（英伟达）TeslaGPU的多尺度离散模拟并行计算系统，单精度峰值超过每秒1000万亿次浮点运算。为过程模拟提供了强大而实用的工具从而服务于节能减耗和工艺流程优化。目前过程所正与联想和曙光合作将为国内近十家用户分别建立百万亿次级GPU+CPU异构并行系统，实现其在过程工程、信息技术和基础科学研究等多个领域的应用。

成效

与以前单纯的CPU平台相比，应用NVIDIA（英伟达）Tesla GPU（图形处理器）的新平台不仅成本大幅降低，还能较高提升计算机效率，如某大企业冶金过程的离散粒子模拟的速度提升了50倍。

中国科学院过程工程研究所研究员、超级计算系统项目负责人葛蔚说：“通过GPU对相关软件和硬件能力的提升，不仅能耗大幅降低，还可以使某种化工反应器模拟时间从一天缩短到２分钟。这是一个革命性的进展。”

利用GPU超级计算系统，过程所已成功开展了多相流动直接数值模拟、材料和纳微系统微观模拟和生物大分子动态行为模拟等应用，证明了多尺度离散化并行计算模式的优势和前景。例如，对过程工业中常用的流态化反应器，通过模拟方法上的改进，该系统已能按接近实时的速度从毫米级的颗粒尺度模拟米级的宏观行为。这种能力在某清洁汽油生产工艺的开发和优化中已经并将进一步发挥重要作用。该系统也正应用于缝洞型油藏的驱采过程模拟。

采用该系统的96个GPU,对含有100微米左右缝隙的0.16平方米的岩石样本，直接数值模拟的速度达到了4秒钟计算物理上的1小时，从而能有效替代能费时费力的物理实验。而对于冶金过程，该系统甚至能对数千立方米的高炉中厘米级的矿石物料进行全系统的三维动态模拟。如采用120个GPU，5个小时就能复现一个完整的布料过程。目前该系统已在宝钢新型钢渣处理工艺的开发中得到实际应用。在上述过程中，NVIDIA（英伟达）GT200 GPU的实际单精度速度普遍达到了CPU核的三十倍以上，甚至超过百倍，应用效果非常显著。

挑战

近些年来，全球经济一体化不断提速，各国之间贸易与人员往来日益频繁，海关面临的安防、安检效率与技术压力与日俱增。如何在不开箱的情况下，利用X射线对集装箱进行快速断层扫描，然后迅速完成图像三维重构和判断，进而达到完全透视的效果，成为挑战海关效率与准度的新课题。X光断层影像技术（XCT）是辐射成像的一种重要方式，三维成像室是当前的趋势所向。但其中的一个关键步骤——图像重建所涉及的巨大计算量是三维XCT应用于时间的所必须面临的主要问题之一。

解决方案

为解决这一难题，清华大学工程物理系粒子技术与辐射成像教育部重点实验室经过长期研究，推出了一款基于NVIDIA（英伟达）Tesla GPU的全新硬件与软件解决方案。搭配了NVIDIA（英伟达）Tesla GPU的清华大学解决方案在进行大型X光和CT扫描时，图像重建和处理速度提高了5-50倍，而且从二维上升到了三维，清除了传统扫描留下的许多盲点和死角，使得快速全面地检查行李和物品成为可能，使得快速高分辨率检查大体积工件成为可能。

结果

与传统CPU平台相比，基于NVIDIA（英伟达）CUDA 架构的清华大学解决方案能以更低的成本，更高的速度和更清晰的标准完成原有工作。三维图像重构的速度从过去使用普通CPU计算的几个小时缩短到基于GPU计算的几秒，甚至1、2秒。如果在10秒之内重建完成5123立体，是重建时间远小于CT扫描时间，也就是说基本达到实时重建。NVIDIA（英伟达）CUDA 架构技术给三维CT重建速度带来了重要的革命性的变化。

清华大学邢副教授表示：“GPU所具有的超长流水线和高度并行化，使真正的三维图像重构变成可能。基于GPU进行三维重建是提高其速度的非常有效的途径。”

目前，清华大学的新集装箱检查系统已经部署到香港国际机场。未来，该系统将在会议、海关、铁路等大型公用场合以及各种各样的无损检测领域广泛应用。

挑战

随着基于基因、蛋白质和DNA的微观生命科学研究日益深入，生命科学领域的数据量平均每12个月就增加一倍，研究者对超级计算机和集群系统的要求越来越高，需要不断探索新技术。浪潮一直是中国生命科学研究领域重要的超级计算机供应商之一，一直致力于新运算平台的研发与应用。

解决方案

为解决技术难题，浪潮“倚天”桌面超级计算机采用NVIDIA（英伟达）Tesla技术，建立了一个全新的运算平台，为中国科学院北京基因组研究所的大规模研究服务，包括基因组序列分析和多态性研究、基因及蛋白质表达研究、生物信息学系统研究及生命科学系统研究等。中国科学院北京基因组研究所曾经承担过1%国际人类基因组计划。

结果

在利用浪潮解决方案的NVIDIA（英伟达）Tesla 平台之前，传统CPU计算平台不仅能耗高、占地多，而且无法承担数据高速增长带来的挑战：任何一个小的修改，就要重新做一遍基因组比对，而每个人大约有30亿个基因对，数据量动辄都以TB来衡量（1tb=1024G），做一对染色体的基因测序就需要半个月时间。NVIDIA（英伟达）Tesla实现了CPU难以企及的密集并行计算，使超级计算机的体积缩小数倍，能耗降低5倍，噪音降低2-3倍，价格下降10倍，最重要的是，运算速度大幅提高。一台浪潮“倚天”桌面超算的计算能力达到每秒钟四万亿次。基于NVIDIA（英伟达）Tesla平台的BLAST软件中的一个关键模块运行速度比单个CPU快35倍。

中科院北京基因组研究所副所长于军说：“CPU集群好像一列火车，给定时间和速度就把你运到这里，所有的人员不得不挤在一起，还要排队等待。而桌面万亿次超级计算机就好像是给每个科研人员都配备了一辆越野车，增加了专家的自由度，挖掘了个人潜力，大大提升了科研效率。”

目前，为促进中国生命科学研究，浪潮和北京基因组研究所将基于GPU的BLAST软件转为开源软件，让中国乃至世界的科学家都能使用中国人在GPU上的研究成果。

挑战

近年来，随着油气勘探变得越来越复杂、成本越来越高，为了更准确地评估地表下岩层的状况，并确定地层地质结构，地震成像公司开始探索全新的相关技术。叠前时间偏移（PSTM）和叠前深度偏移（PSDM）就是此类新型地震成像技术。但是这种技术需要大规模的计算量，从前，这种大规模计算意味着购置与运营成本非常高昂。吉星吉达科技有限公司（GeoStar）是专门致力于这一领域的一家领先的中国地球物理服务供应商，该公司正在寻求既能运行复杂地震算法又能降低成本与功耗的方法。

解决方案

为解决这一难题，吉星吉达与NVIDIA（英伟达）共同推出了一款基于NVIDIA（英伟达）Tesla的全新硬件与软件解决方案。近几个月以来，中国科学院（CAS）地质与地球物理研究所一直在测试搭配了吉星吉达解决方案的 NVIDIA（英伟达）Tesla。在计算方圆740平方公里的叠前时间偏移数据时，与传统的66颗CPU（核心时钟频率3.4GHz）群集相比，24颗Tesla GPU（图形处理器）的处理速度提升了600倍以上。目前公司在叠前深度偏移（PSDM）的研发上也取得了成功，逆时偏移（RTM）的运算速度提高了100倍以上。中科院研究人员认为通过进一步调整，还可以达到更快的速度。这意味着用户不仅可以实现性能的大幅提升以及高效地采用高精度地球物理技术，，而且还能够在系统运行与散热的耗电成本上节省大笔开支。

结果

与传统CPU群集相比，NVIDIA（英伟达）与吉星吉达能够以更低的成本在PSTM运算上实现100—400倍速度提升，同时将功耗降低95%。

吉星吉达科技有限公司总经理刘钦表示：“对油气勘探行业来说，这是一款革命性的解决方案。基于CUDA架构的NVIDIA® Tesla高性能计算解决方案彻底颠覆了油气勘探地震数据处理的固有方式，可以节省大量成本。”

目前，由NVIDIA（英伟达）与GeoStar公司共同开发的解决方案得到中国国内石油天然气行业企业的广泛认可，并已开始用于大庆、胜利、吐哈等油田的勘探项目。这项技术正在被越来越多的油田接受，并引起了国际同行的热切关注，来自欧洲、印度、澳大利亚、美国等同行或来函或来人纷纷了解这项技术及其发展。■<

0人已赞

GPU已成为中科院及清华大学科研工具

关注我们