兼并重组:赛迪经智    城市经济:赛迪方略    企业管理:赛迪经略    信息工程设计:赛迪设计

解析中国并行加速器应用生态环境及技术发展趋势

2014-08-20   赛迪顾问 电子信息产业研究中心   刘新

  异构计算被视为继单核、多核之后的第三个时代,它将打破摩尔定律,有效解决能耗、可扩展性等问题。在多样化的应用背景下,高性能计算将从传统的完全依靠x86服务器,演变为以应用需求为区分发展方向,其中大规模并行计算的超级计算机则会走向GPU。

  一、中国并行加速器应用生态环境

  1、科研性的应用较多,生产性的应用较少

  目前,国内在并行加速器方面应用研究只是在一些科研机构、院校和军队在开展。2004年,清华大学利用GPU的并行计算能力和数据流处理能力,在GPU上实现了一种新的辐射度计算方法,并实现Jacobi迭代法快速求解线性方程组。2007年,西安618所完成了完全兼容OGL2.x的FPGA实现三维图形加速硬件项目。另外,中科院计算技术研究所、华中科技大学、西南交通大学等也相继针对特定应用在GPU上进行了一些实验验证。并且,一些科研院所及大学也通过专项资金支助GPU应用软件研发。如2013年,在中国科学院“十二五”信息化专项科研信息化应用推进工程“面向云服务的超级计算环境建设与应用”项目中设立了“基于GPU的应用软件研发”课题,旨在进一步推动超级计算多样化的发展,推动GPU超级计算在中科院各科学领域的应用。

  总体而言,目前在中国并行加速器应用中科研性的应用比较多,生产性的应用比较少,使得并行加速器的经济效益难以体现,很难形成研发应用良性循环。另外非常重要的原因还是在各个企事业单位,尤其是在科研跟企业的连接性方面都很缺乏应用型人才,使得生产性的应用脱节。目前,欧美等国家已经有一些专业的认证培训机构或组织,如ANEO,CAPS,HPCProject等。相比于国外市场,中国基于CPU-GPU认证培训由于人才、市场等原因,基本属于起步阶段。因此,想要在中国落实市场共识和推动产业发展的关键,就需要促进应用人才的培养。

  2、产、学、研、用合作开始紧密,生态环境逐步完善

  科研院所、大学院校在推广并行加速器计算、利用GPU在高性能计算领域、推广CUDA统一计算设备架构等方面也是走在最前沿。中国科学院过程工程研究所、清华大学、中国同济大学、上海交大、西安交大等不仅开设了CUDA编程课程以普及GPU加速计算,而且还成功的将GPU加速器应用到大量科学以及工程设计研究项目中。同济大学海洋学院地球物理系成功部署了一套GPU高性能计算集群,用于地球物理学和反射地震学方面的研究;中国科学院过程工程研究所成功借助GPU实现了高效低成本的多尺度并行计算,并在复杂多相反应器、生物和材料分子、纳微系统、二三次采油和测量数据处理等领域获得了良好的应用效果,而且通过项目合作还有力带动了中科院的其它单位和企业在CPU+GPU协同计算方面的开发与应用。上海交通大学GPU加速的研究项目包括模拟和研究聚变能(针对激光等离子体相互作用物理学的胞中粒子模拟)、提升航空机载光学设备的性能(针对高速流的直接模拟蒙特卡洛解算器)以及改善对基因之间依存关系的检测与理解(针对基因的贝氏网络学习算法)。

  目前,在高性能计算架构方面面临着两大挑战,一个是服务器存放空间紧张,另一个是高性能计算的能耗,而CPU+GPU架构可以有效地应对这两大挑战,它也是未来高性能计算架构的发展方向。目前,国内的服务器厂商,如浪潮、曙光、联想和宝德,也开始积极选择与GPU厂商NVIDIA和AMD进行合作,特别是在个人超级计算机上,普遍采用CPU+GPU的混合计算方式,将GPU作为加速处理器,满足入门级HPC市场的用户需求。如利用这一混合架构,曙光推出了一体化个人高性能计算机PHPC200-H,浪潮推出了桌面超级计算机“倚天”,宝德推出了PowerScale8000G,它以超强运算能力和低成本打造100TFlops计算中心而著称,在相同计算能力下成本缩减5倍,功耗降为原来的1/21。另外,国内服务器厂商如浪潮跟一些行业用户如中国石油做GPU开发与合作,并且也取得了一些开发的成果。

  二、并行加速器技术发展趋势

  1、自动、并行的编译器提升优化效率

  受工艺、材料和功耗的物理限制,CPU处理器的频率不会在短时间内有飞跃式的提高,因此采用并行方式提高计算能力势在必行。在未来数年内,随着芯片内核数量持续增长,多核并行计算将成为一种普及的计算模式,并且,多核和众核处理器的普及使得GPU并行处理能深入更多的应用领域。但多核技术也面临一些问题,当GPU集成的核心数量越来越多时,如果运算单元增多,势必要求控制单元减少,这是以增加优化工作量为代价的。另外,“CPU+GPU”或“CPU+MIC”的并行处理架构运行如何实现高效协同,目前,完全自动的编译器很难解决问题,而在编译器层次以上的调整和优化,则需要人工干预,一种可行方法是加上编译器提示(Hint),手工将可并行化的部分交由加速器处理,这部分的并行化是由编译器来完成,这是目前行之有效的一种快速程序移植的手段。未来,随着编译器技术不断深入与发展,能自动、并行处理的编译器将是发展方向,借助自动化并行功能,编译器可检测能够以并行的方式安全、高效地执行的循环,并生成多线程代码,大幅提升优化工作效率。另外,能实现跨平台架构处理的编译器也是一种趋势,它将极大的降低应用程序的迁移难度,并降低迁移成本。

  2、基于异构计算的CPU+GPU混合计算模式

  异构计算被视为继单核、多核之后的第三个时代,它将打破摩尔定律,有效解决能耗、可扩展性等问题。在多样化的应用背景下,高性能计算将从传统的完全依靠x86服务器,演变为以应用需求为区分发展方向,其中大规模并行计算的超级计算机则会走向GPU。基于CPU+GPU混合计算模式,主要通过GPGPU(即通用图形处理器)为CPU提供加速辅助,GPU非常善于处理整体及部分工作中的大量代码,并表现出非常强的数据或线程级并行能力,且具有峰值浮点计算能力高、廉价、配置灵活、易于扩展、使用方便、能效高等突出优点。而CPU与GPU互联互通、互相协同,使它们各自优势得以充分发挥,可以真正发挥异构计算的高效节能优势。未来,强劲性能不再是衡量超级计算机价值和影响力的唯一指标。所有未来的系统均将需要实现更高的性能,同时降低功耗。在2013年6月最新公布的Green500榜单上,采用“Xeon E5+NVIDIA Tesla K20”的异构运算体系的Eurora超级计算机和Aurora Tigon夺得了前两名的佳绩,不仅展示了NVIDIA K20强大的并行加速计算能力,而且,也让我们认识到并行加速器在节能降耗方面表现出的强大优势。

  3、CPU和GPU协同运算,融合发展

  未来,CPU与GPU是走向融合还是互相整合,业界存在不同的观点。赛迪顾问认为,受制造工艺所限,CPU完全整合GPU可能性不大,最多只可能整合中低端产品,而要想获得更强大的并行计算性能,只可能是专为浮点运算而设计的新一代架构GPU产品。GPU是否会因为通用性的提高而替代CPU?我们认为短期内也不大可能,虽然从发展历程来看,目前GPU已经能够借助固定功能单元来实现原先属于CPU的功能,但可以看出GPU功能主要增加方向是图形流水线中的可编程性,尤其是视觉领域需要大量的物理特效和人工智能计算或者图像后处理,而这些计算任务在GPU上完成拥有更高的加速比。同时,我们也应看到,GPU快速发展的同时,CPU的并行能力也在不断提升,并且这种提升也不会停滞不前。所以说,CPU和GPU,谁也不可能取代谁,双方是互补的关系,只有CPU和GPU协同运算,相互融合发展,各自去处理最擅长的任务,才能发挥出计算机最强的效能。

标签:中国,并行加速器,生态环境,技术发展趋势,GPU,CPU,电子信息
0