HPC优化难题如何解之曙光篇
Doserv原创 Vicky Z 发表于:10年08月16日 14:51 [原创] 服务器在线
今年,众所周知曙光"星云"成功的拿下了TOP500第二名的好成绩,为我国在IT顶级领域一扬之前的土气。然而,也许很多人不知道,曙光5000A也曾有过一段跌宕起伏的系统优化过程,正是这段传奇般的优化过程,让曙光5000A实现了对前者的超越,无独有偶,曾经屈居第二的Cray Jaguar,如今成为了TOP500的状元,靠的也是大量的优化工作,因此HPC优化在超级计算的应用中显得尤为重要。
到底曙光在星云系统中做了什么样的优化,而这些优化措施又为什么能够在TOP500中有如此巨大的影响呢?王?先生给出了他的答案。
他认为,HPC系统的优化最重要的是体现HPC建设方对应用系统、硬件系统、操作系统的全方位掌控程度,top500的应用程序是linpack,那么事实上就是对linpack这个应用程序在硬件系统和操作系统甚至软件系统层面的各种优化。针对单独的应用程序的优化有时往往不同的人结果会差距很大,这就体现了优化的价值。由于linpack是一个标准,因此对linpack系统的优化空间往往已经触及极限,可以发挥的余地并不是很大,当然这也是把Linpack作为标准的一个重要原因。如果在实际的应用中,充分发挥优化手段,则可能带来数量级的性能提升。
也就是说曙光通过在硬件系统和操作系统甚至软件系统层面的各种优化,将曙光5000A提升到了如今的高度。作为世界NO.2的星云超级计算机到底又用了怎样具体的手段,从众多的超算中脱颖而出的呢?
王?先生指出,曙光只是将一切的优化步骤做到精确,并且很精准的掌控着每个计划的完成。他认为做HPC优化主要需要从以下几个方面入手:
1.系统稳定性优化,像星云这样规模的超级计算系统,稳定性是必须要保证的。
2.系统均衡性优化,将超级计算机内所有能够利用的资源充分利用,并保证各个部分的平衡性。
3.硬件和网络优化,特别是架构层优化,需要做到尽量没有瓶颈产生。
4.操作系统层优化,曙光通过对不同的函数库以及系统核心进行优化,以达到充分利用系统资源的目的。
5.应用层优化,在最终的应用层上将超级计算的性能充分发挥。
