在澳大利亚的超级计算之旅
在澳大利亚的堪培拉国家研究设施,来自庞大的国家的顶级思想聚集在一起解决了世界上一些最紧迫的问题。
从更好地了解极端天气条件,以帮助视力受损导航街道,由澳大利亚的英联邦科学和研究组织(CSIRO)进行的工作有可能改善生命和人性。
多年来,CSIRO的研究人员依靠Bragg,这是一个由氙气系统,基于墨尔本的高性能计算(HPC)系统的供应商建造的超级计算机,用于修复大型数据集。
虽然布拉格 - 以英国诺贝尔劳保雷斯劳伦斯和亨利布拉格命名,但在澳大利亚的一部分职业生涯和工作的亨利布拉格 - 是一个领先的HPC系统,当时它正在成为技术的创新速度,它正在变得过时。
“为了跟上全球研究,我们需要提供澳大利亚的科学家和工程师,具有高性能系统,可在科学咨询中提供效率,”CSIRO副CIO和科学计算负责人的Angus Macoustra表示。“他们可以更快地分析数据集,造型系统或模拟实验,他们可以比他们的假设得出结论更快。”
当您的研究正在查看正在进入Petabytes的数据集时,在您的网络中移动这种数据量,或者进入云提供商,在这两次和美元条款中都有很大的成本。安斯马豪斯,CSIRO虽然世界上一些最强大的超级计算机传统上是由中央处理单元(CPU)提供动力,但由于在天气预报等领域中更适合并行处理和运行深度学习算法而越来越多的图形处理单元(GPU)。
布拉格基本上是一个128节点GPU集群的堪培拉群体,是一个128节点的GPU集群。对于一个,GPU现在是布拉格的继任者Bracewell后面的三代。
对于Bragg的脚印,Bracewell在戴尔PowerEdge C4130服务器的形式中获得了超过114个节点,这些节点与NVIDIA GPU和英特尔Xeon CPU共用。Macoustra表示,CSIRO尚未有机会基准系统,但他估计“BRAREWELL已经让我们加倍来自所有HPC系统的总汇总性能”。
“更重要的是比基准结果更重要,我们看到真实的世界应用程序运行时间显着改善 - 我们的制造项目之一用于使用所有128个布拉格节点需要五个小时,现在只需一季度即可使用相同的分析在两个小时内布雷弗威尔。“
建立任何系统Bracewell的大小有其挑战。Macoustra表示,该系统的多个组件可能会导致问题,因此他在设置和配置超级计算机方面放置了结构化和可重复的方法。“我们在早期的项目中完成了一些东西,如投资明亮的计算群集管理软件 - 这使我们能够标准化我们的构建图像,并能够在点击按钮的单击按钮中部署我们的软件堆栈。”
处理权力和热量的问题也是一个挑战。Macoustra及其团队在堪培拉的数据中心服务提供商合作,解决了Bracewell的极端电源和冷却要求,同时仍在高度节能和环境可持续的设施中运行。
其他大挑战是在HPC中实现“高性能”。“有这么多的变量可以影响您的电缆长度诸如电缆长度的最终结果,以模糊操作系统中的设置变量,”MacOustra说。“谢天谢地,我有一支非常有才华的团队,现在已经这样做了这一点,他们很擅长与戴尔EMC这样的合作伙伴合作,优化这些系统的设计和设置。”
Macoustra在CSIRO的工作是在攻击云服务运行HPC工作负载的时候正在增长。亚马逊和微软等主要云供应商一直在提供旨在为各国政府和研究机构的服务提供多年来几年。通过一些估计,全球云HPC市场预计将达到2020年的1080亿美元,2015年的44亿美元。
Macoustra表示,云和内部部署HPC系统在CSIRO发挥作用,增加了基于云的HPC非常适合某些类型的分析和处理,例如丹尼斯鲍尔和她团队从澳大利亚电子卫生研究的工作中心及其基因组分析软件。事实上,据报道,CSIRO希望坐在其网站和亚马逊的数据中心之间的连接。
对于CSIRO气候科学中心进行的气候建模等应用,Macoustra表示,澳大利亚国家峰值HPC中心的内部内部HPC系统以及国家计算基础设施和Pawsey超级计算中心 - 是首选的。
“还有其他原因,但是使用使用的服务的主要驱动程序之一是数据 - 当您的研究正在查看正在进入Petabytes的数据集时,在网络上移动这种数据量,或者进入他说,云提供商在两次和美元条款中以大量成本为准。“
与此同时,CSIRO研究人员已经开始利用Bracedwell的HPC实力。例如,DATA61,CSIRO的数据创新组是使用深度学习技术来识别来自图像或实时摄像机馈送的对象,人,甚至是面部表达式。
“这种类型的科学在分析无人机或卫星图像的一部分中,在分析无人机或卫星图像的一部分,作为农业决策支持系统的一部分,通过可以帮助妨碍威胁环境的医疗器械,”Macoustra说。
CSIRO研究人员还使用BRACEWELL进行太阳能预测,其中每10秒采取天空和云层的图像以跟踪和预测云运动。然后,这产生了一种机器学习模型,以预测太阳辐照度和发电的变化。
Macoustra表示这对于离栅偏远地区电力系统有用,需要覆盖额外的柴油发电机的遮阳事件的先进警告,或者对于需要出价的大型网格连接的太阳能电池,以便提前五分钟时间。“使用Bracewell允许这位研究人员在一天内完成他的模型加工,而他以前他正在花一周。”