自2021年6月起,在卡尔斯鲁厄理工学院(KIT)运行的超级计算机“Hochleistungsrechner Karlsruhe”(HoreKa)是欧洲最快的计算机之一。经过最近的升级,它现在在全球每半年发布一次的Green500能效最高超级计算机榜单上排名第6,而在2021年该计算机排名第13位。
“借助超级计算机,我们可以执行对科学研究至关重要的复杂模拟、数据分析和计算,从而帮助我们找到当今最紧迫问题的答案,”卡尔斯鲁厄理工学院数字化与可持续性副总裁Kora Kristof教授表示。“但我们也必须考虑能耗和其他可持续性方面。我们在全球Green500榜单前10名中的出色表现表明,我们在KIT可以将性能和能效兼顾。”
“我们的超级计算机融合了多种组件,可提供极高的计算能力,例如解决方程组或为人工智能训练神经网络,”卡尔斯鲁厄理工学院科学计算中心(SCC)主任Martin Frank教授表示。“高效的冷却、智能电源管理和优化的硬件架构都有助于最大限度地减少能耗并促进科研工作的可持续性。”
新型高效加速器处理器
HoreKa是一个混合系统,由668个加速器处理器和60,000个标准商用处理器(CPU)组成。对于这两个称为HoreKa-Green和HoreKa-Blue的组,KIT研究人员又增加了配备88个新NVIDIA H100处理器的HoreKa-Teal,从而将HoreKa的性能从17 petaFLOPS提升至超过20 petaFLOPS;一个petaFLOP相当于每秒进行一万亿次运算。由于加速器采用了先进的制造工艺,处理器结构大幅缩小,因此它们的计算能效远高于之前。
新加速器的计算能力通过专门的高性能基准测试程序LINPACK进行测量。这是将HoreKa提名为能效最高计算机榜单的先决条件。该基准测试程序用于衡量计算系统解决定义方程组的能力。计算性能由计算解决方案所需的时间确定,能效则通过所使用的能量量得出。HoreKa以每瓦特64 gigaFLOPS的能效,在全球排名中位列第6。
优化多种参数以提升性能
为了取得这一令人印象深刻的成果,SCC团队优化了包括加速器最大功耗在内的多种其他参数。“即使是最小的调整也可能影响能效,”卡尔斯鲁厄理工学院国家高性能计算中心(NHR@KIT)的技术经理Simon Raffeiner表示。“多年来,我们积累了大量专业知识,同时提高了用户的意识。最终,按照某个基准测试的能效并不是真正重要的。所有在系统上实际运行的应用程序都必须尽可能高效。”
近十年来,KIT一直为其高性能计算机采用高效的热水冷却系统。“这最大限度地减少了全年对组件冷却的能耗,且废热可用于为我们的办公大楼供暖等,”Frank表示。SCC因其在这一技术中的开创性作用,于2017年荣获德国计算中心奖。
全面的用户支持
SCC的一个特别团队帮助研究人员优化其程序的性能和能效。通过Job Performance Monitoring System,他们可以显示和分析诸如能耗或CPU和GPU利用率等程序运行时参数。