超级云：AI、云原生超级计算机跻身 TOP500 榜单

慧聪通信网 2021-07-06 10:05 来源：慧聪通信网

【慧聪通信网】今天 ISC 高性能计算大会 (ISC High Performance) 发布的 TOP500 榜单中，有 342 个系统采用了 NVIDIA 技术提供加速，其中包括70%的新系统，与排名前10的8个。

最新的全球最强系统榜单显示出越来越多的高性能计算中心在使用 AI，也体现出用户们在继续拥抱NVIDIA AI与加速计算、网络技术的组合来运行他们的科学和商业工作负载。

例如，榜单上使用 InfiniBand 的系统数量比去年增加了 20%。随着AI，HPC和模拟数据对于低延迟和加速的需求日益增加，InfiniBand已成为首选网络。

此外，名单上的两个新系统便是我们所称的超级云——一种新兴的共享超级计算机，能够同时满足人工智能、高性能计算和云端的需求。

超级云的到来

Microsoft Azure 利用集群将公有云服务提升到一个新的水平，在 TOP500 榜单上连续占据第 26 位到第 29 位。它们是超级云的一部分，是一台全球的人工智能超级计算机，如今地球上的任何用户都可以按需使用。

在HPL基准测试（也成为了Linpack），四个 Azure 系统中的每一个都实现了 16.59 Petaflop 的计算性能。Linpack 是衡量 64 位浮点数学运算的高性能计算性能的传统标准，也是 TOP500 榜单的参考依据。

迈入行业高性能计算时代

Azure 系统便是 NVIDIA 首席执行官黄仁勋所述“行业高性能计算革命”的一例，即 AI 与高性能计算和加速计算融合，正在推动科研和行业各个领域的发展。

在幕后，有 8 个 NVIDIA A100 Tensor Core GPU 为 Azure 系统的各个虚拟实例提供动力支持。每个芯片都有自己的 HDR 200G InfiniBand 通信接口，可以与 Azure 云中的数千个 GPU 建立快速连接。

英国研究人员采用云原生技术

剑桥大学首次成为英国最快的学术系统，其超级计算机在 Green500 世界上最节能的系统名单中排名第三，这是另一种超级云。它被称为 Wilkes-3，是世界上第一台云原生超级计算机，其使研究人员可以在不影响性能的情况下，共享具有隐私和安全性的虚拟资源。这要归功于经过优化的NVIDIA BlueField DPU可以执行安全、虚拟化和其他数据处理任务。

该系统使用 320 个连接在 HDR 200G Infiniband 网络上的 A100 GPU，为学术研究以及探索科学和医学前沿的商业合作伙伴加速模拟、人工智能和数据分析。

TOP500 榜单新秀采用 AI

榜单上许多由 NVIDIA 提供动力支持的新系统，凸显了 AI 对于科研和商业用户的高性能计算应用的重要性不断提升。

国家能源研究科学计算中心 (NERSC) 的 Perlmutter 以 64.59 Linpack petaflops 在 TOP500 中排名第 5，部分归功于其 6,144 个 A100 GPU。

该系统在最新版本的 HPL-AI 上提供了超过一半的 exaflops 性能。它是融合 HPC 和 AI 工作负载的新兴基准，它使用混合精度数学——深度学习和许多科学和商业工作的基础——同时仍然提供双精度数学的完全准确性。

AI 性能变得越来越重要，因为 AI 是 “美国能源部的一个增长领域，其可行性已被验证，正在计划投入生产，” NERSC 数据和分析服务组代理负责人 Wahid Bhimji 表示。

HiPerGator AI 以 17.20 petaflops 排名第 22 位，在 Green500 榜单中排名第 2，使其成为世界上最节能的学术超级计算机。它与 Green500 的榜首位置相差甚远——仅为 0.18 Gflops/Watt。

与最新名单上的其他 12 款系统一样，该系统采用了 NVIDIA DGX SuperPOD 的模块化架构，这一配置让佛罗里达大学能够快速部署世界上最强大的学术 AI 超级计算机之一。该系统还使其成为领先的AI大学，其既定目标是在2030 年前有 30,000 名AI相关专业的毕业生。

卢森堡的 MeluXina 在 HPL-AI 上以 10.5 Linpack petaflops排名第 37 位。该系统是首批在欧洲国家超级计算机网络中亮相的首个系统，，将用于在科研和商业应用中运用 AI 和数据分析。

Cambridge-1 在 500 强中排名第 42 位，达到 9.68 Linpack petaflops，成为英国最强大的系统，将为包括阿斯利康（AstraZeneca）、葛兰素史克（GSK）和Oxford Nanopore在内的学术和商业组织的英国医疗保健研究人员提供服务。

BerzeLiUs 以 5.25 petaflops 排名第 83，成为瑞典最快的系统。BerzeLiUs在 200G 的 InfiniBand 网络上连接了 60 个 NVIDIA DGX 系统，将HPC、AI 和数据分析用于学术和商业研究。是榜单上15个基于NVIDIA DGX的其中一个。

10 大系统助推 HPL-AI 采用

另一个迹象表明，AI 工作负载的重要性日益增加，榜单上有 10 个系统报告其 HPL-AI 得分是去年 6 月的 5 倍。大多数系统采用了 3 月发布的针对代码的重大优化，这是自田纳西大学的研究人员在 2018 年底发布该基准以来的首次升级。

新软件简化了通信，实现了 GPU 间链路，从而消除了等待主机 CPU 的时间。它还以 16 位代码的形式实现通信，而不是在Linpack 上默认使用的较慢的 32 位代码。

Azzam Haidar Ahmad 称：“我们将芯片间通信的时间减少了一半，并使其他一些工作负载能够并行运行，因此新代码相较于原代码平均改进了约 2.7 倍”。他帮助定义了该基准，现在是 NVIDIA 的高级工程师。

该基准测试虽然专注于混合精度数学计算，但仍然提供与 Linpack 相同的 64 位精度，这要归功于 HPL-AI 的一种循环方法，它能迅速优化一些计算。

Summit 的 HPL-AI 得分超过 1 Exaflop

经过优化后，与去年使用早期版本的代码所报告的得分相比，现在的得分大大高于基准线。

例如，橡树岭国家实验室（Oak Ridge National Lab，ORNL）的 Summit 超级计算机是第一台采用 HPL-AI 基准的超级计算机，其在 2019 年宣布使用第一版代码的得分为 445 Petaflop。今年峰会上的测试使用最新版本的 HPL-AI 测试，得分达到 1.15 Exaflops。

采用该基准的其他超级计算机包括日本的 Fugaku（世界上最快的系统）、NVIDIA 的 Selene（世界上最快的商业系统）和德国的最强超级计算机 Juwels。

于利希超算中心 (Jülich Supercomputing Center) 主任 Thomas Lippert 称：“我们使用 HPL-AI 基准，因为它能很好地衡量我们日益增多的 AI 和科研工作负载中的混合精度作业，而且能反映准确的 64 位浮点运算结果。”