NVIDIA Mellanox InfiniBand护航百亿亿次AI超级计算
【慧聪通信网】2020年11月16日–NVIDIA于今日推出下一代NVIDIA®Mellanox®400GInfiniBand产品,为AI开发者和科研人员提供最快的网络互连性能,以助力其应对全球最具挑战性的问题。
随着药物研发、气候研究和基因科学等领域对计算需求的指数级持续增长,NVIDIAMellanox400GInfiniBand在通过提供全球唯一的完全硬件卸载和网络计算平台,实现了大幅的性能飞跃,可加快相关研究工作的进展。
第七代MellanoxInfiniBandNDR400Gb/s产品提供超低延迟,并在上一代产品的基础上实现了数据吞吐量翻倍,同时增加了新的NVIDIA网络计算引擎,实现了额外的加速。
包括Atos、戴尔科技、富士通、浪潮、联想和SuperMicro等公司在内的全球领先的基础设施制造商,计划将Mellanox400GInfiniBand解决方案集成到他们的企业级产品中去。此外,包括DDN、IBMStorage以及其它存储厂商在内的领先的存储基础设施合作伙伴也将支持NDR。
NVIDIA网络高级副总裁GiladShainer表示:“我们的AI客户的最重要的工作就是处理日益复杂的应用程序,这需要更快速、更智能、更具扩展性的网络。NVIDIAMellanox400GInfiniBand的海量吞吐量和智能加速引擎使HPC、AI和超大规模云基础设施能够以更低的成本和复杂性,实现无与伦比的性能。”
今日关于MellanoxInfiniBand的发布,代表了面向AI超级计算的业界最强大的网络解决方案。MellanoxNDR400GInfiniBand交换机,可提供3倍的端口密度和32倍的AI加速能力。此外,它还将框式交换机系统的聚合双向吞吐量提高了5倍,达到1.64petabits/s,从而使用户能够以更少的交换机,运行更大的工作负载。
扩展生态系统,面向更多的应用
一些全球最大的科研机构率先表达了对下一代MellanoxInfiniBand技术的关注。
微软公司AzureHPC和AI产品负责人NidhiChappell表示:“MicrosoftAzure与NVIDIA网络的合作关系源于我们共同的热情,即通过可扩展HPC和AI系统,帮助科学家和研究人员进行创新。在HPC领域,AzureHBv2VM率先将HDRInfiniBand引入云端,并为MPI客户应用在云上实现了超算级规模和性能,展示出可扩展MPIHPC应用到超过80,000核的能力。为满足AI创新的雄心,AzureNDv4VM充分利用HDRInfiniBand,为每个GPU分配了200Gb/s的带宽,每台VM可达1.6Tb/s的总互连带宽,且能够在保证低延迟不变的InfiniBand网络中,扩展到数千个GPU,从而将AI超级计算带到各个领域。微软对NVIDIAInfiniBand产品线的不断创新表示赞赏,我们期待双方持续保持紧密的合作伙伴关系。”
美国LosAlamos国家实验室下一代平台首席架构师StevePoole表示:“高性能互连技术是百亿亿次乃至更快超级计算机的基础,LosAlamos国家实验室持续引领HPC网络技术的最前沿,我们将持续与NVIDIA合作,对其最新的400Gb/s技术进行评估和分析,以应对LosAlamos国家实验室的各种应用需求。”
Jülich超算中心负责人ThomasLippert教授表示:“在百亿亿次计算的新时代,研究人员和科学家们力求突破,将数学建模应用于量子化学、分子动力学和民用安全领域。我们致力于利用下一代MellanoxInfiniBand,在构建欧洲领先的下一代超级计算机的进程中再创佳绩。”
Intersect360Research首席执行官AddisonSnell表示:“InfiniBand继续在创新和性能方面保持其领先性,并进一步拉大差距,使其成为了HPC和AI系统中的高性能服务器和存储互连的必选产品。随着应用对网络吞吐量需求的持续提升,对像NVIDIAMellanoxNDR400Gb/sInfiniBand这样的高性能解决方案的需求也有望不断扩展到新的用例和市场。”
产品规格和供货情况
卸载操作对AI应用至关重要。第三代NVIDIAMellanoxSHARP技术使InfiniBand网络能够卸载并加速深度学习训练操作,使AI加速能力提高32倍。与NVIDIAMagnumIO软件栈相结合,可开箱即用,加速科学计算。
基于MellanoxInfiniBand架构的边缘交换机的双向总吞吐量可达51.2Tb/s,实现了具有里程碑意义的每秒超过665亿数据包的处理能力。基于MellanoxInfiniBand的模块化交换机的双向总吞吐量将达到每秒1.64petabits,比上一代产品高5倍。
MellanoxInfiniBand架构基于业界标准,以确保前后代产品兼容性,并保护数据中心投资。基于该架构的解决方案预计将于2021年第二季度提供样品。