NVIDIA 宣布推出 DGX H100 系统 —— 全球最先进的企业级 AI 基础设施
【慧聪通信网】近日, NVIDIA 宣布推出第四代 NVIDIA® DGX™ 系统,这是全球首个基于全新 NVIDIA H100 Tensor Core GPU 的 AI 平台。
DGX H100 系统能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的大规模计算需求。每个 DGX H100 系统配备八块 NVIDIA H100 GPU,并由 NVIDIA NVLink® 连接,能够在新的 FP8 精度下达到 32 Petaflop 的 AI 性能,比上一代系统性能高 6 倍。
DGX H100 系统是新一代 NVIDIA DGX POD™ 和 NVIDIA DGX SuperPOD™ AI 基础设施平台的构建模块。新的 DGX SuperPOD 架构采用了一个全新的 NVIDIA NVLink Switch 系统,通过这一系统最多可连接 32 个节点,总计 256 块 H100 GPU。
新一代 DGX SuperPOD 提供 1 Exaflops 的 FP8 AI 性能,比上一代产品性能高 6 倍,能够运行具有数万亿参数的庞大 LLM 工作负载,从而推动 AI 的前沿发展。
NVIDIA 创始人兼首席执行官黄仁勋表示:“AI 已经从根本上改变了软件的功能和产出方式。利用 AI 来革新自身所处行业的公司也意识到了自身 AI 基础设施的重要性。NVIDIA 全新 DGX H100 系统将赋能企业 AI 工厂,助力其从数据中提炼出我们最具价值的资源,即‘智能’。"
宣布推出全球运行速度最快的 AI 超级计算机 —— NVIDIA Eos
NVIDIA 将率先使用突破性的新型 AI 架构来构建 DGX SuperPOD,赋能 NVIDIA 研究人员的研究工作,推动气候科学、数字生物学和 AI 未来的发展。
“Eos”超级计算机将于今年晚些时候开始运行,共配备 576 台 DGX H100 系统,共计 4608 块 DGX H100 GPU,有望成为全球运行速度最快的 AI 系统。
NVIDIA Eos 预计将提供 18.4 Exaflops 的 AI 计算性能,比日本的 Fugaku 超级计算机快 4 倍,后者是目前运行速度最快的系统。在传统的科学计算方面,Eos 预计将提供 275 Petaflop 的性能。
对于 NVIDIA 及其 OEM 和云计算合作伙伴,Eos 将成为其先进 AI 基础设施的蓝图。
借助 DGX H100 系统、DGX POD 和 DGX SuperPOD,轻松扩展企业级 AI
在企业从初始项目发展到广泛部署的过程中,DGX H100 系统能够实现轻松扩展,满足企业的 AI 需求。
除了八块 H100 GPU 以及总计 6400 亿个晶体管之外,每个 DGX H100 系统还包含两个 NVIDIA BlueField®-3 DPU,以用于卸载、加速和隔离高级网络、存储及安全服务。
八个 NVIDIA ConnectX®-7 Quantum-2 InfiniBand 网卡能够提供 400 GB/s 的吞吐量,可用于连接计算和存储,这一速度比上一代系统提升了一倍。第四代 NVLink 与 NVSwitch™ 相结合,能够在每个 DGX H100 系统中的各个 GPU 之间实现 900 GB/s 的连接速度,是上一代系统的 1.5 倍。
DGX H100 系统使用双 x86 CPU,能够与 NVIDIA 网络和 NVIDIA 合作伙伴提供的存储设备相结合,使 DGX POD 能够灵活用于各种规模的 AI 计算。
借助 DGX H100 系统,DGX SuperPOD 可成为具有可扩展性的卓越的企业级 AI 中心。DGX SuperPOD 中的 DGX H100 节点和 H100 GPU 由 NVLink Switch 系统和 NVIDIA Quantum-2 InfiniBand 连接,带宽速度可达 70 TB/s,比上一代产品高 11 倍。NVIDIA 合作伙伴提供的存储设备将经过测试和认证,以满足 DGX SuperPOD AI 计算的需求。
多个 DGX SuperPOD 单元可组合使用,为汽车、医疗健康、制造、通信、零售等行业提供开发大型模型所需的 AI 性能。
NVIDIA DGX Foundry 托管的开发解决方案正在全球扩展,使 DGX SuperPOD 客户能够在他们的系统安装期间,立即获取先进的计算基础设施。北美、欧洲和亚洲的新增地点支持远程访问 DGX SuperPOD(或其中部分)。
DGX Foundry 中包含 NVIDIA Base Command™ 软件,后者能够使客户基于 DGX SuperPOD 基础设施,轻松管理端到端 AI 开发生命周期。
通过在全球各地的 Equinix IBX® (International Business Exchange™ ) 数据中心托管的 NVIDIA LaunchPad 实验室,符合资格的企业可以免费体验 NVIDIA Base Command 和 DGX 系统。
企业级 AI 软件 MLOps 助力客户提高 AI 采用率
为支持正在进行 AI 开发的 DGX 客户,NVIDIA DGX-Ready 软件合作伙伴(包括 Domino Data Lab、Run:ai 和 Weights & Biases 等)提供的 MLOps 解决方案将加入“NVIDIA AI 加速”计划。
参与活动的合作伙伴提供的 MLOps 应用程序将经过验证,为 DGX 客户提供企业级工作流以及集群管理、调度与编排解决方案。
此外,NVIDIA DGX 系统现在包含 NVIDIA AI Enterprise 软件套件,该套件新增了对裸金属基础设施的支持。DGX 客户可使用软件套件中包含的预训练 NVIDIA AI 平台模型、工具包和框架(例如 NVIDIA RAPIDS™、NVIDIA TAO 工具套件、NVIDIA Triton 推理服务器™ 等)来加快工作速度。
DGX-Ready 托管服务计划能够简化 AI 部署
随着企业 AI 采用率不断提高,客户正在寻求更多选择,以便添加实现业务转型所需的基础设施。NVIDIA 推出新的 DGX-Ready 托管服务计划,能够为希望与服务提供商开展合作来监督其基础设施的客户提供支持。
德勤是率先与 NVIDIA 合作开展此计划的全球提供商,并将经过认证,可与区域供应商(CGit、ePlus、Insight Enterprises 和 PTC System)一起,为欧洲、北美和亚洲的客户提供支持。
德勤咨询首席合伙人兼 AI 与数据运营服务负责人 Jim Rowan 表示:“只有企业能够将技术集成到运营中时,AI 才可能助推业务实现突破。借助新的 DGX-Ready 托管服务计划,客户可以轻松采用先进的 AI 技术以及由德勤全球专家管理的 NVIDIA DGX 系统和软件。”
DGX-Ready 生命周期管理计划助力实现轻松升级
现在,客户可以通过新的 DGX-Ready 生命周期管理计划,借助新的 NVIDIA DGX 平台升级其现有 DGX 系统。
参加 DGX-Ready 生命周期管理计划的 NVIDIA 渠道合作伙伴将可以更新上一代 DGX 系统,以供新客户进行购买,并扩展用于 AI 基础设施的全球通用系统的获取途径。
供货信息
从第三季度起,NVIDIA 的全球合作伙伴将开始供应 NVIDIA DGX H100 系统、DGX POD 和 DGX SuperPOD。
客户还可以选择在由 Cyxtera、Digital Realty 和 Equinix IBX 数据中心 等 NVIDIA DGX-Ready 数据中心合作伙伴运营的托管设施中部署 DGX 系统。