AWS 和 NVIDIA 正在构建的 65 台 ExaFLOP AI 超级计算机

随着人工智能爆炸式增长的持续,对更先进的人工智能 (AI) 基础设施的需求持续增长。为了满足这一需求,Amazon Web Services (AWS 和 NVIDIA 扩大了战略合作,通过构建能够提供 65 ExaFLOP 处理能力的新型强大 AI 超级计算机来提供增强的 AI 基础设施和服务。

此次合作旨在整合两家公司的最新技术,将人工智能创新推向新的高度。此次合作的一个关键方面是 AWS 成为第一家提供 NVIDIA GH200 Grace Hopper 超级芯片的云提供商。这些超级芯片配备了多节点 NVLink 技术,这是 AI 计算向前迈出的重要一步。GH200 Grace Hopper 超级芯片提供高达 20 TB 的共享内存,该功能可以为 TB 级工作负载提供支持,这是以前在云中无法实现的功能。

正在建设中的新型AI超级计算机

除了硬件方面的进步外,双方的合作关系还延伸到云服务领域。NVIDIA 和 AWS 将在 AWS 上托管 NVIDIA 的 AI 训练即服务平台 NVIDIA DGX Cloud。该服务将采用 GH200 NVL32,为开发人员提供单个实例中最大的共享内存。此次合作将使开发人员能够访问多节点超级计算,以快速训练复杂的人工智能模型,从而简化人工智能开发过程。

65 ExaFLOP 的处理能力

AWS 和 NVIDIA 之间的合作伙伴关系也延伸到雄心勃勃的 Ceiba 项目。该项目旨在设计世界上最快的 GPU 驱动的 AI 超级计算机。AWS将托管这台超级计算机,该超级计算机将主要服务于NVIDIA的研发团队。Project Ceiba 超级计算机与 AWS 服务的集成将为 NVIDIA 提供一套全面的 AWS 研发功能,从而有可能推动 AI 技术的重大进步。

合作总结

  • AWS 将成为第一家将采用全新多节点 NVLink 技术的 NVIDIA GH200 Grace Hopper 超级芯片引入云的云提供商。NVIDIA GH200 NVL32 多节点平台将 32 个采用 NVIDIA NVLink 和 NVSwitch 技术的 Grace Hopper 超级芯片连接到一个实例中。该平台将在 Amazon Elastic Compute Cloud (Amazon EC2) 实例上提供,这些实例与 Amazon 强大的联网 (EFA) 连接,由高级虚拟化 (AWS Nitro System) 和超大规模集群 (Amazon EC2 UltraClusters) 提供支持,使共同客户能够扩展到数千个 GH200 超级芯片。
  • NVIDIA 和 AWS 将合作在 AWS 上托管 NVIDIA DGX Cloud(NVIDIA 的 AI 训练即服务)。这将是首款采用 GH200 NVL32 的 DGX Cloud,为开发人员提供单个实例中最大的共享内存。AWS 上的 DGX Cloud 将加速尖端生成式 AI 和大型语言模型的训练,这些模型可以达到超过 1 万亿个参数。
  • NVIDIA 和 AWS 正在合作开展 Project Ceiba 项目,以设计世界上最快的 GPU 驱动的 AI 超级计算机,这是一个具有 GH200 NVL32 和 Amazon EFA 互连的大规模系统,由 AWS 托管,供 NVIDIA 自己的研发团队使用。这台首创的超级计算机配备 16,384 个 NVIDIA GH200 超级芯片,能够处理 65 exaflops 的 AI,NVIDIA 将使用它来推动其下一波生成式 AI 创新。
  • AWS 将推出另外三个新的 Amazon EC2 实例:由 NVIDIA H200 Tensor Core GPU 提供支持的 P5e 实例,用于大规模和尖端的生成式 AI 和 HPC 工作负载,以及由 NVIDIA L4 GPU 和 NVIDIA L40S GPU 提供支持的 G6 和 G6e 实例,分别用于 AI 微调、推理、图形和视频工作负载等各种应用程序。G6e 实例特别适合使用 NVIDIA Omniverse 开发 3D 工作流程、数字孪生和其他应用程序,NVIDIA Omniverse 是一个用于连接和构建支持 AI 的生成式 3D 应用程序的平台。
  • “AWS 和 NVIDIA 已经合作了超过 13 年,从世界上第一个 GPU 云实例开始。今天,我们为图形、游戏、高性能计算、机器学习以及现在的生成式 AI 等工作负载提供最广泛的 NVIDIA GPU 解决方案,“AWS 首席执行官 Adam Selipsky 说。“我们将继续与 NVIDIA 一起创新,使 AWS 成为运行 GPU 的最佳场所,将下一代 NVIDIA Grace Hopper 超级芯片与 AWS 的 EFA 强大网络、EC2 UltraClusters 的超大规模集群以及 Nitro 的高级虚拟化功能相结合。”

亚马逊 NVIDIA 合作伙伴

为了进一步增强其 AI 产品,AWS 将推出三个由 NVIDIA GPU 提供支持的新 Amazon EC2 实例。其中包括由 NVIDIA H200 Tensor Core GPU 提供支持的 P5e 实例,以及分别由 NVIDIA L4 GPU 和 NVIDIA L40S GPU 提供支持的 G6 和 G6e 实例。这些新实例将使客户能够在 AWS 上构建、训练和部署其尖端模型,从而扩展 AI 开发的可能性。

AWS NVIDIA DGX 云托管

此外,AWS 将托管由 GH200 NVL32 NVLink 基础设施提供支持的 NVIDIA DGX 云。该服务将为企业提供快速访问多节点超级计算能力的机会,使他们能够有效地训练复杂的人工智能模型。

为了促进生成式 AI 开发,NVIDIA 宣布在 AWS 上推出软件,包括 NVIDIA NeMo Retriever 微服务和 NVIDIA BioNeMo。这些工具将为开发人员提供探索人工智能开发新领域所需的资源。

AWS 和 NVIDIA 之间的扩展合作代表了 AI 创新向前迈出的重要一步。通过整合各自的技术,这些公司将为生成式人工智能创新提供先进的基础设施、软件和服务。此次合作不仅将增强人工智能开发人员的能力,还将为人工智能技术的新进展铺平道路。随着合作的不断发展,人工智能发展的可能性可能会达到前所未有的水平。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun268858.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年11月30日 下午9:11
下一篇 2023年12月5日 下午5:22

相关推荐