当前位置:首页 > 软件资讯 > AWS和NVIDIA战略合作为生成式AI提供新的超级计算基础设施软件和服务

AWS和NVIDIA战略合作为生成式AI提供新的超级计算基础设施软件和服务

分区:软件资讯

在AWS re:Invent 主题演讲中,AWS 和NVIDIA 宣布在人工智能(AI) 领域取得重大进展。 AWS 首席执行官Adam Selipsky 邀请NVIDIA 首席执行官黄仁勋上台,详细阐述了两家公司战略合作的成果。此次合作旨在提供最先进的基础设施、软件和服务,以推动生成式人工智能创新。此次合作将NVIDIA 的尖端技术与AWS 强大的云基础设施相结合,标志着人工智能开发的新时代。

AWS和NVIDIA战略合作为生成式AI提供新的超级计算基础设施软件和服务

借助NVIDIA GH200 Grace Hopper 超级芯片彻底改变云AI

此次合作的基石是AWS 将NVIDIA 的GH200 Grace Hopper 超级芯片引入云,这对于云提供商来说尚属首次。这些超级芯片代表了基于云的人工智能计算的重大飞跃。 GH200 NVL32 多节点平台使用NVIDIA NVLink 和NVSwitch 技术连接32 个Grace Hopper Superchip,这些芯片将集成到Amazon EC2 实例中。这些新的Amazon EC2 实例可满足各种AI、HPC 和图形工作负载的需求。

每个GH200 Superchip 在同一模块上结合了基于Arm 的Grace CPU 和NVIDIA Hopper 架构GPU,使单个EC2 实例能够提供高达20TB 的共享内存,以支持TB 级工作负载。这种设置允许联合客户扩展到数千个GH200 超级芯片,为人工智能研究和应用提供前所未有的计算能力。

AWS 推出了三个新的EC2 实例:由NVIDIA H200 Tensor Core GPU 提供支持的P5e 实例,专为大规模和尖端的生成式AI 和HPC 工作负载而设计。 G6 和G6e 实例分别由NVIDIA L4 和L40S GPU 提供支持,适用于AI 微调、推理、图形和视频工作负载。 G6e 实例特别适合使用NVIDIA Omniverse(一个用于构建支持AI 的生成3D 应用程序的平台)开发3D 工作流程、数字孪生和应用程序。

由NVIDIA GH200 提供支持的EC2 实例将配备4.5TB 的HBM3e 内存。比H100 支持的当前EC2 P5d 实例增加了7.2 倍。 CPU 到GPU 内存互连将提供比PCIe 高出7 倍的带宽,从而实现芯片间通信以扩展应用程序可用的总内存。

配备GH200 NVL32 的AWS 实例将成为AWS 上第一个具有液体冷却功能的AI 基础设施。这将有助于确保密集的服务器机架以最佳性能高效运行。由GH200 NVL32 提供支持的EC2 实例还将受益于AWS Nitro 系统,该系统是下一代EC2 实例的底层平台。 Nitro 将功能I/O 从主机CPU/GPU 卸载到专用硬件,提供更一致的性能和增强的安全性,以在处理过程中保护客户代码和数据。

在另一项改变游戏规则的公告中,在AWS 上运行的NVIDIA 软件将促进生成式AI 开发。 NVIDIA NeMo Retriever 微服务将提供使用加速语义检索创建准确聊天机器人和摘要工具的工具。

制药公司可以利用Amazon SageMaker 和DGX Cloud 上提供的NVIDIA BioNeMo 加速药物发现。

AWS 将利用NVIDIA NeMo 框架来训练精选的下一代Amazon Titan LLM。 Amazon Robotics 正在使用NVIDIA Omniverse Isaac 构建数字孪生,以便在部署到现实世界之前在虚拟环境中自动化、优化和规划自主仓库。

  • 最新资讯
  • 最新软件