Oracle 助您更快速地在 Oracle 分布式云上运行要求最严苛的 AI 工作负载,包括生成式 AI、计算机视觉和预测性分析。现在,您可以使用 Oracle Cloud Infrastructure (OCI) Supercluster 扩展至 32768 个 GPU,并在未来扩展至 131072 个 GPU。*
了解如何加快 AI 训练和推理
OCI AI 基础设施能够提供极高的 AI 性能和价值,轻松运行所有 AI 工作负载,包括推断、训练和 AI 助手。
利用高性能挂载目标 (HPMT),实现高达 500 Gb/秒的持续吞吐量。使用 61.44 TB 的本地存储容量 — 对于具有 NVIDIA H100 GPU 的实例而言,这在业内属于是非常高的容量。
Oracle 的分布式云技术支持您在任意位置部署 AI 基础设施,满足您独特的性能、安全性和 AI 主权要求。
GPU 多达 131072 个,8 倍更高的可扩展性
网络结构的创新支持 OCI Supercluster 扩展至 131072 个 NVIDIA B200 GPU,以及超过 100000 个 NVIDIA Grace Blackwell Superchips 和 65536 个 NVIDIA H200 GPU。通过使用 NVIDIA A100 和 H100 GPU,OCI Supercluster 可实现比当前高 8 倍的可扩展性。
无论是执行推断、微调还是训练大型横向扩展的生成式 AI 模型,OCI 都能提供出色的裸金属和虚拟机 GPU 集群,通过超高带宽网络和高性能存储满足您的 AI 需求。
计算
• 8 个 NVIDIA H100 GPU;每个节点 61.44 TB NVMe SSD
• 8 个 NVIDIA A100 GPU;每个节点 27.2 TB NVMe SSD
• 4 个 NVIDIA L40S GPU;每个节点 7.38 TB NVMe SSD
存储
•块存储:每个卷高达 32 TB
• 对象存储:每个对象高达 10 TiB
• 文件存储:每个文件系统高达 8 EB
• 具有 Dense I/O 配置的存储集群
网络
• 基于融合以太网的 RDMA (RoCE v2)
• 节点与节点之间的延迟很短(微秒)
• OCI Supercluster 内部节点带宽:
o NVIDIA H100:3200 Gb/秒
o NVIDIA A100:1600 Gb/秒
o NVIDIA L40S:800 Gb/秒
由 NVIDIA L40S、H100 和 A100 GPU 驱动的 OCI 裸金属实例支持您高效运行大型 AI 模型,其中包括深度学习、会话式 AI 和生成式 AI 等使用场景。使用 OCI Supercluster,您可以将一个集群扩展至 32768 个 A100 GPU、16384 个 H100 GPU 以及 3840 个 L40S GPU。
基于 NVIDIA ConnectX 网络接口卡和基于融合以太网的 RDMA 第二版的高速 RDMA 集群网络支持您创建大型 GPU 实例集群,获得与本地部署环境下相同的超低网络延迟和应用可扩展性优势。
您无需为 RDMA 容量、块存储或网络带宽额外付费,同时前 10 TB 数据出站也完全免费。
OCI Supercluster 支持您访问本地存储、块存储、对象存储和文件存储来执行百亿亿级计算。相比其他主流云技术提供商,OCI 提供更高的高性能本地 NVMe 存储容量,可满足更高频次的训练中检查点要求,进而加快故障恢复速度。
同时,您还可以使用 HPC 文件系统(包括 BeeGFS、GlusterFS、Lustre 和 WEKA)进行规模化 AI 训练而无需担心性能下降。
观看首席技术架构师 Pradeep Vincent 讲解 OCI Supercluster 如何支持机器学习模型的训练和推理,并将其扩展到数以万计的 NVIDIA GPU。
使用基于 GPU 的 OCI 裸金属实例以及 RDMA 集群网络和 OCI Data Science 训练 AI 模型。
使用增强型 AI 工具分析海量历史客户数据对于确保每天数十亿笔金融交易安全至关重要。借助基于 NVIDIA GPU 的 OCI Compute 以及 OCI Data Science 等模型管理工具和其它开源模型,金融机构可以显著降低欺诈风险。
AI 常常被医院用于分析各种类型的医疗图像,例如 X 射线和 MRI 图像。经过良好训练的 AI 模型有助于高效识别需要放射科医生即刻审阅的高优先级图像并向其他人报告最终结果。
药物发现过程既耗时(可能长达数年)又耗费资金(可能耗资数百万美元)。AI 基础设施和分析可以帮助研究人员加快药物发现速度。此外,基于 NVIDIA GPU 的 OCI Compute 以及 AI 工作流管理工具(例如 BioNemo)还能帮助客户管理和预处理自己的数据。
Oracle 为大多数 AI 服务提供免费定价套餐,您还可以通过免费试用账户内的 300 美元储值来试用其它云技术服务。Oracle AI 是一个包括生成式 AI 在内的服务组合,它提供预构建机器学习模型,可帮助开发人员更轻松地将 AI 应用到应用和业务运营。
您只需为 OCI Data Science 支付计算和存储费用。
详细了解 RDMA 集群网络、GPU 实例和裸金属服务器等等。
注:为免疑义,本网页所用以下术语专指以下含义: