AI 基础设施

Oracle 助您更快速地在 Oracle 分布式云上运行要求最严苛的 AI 工作负载,包括生成式 AI、计算机视觉和预测性分析。现在,您可以使用 Oracle Cloud Infrastructure (OCI) Supercluster 扩展至 32768 个 GPU,并在未来扩展至 131072 个 GPU。*

OCI Supercluster:大规模推动生成式 AI 的基础设施 (0:55)

了解如何加快 AI 训练和推理

为何要选择 OCI AI 基础设施?

出众的 AI 性能和价值

OCI AI 基础设施能够提供极高的 AI 性能和价值,轻松运行所有 AI 工作负载,包括推断、训练和 AI 助手。

HPC 存储

利用高性能挂载目标 (HPMT),实现高达 500 Gb/秒的持续吞吐量。使用 61.44 TB 的本地存储容量 — 对于具有 NVIDIA H100 GPU 的实例而言,这在业内属于是非常高的容量。

支持主权 AI

Oracle 的分布式云技术支持您在任意位置部署 AI 基础设施,满足您独特的性能、安全性和 AI 主权要求。

OCI Supercluster 映像的可扩展性,说明如下 该图显示了代表计算和存储的盒子,这些盒子由线条连接在一起,形成了集群网络。左侧是最小的集群,仅有 16000 个 NVIDIA H100 GPU,有四个计算盒子和两个存储盒子。其右侧是一个搭载了 32000 个 NVIDIA A100 GPU 的集群,有 8 个计算盒子和 4 个存储盒子。然后是配置 64000 个 NVIDIA H200 GPU 的集群,有 16 个计算盒子和 8 个存储盒子。最后,右侧则是配备 128000 个 NVIDIA Blackwell 和 Grace Blackwell GPU 的集群,有 32 个计算盒子和 16 个存储盒子。此图表明了 OCI Supercluster 高达 8 倍的可扩展性,包括从左边最小的 16000 个 GPU 配置增加到右边最大的 128000 个 GPU 配置。

搭载了 NVIDIA Blackwell 和 Hopper GPU 的 OCI Supercluster

GPU 多达 131072 个,8 倍更高的可扩展性
网络结构的创新支持 OCI Supercluster 扩展至 131072 个 NVIDIA B200 GPU,以及超过 100000 个 NVIDIA Grace Blackwell Superchips 和 65536 个 NVIDIA H200 GPU。通过使用 NVIDIA A100 和 H100 GPU,OCI Supercluster 可实现比当前高 8 倍的可扩展性。

OCI AI 基础设施可满足您的所有需求

无论是执行推断、微调还是训练大型横向扩展的生成式 AI 模型,OCI 都能提供出色的裸金属和虚拟机 GPU 集群,通过超高带宽网络和高性能存储满足您的 AI 需求。

AI 基础设施产品图,说明如下
OCI 也提供前代 NVIDIA P100 和 V100 GPU
该图显示了 AI 基础设施的多个产品,从左侧的最小配置开始,然后逐步增加到中等规模和大规模配置。最小的配置仅具有 1 个 GPU,常用于在虚拟机中;而最大配置则配备了高达 100000 多个 GPU,可用于 RDMA 集群。

众多 AI 创新先行者使用 OCI 来托管、训练和推断新一代 AI 模型。

了解面向大规模 AI 训练的 OCI Supercluster

现已上市:使用 NVIDIA H100、A100 和 L40S GPU 的大规模横向扩展集群


计算
• 8 个 NVIDIA H100 GPU;每个节点 61.44 TB NVMe SSD
• 8 个 NVIDIA A100 GPU;每个节点 27.2 TB NVMe SSD
• 4 个 NVIDIA L40S GPU;每个节点 7.38 TB NVMe SSD

存储
•块存储:每个卷高达 32 TB
• 对象存储:每个对象高达 10 TiB
• 文件存储:每个文件系统高达 8 EB
• 具有 Dense I/O 配置的存储集群

网络
• 基于融合以太网的 RDMA (RoCE v2)
• 节点与节点之间的延迟很短(微秒)
• OCI Supercluster 内部节点带宽:
o NVIDIA H100:3200 Gb/秒
o NVIDIA A100:1600 Gb/秒
o NVIDIA L40S:800 Gb/秒

Supercluster 计算服务

由 NVIDIA L40S、H100 和 A100 GPU 驱动的 OCI 裸金属实例支持您高效运行大型 AI 模型,其中包括深度学习、会话式 AI 和生成式 AI 等使用场景。使用 OCI Supercluster,您可以将一个集群扩展至 32768 个 A100 GPU、16384 个 H100 GPU 以及 3840 个 L40S GPU。

Supercluster 计算服务图像
放大+
图中展示了基于 NVIDIA A100 GPU 的 GPU 集群节点和延迟低于 2 微秒的网络。

Supercluster 网络服务

基于 NVIDIA ConnectX 网络接口卡和基于融合以太网的 RDMA 第二版的高速 RDMA 集群网络支持您创建大型 GPU 实例集群,获得与本地部署环境下相同的超低网络延迟和应用可扩展性优势。

您无需为 RDMA 容量、块存储或网络带宽额外付费,同时前 10 TB 数据出站也完全免费。

Supercluster 网络服务
放大+
图中展示了一个 Supercluster RDMA 网络,其中每个节点配备了 8 个 NVIDIA A100 GPU,各个节点通过一个节点间总带宽高达 1.6 Tb/秒的全双工网络连接。

OCI Supercluster 存储服务

OCI Supercluster 支持您访问本地存储、块存储、对象存储和文件存储来执行百亿亿级计算。相比其他主流云技术提供商,OCI 提供更高的高性能本地 NVMe 存储容量,可满足更高频次的训练中检查点要求,进而加快故障恢复速度。

同时,您还可以使用 HPC 文件系统(包括 BeeGFS、GlusterFS、Lustre 和 WEKA)进行规模化 AI 训练而无需担心性能下降。

OCI Supercluster 的工作原理

观看首席技术架构师 Pradeep Vincent 讲解 OCI Supercluster 如何支持机器学习模型的训练和推理,并将其扩展到数以万计的 NVIDIA GPU。

AI 基础设施的典型使用场景

使用基于 GPU 的 OCI 裸金属实例以及 RDMA 集群网络和 OCI Data Science 训练 AI 模型。


深度学习训练和推断示意图
使用基于 GPU 的 OCI 裸金属实例以及 RDMA 集群网络和 OCI Data Science 训练 AI 模型。

使用增强型 AI 工具分析海量历史客户数据对于确保每天数十亿笔金融交易安全至关重要。借助基于 NVIDIA GPU 的 OCI Compute 以及 OCI Data Science 等模型管理工具和其它开源模型,金融机构可以显著降低欺诈风险。


AI 驱动的欺诈检测示意图
借助基于 NVIDIA GPU 的 OCI Compute 以及 OCI Data Science 等模型管理工具和其它开源模型,金融机构可以显著降低欺诈风险。

AI 常常被医院用于分析各种类型的医疗图像,例如 X 射线和 MRI 图像。经过良好训练的 AI 模型有助于高效识别需要放射科医生即刻审阅的高优先级图像并向其他人报告最终结果。


基于 AI 的医疗图像分析示意图
通过使用 GPU 驱动的 OCI Compute 运行经过良好训练的 AI 模型,医院可以分析医疗图像,即刻提供最终结果或识别高优先级图像以供进一步审阅。

药物发现过程既耗时(可能长达数年)又耗费资金(可能耗资数百万美元)。AI 基础设施和分析可以帮助研究人员加快药物发现速度。此外,基于 NVIDIA GPU 的 OCI Compute 以及 AI 工作流管理工具(例如 BioNemo)还能帮助客户管理和预处理自己的数据。


使用 AI 加速药物发现示意图
AI 基础设施和分析可以帮助研究人员加快药物发现速度,更好地管理和预处理数据。

赶快行动

试用 Oracle AI 并获得 30 天试用期

Oracle 为大多数 AI 服务提供免费定价套餐,您还可以通过免费试用账户内的 300 美元储值来试用其它云技术服务。Oracle AI 是一个包括生成式 AI 在内的服务组合,它提供预构建机器学习模型,可帮助开发人员更轻松地将 AI 应用到应用和业务运营。

  • 哪些 Oracle AI 和 ML 服务提供免费定价层?

    • OCI Speech
    • OCI Language
    • OCI Vision
    • OCI Document Understanding
    • Machine Learning in Oracle Database
    • OCI Data Labeling

    您只需为 OCI Data Science 支付计算和存储费用。

更多资源

详细了解 RDMA 集群网络、GPU 实例和裸金属服务器等等。

了解您可以通过 OCI 节省多少成本

在定价方面,Oracle Cloud 采用全球统一超低定价,并支持各种使用场景。请利用成本估算器并配置所需服务,以估算低费率。

联系 AI 主题专家

获取 AI 主题专家帮助,更好地构建您的下一个 AI 解决方案或在 OCI AI 基础设施上部署工作负载。

  • 专家能为您解答以下问题:

    • 如何开始使用 Oracle Cloud?
    • 可以在 OCI 上运行哪些 AI 工作负载?
    • OCI 提供哪些类型的 AI 服务?

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。