AIインフラストラクチャ

生成AI、コンピュータ・ビジョン、予測分析など、最も要求の厳しいAIワークロードを分散クラウドのあらゆる場所でより迅速に実行します。Oracle Cloud Infrastructure (OCI) Superclusterを使用して、現時点で32,768個のGPU、将来的には131,072個のGPUまで拡張できます。

OCI Supercluster: 生成AIを大規模に推進するインフラストラクチャ(0:55)

AIのトレーニングと推論を高速化する方法

OCI AIインフラストラクチャで実行する理由

最高水準のAIパフォーマンスと価値

OCI AIインフラストラクチャは、推論、トレーニング、AIアシスタントを含むすべてのAIワークロードに、最高水準のパフォーマンスと価値を提供します。

HPCストレージ

最大500Gb/秒の持続スループットを実現する高性能マウント・ターゲット(HPMT)の利点を活かすことができます。NVIDIA H100 GPU搭載のインスタンスでは、業界最高水準の61.44 TBのローカルストレージ容量を使用できます。

ソブリンAIを実現

オラクルの分散クラウドでは、AIインフラストラクチャをどこにでも導入可能になるため、パフォーマンス、セキュリティ、AI主権の要件を満たせるよう支援します。

OCI Superclusterのスケーラビリティの図と説明 この図では、コンピュートとストレージを表すボックスが、クラスタ・ネットワークの線で結ばれています。左端には、16,000個のNVIDIA H100 GPUを搭載した最小クラスタ用の4個のコンピュートボックスと、2個のストレージボックスがあります。その右側には、32,000個のNVIDIA A100 GPUを搭載したクラスタ用の8個のコンピュートボックスと、4個のストレージボックスがあります。その隣には、64,000個のNVIDIA H200 GPU用の16個のコンピュートボックスと8個のストレージボックスがあります。最後に、右端には、128,000個のNVIDIA BlackwellおよびGrace Blackwell GPU用の32個のコンピュートボックスと16個のストレージボックスがあります。これは、左端の最小構成である16,000個のGPUから右端の最大構成である128,000個のGPUまで、8倍に拡張できるOCI Superclusterのスケーラビリティを示しています。

NVIDIA BlackwellおよびHopper GPU搭載のOCI Supercluster

最大131,072のGPU、8倍のスケーラビリティ
ネットワーク・ファブリックの革新により、OCI Superclusterは最大131,072のNVIDIA B200 GPU、100,000を超えるBlackwell GPUを搭載したNVIDIA Grace Blackwell Superchips、および65,536 NVIDIA H200 GPUまで拡張できます。NVIDIA A100およびH100 GPUを搭載したOCI Superclusterでは、現在の限界値を最大8倍上回る拡張性を実現します。

あらゆるニーズに対応するOCIのAIインフラストラクチャ

推論や微調整の実行、生成AI用の大規模スケールアウト・モデルのトレーニングなど、OCIはお客様のAIニーズに合わせて、超広帯域ネットワークと高いパフォーマンス・ストレージを実装した業界をリードするベアメタルや仮想マシンのGPUクラスタ・オプションを提供します。

AIインフラストラクチャ製品の図と説明
OCIは旧世代のNVIDIA P100およびV100 GPUも提供しています。
画像は、左下から始まり、最小構成から徐々に中規模、大規模構成へと進むAIインフラストラクチャの複数の製品を示しています。最小構成は仮想マシンにわずか1つのGPUを搭載したもので、最大構成はRDMAクラスタに10万以上のGPUを搭載したものです。

AIイノベーターは、OCIを活用して次世代AIモデルをホスト、トレーニング、推論します。

大規模AIトレーニングのためのOCIクラスタの詳細

現在利用可能: NVIDIA H100、A100、およびL40S GPU搭載の大規模なスケールアウト・クラスタ


コンピュート
• 8x NVIDIA H100 GPU、ノードあたり61.44TB NVMe SSD
• 8x NVIDIA A100 GPU、ノードあたり27.2TB NVMe SSD
• 4x NVIDIA L40S GPU、ノードあたり7.38TB NVMe SSD

ストレージ
• ブロック・ストレージ: ボリュームあたり最大32TB
• オブジェクト・ストレージ: オブジェクトあたり最大10TiB
• ファイル・ストレージ: ファイル・システムあたり最大8EB
•Dense I/Oシェイプのストレージ・クラスタ

ネットワーキング
• RDMA over Converged Ethernet (RoCE v2)
• ノード間の待機時間が数マイクロ秒
• OCI Superclusterのノード間帯域幅:
o NVIDIA H100: 3200 Gb/秒
o NVIDIA A100: 1600 Gb/秒
o NVIDIA L40S: 800 Gb/秒

スーパークラスタ向けコンピュート

NVIDIA L40S、H100、およびA100 GPUを実装したOCIベアメタル・インスタンスにより、顧客はディープラーニング、対話型AI、生成AIなどのユースケース用に大規模AIモデルを実行できます。OCI Superclusterでは、顧客はクラスタあたり最大32,768個のA100 GPU、16,384個のH100 GPU、3,840個のL40S GPUまでスケールアップが可能です。

スーパークラスタ向けコンピュートの図
拡大+
図は、NVIDIA A100 GPUを実装したGPUクラスタ・ノードと、レイテンシ2マイクロ秒以下のネットワーキングを示しています。

スーパークラスタ向けネットワーキング

RDMA over Converged Ethernet v2を実装したNVIDIA ConnectXネットワーク・インターフェイス・カードによる高速RDMAクラスタ・ネットワーキングにより、オンプレミスと同じ超低レイテンシ・ネットワーキングとアプリケーションのスケーラビリティを備えたGPUインスタンスの大規模クラスタを作成できます。

RDMA機能、ブロック・ストレージ、ネットワーク帯域幅に追加料金を支払う必要はなく、最初の10TBのイグレスは無料です。

スーパークラスタ向けネットワーキング
拡大+
この図は、合計1.6 Tb/秒のノード間帯域幅を持つ全二重ネットワーク・ファブリックを介して連携されたノードあたり8個のNVIDIA A100 GPUを持つスーパークラスターRDMAネットワークを示しています。

OCI Supercluster向けストレージ

お客様はOCI Superclusterを介して、Exascaleコンピューティング向けのローカル・ブロック・オブジェクト・ファイルストレージにアクセスが可能です。主要なクラウド・プロバイダーの中で、OCIは最高容量の高いパフォーマンス・ローカルNVMeストレージを提供しており、トレーニング実行中のチェックポイントをより頻繁に行うことで、障害からの復旧をより迅速に行うことができます。

BeeGFS、GlusterFS、Lustre、WEKAを含むHPCファイルシステムは、パフォーマンスを損なうことなく大規模なAIトレーニングに利用できます。

OCI Superclusterの仕組み

チーフ・テクニカル・アーキテクトのPradeep Vincentが、OCI Superclusterが機械学習モデルのトレーニングと推論を強化し、何万ものNVIDIA GPUにスケールする方法を説明します。

一般的なAIインフラストラクチャのユースケース

GPU、RDMAクラスタ・ネットワーク、OCI Data Scienceを実装したOCIベアメタル・インスタンスでAIモデルをトレーニングします。


ディープラーニング・トレーニングと推論の図および説明
GPU、RDMAクラスタ・ネットワーク、OCI Data Scienceを実装したOCIベアメタル・インスタンスでAIモデルをトレーニングします。

毎日行われる何十億という金融取引を保護するためには、大量の履歴顧客データを分析できる強化されたAIツールが必要となります。NVIDIA GPUを実装したOCI Compute上で実行されるAIモデルは、OCI Data Scienceやその他のオープン・ソース・モデルなどのモデル管理ツールとともに、金融機関による不正行為の軽減を支援します。


AIで強化された不正検出の図および説明
NVIDIA GPUを実装したOCI Compute上で実行されるAIモデルは、OCI Data Scienceやその他のオープン・ソース・モデルなどのモデル管理ツールとともに、金融機関による不正行為の軽減を支援します。

AIは、病院内のさまざまな種類の医療画像(X線やMRIなど)の解析によく利用されています。トレーニングしたモデルを使用することで、放射線科医による早急なレビューが必要な症例の優先度設定を支援でき、その他の症例については決定的な結果を報告することができます。


AIによる医用画像解析の図および説明
GPUを実装したOCI Computeで実行されるトレーニングされたモデルは、医療画像の解析を支援でき、即座に決定的な結果の提供や、さらなるレビューのための画像の優先度設定を行います。

創薬には長い年月と数百万ドルの費用がかかる、時間のかかる高コストなプロセスです。AIインフラストラクチャと分析を活用することで、研究者は創薬を加速することができます。さらに、NVIDIA GPUを実装したOCI ComputeとBioNeMoなどのAIワークフロー管理ツールにより、お客様はデータのキュレーションと前処理を行うことができます。


AIを活用した創薬の加速に関する説明
AIインフラストラクチャと分析を活用することで、研究者は創薬を加速し、データのキュレーションと前処理を行うことができます。

OCI AIインフラストラクチャの利用開始

Oracle AIを30日間試してみる

オラクルでは、ほとんどのAIサービスで無料価格帯を提供しています。また、無料トライアル・アカウントに提供されるUS$300のクレジットを使って、追加のクラウド・サービスをお試しいただけます。AIサービスとは、開発者がアプリケーションや業務にAIを簡単に適用できるようにする、デフォルトの機械学習モデルを備えた生成AIなどを含む一連のサービスです。

  • Oracle AIおよびMLサービスのうち、無料価格帯を提供しているもの

    • OCI Speech
    • OCI Language
    • OCI Vision
    • OCI Document Understanding
    • Machine Learning in Oracle Database
    • OCI Data Labeling

    また、OCI Data Scienceではコンピュートとストレージの使用料のみ。

その他のリソース

RDMAクラスタ・ネットワーキング、GPUインスタンス、ベアメタル・サーバーなどの詳細をご覧ください。

OCIでのコスト削減を試算してみましょう

Oracle Cloudの価格は、わかりやすく、世界中で一貫性のある低価格であり、さまざまなお客様事例をサポートしています。コストを見積もるには、コスト見積ツールをチェックし、ニーズに応じて、サービスを設定します。

AI分野のエキスパートへのアクセス

次のAIソリューションの構築や、OCI AIインフラストラクチャへのワークロードの導入に関する支援をご利用ください。

  • 次のような質問に回答できます。

    • Oracle Cloudを使い始めるには、どうすればよいですか?
    • OCIで実行可能なAIワークロードを教えてください。
    • OCIで提供されているAIサービスを教えてください。