生成AI、コンピュータ・ビジョン、予測分析など、最も要求の厳しいAIワークロードを分散クラウドのあらゆる場所でより迅速に実行します。Oracle Cloud Infrastructure (OCI) Superclusterを使用して、現時点で32,768個のGPU、将来的には131,072個のGPUまで拡張できます。
AIのトレーニングと推論を高速化する方法
OCI AIインフラストラクチャは、推論、トレーニング、AIアシスタントを含むすべてのAIワークロードに、最高水準のパフォーマンスと価値を提供します。
最大500Gb/秒の持続スループットを実現する高性能マウント・ターゲット(HPMT)の利点を活かすことができます。NVIDIA H100 GPU搭載のインスタンスでは、業界最高水準の61.44 TBのローカルストレージ容量を使用できます。
オラクルの分散クラウドでは、AIインフラストラクチャをどこにでも導入可能になるため、パフォーマンス、セキュリティ、AI主権の要件を満たせるよう支援します。
最大131,072のGPU、8倍のスケーラビリティ
ネットワーク・ファブリックの革新により、OCI Superclusterは最大131,072のNVIDIA B200 GPU、100,000を超えるBlackwell GPUを搭載したNVIDIA Grace Blackwell Superchips、および65,536 NVIDIA H200 GPUまで拡張できます。NVIDIA A100およびH100 GPUを搭載したOCI Superclusterでは、現在の限界値を最大8倍上回る拡張性を実現します。
推論や微調整の実行、生成AI用の大規模スケールアウト・モデルのトレーニングなど、OCIはお客様のAIニーズに合わせて、超広帯域ネットワークと高いパフォーマンス・ストレージを実装した業界をリードするベアメタルや仮想マシンのGPUクラスタ・オプションを提供します。
コンピュート
• 8x NVIDIA H100 GPU、ノードあたり61.44TB NVMe SSD
• 8x NVIDIA A100 GPU、ノードあたり27.2TB NVMe SSD
• 4x NVIDIA L40S GPU、ノードあたり7.38TB NVMe SSD
ストレージ
• ブロック・ストレージ: ボリュームあたり最大32TB
• オブジェクト・ストレージ: オブジェクトあたり最大10TiB
• ファイル・ストレージ: ファイル・システムあたり最大8EB
•Dense I/Oシェイプのストレージ・クラスタ
ネットワーキング
• RDMA over Converged Ethernet (RoCE v2)
• ノード間の待機時間が数マイクロ秒
• OCI Superclusterのノード間帯域幅:
o NVIDIA H100: 3200 Gb/秒
o NVIDIA A100: 1600 Gb/秒
o NVIDIA L40S: 800 Gb/秒
NVIDIA L40S、H100、およびA100 GPUを実装したOCIベアメタル・インスタンスにより、顧客はディープラーニング、対話型AI、生成AIなどのユースケース用に大規模AIモデルを実行できます。OCI Superclusterでは、顧客はクラスタあたり最大32,768個のA100 GPU、16,384個のH100 GPU、3,840個のL40S GPUまでスケールアップが可能です。
RDMA over Converged Ethernet v2を実装したNVIDIA ConnectXネットワーク・インターフェイス・カードによる高速RDMAクラスタ・ネットワーキングにより、オンプレミスと同じ超低レイテンシ・ネットワーキングとアプリケーションのスケーラビリティを備えたGPUインスタンスの大規模クラスタを作成できます。
RDMA機能、ブロック・ストレージ、ネットワーク帯域幅に追加料金を支払う必要はなく、最初の10TBのイグレスは無料です。
お客様はOCI Superclusterを介して、Exascaleコンピューティング向けのローカル・ブロック・オブジェクト・ファイルストレージにアクセスが可能です。主要なクラウド・プロバイダーの中で、OCIは最高容量の高いパフォーマンス・ローカルNVMeストレージを提供しており、トレーニング実行中のチェックポイントをより頻繁に行うことで、障害からの復旧をより迅速に行うことができます。
BeeGFS、GlusterFS、Lustre、WEKAを含むHPCファイルシステムは、パフォーマンスを損なうことなく大規模なAIトレーニングに利用できます。
チーフ・テクニカル・アーキテクトのPradeep Vincentが、OCI Superclusterが機械学習モデルのトレーニングと推論を強化し、何万ものNVIDIA GPUにスケールする方法を説明します。
GPU、RDMAクラスタ・ネットワーク、OCI Data Scienceを実装したOCIベアメタル・インスタンスでAIモデルをトレーニングします。
毎日行われる何十億という金融取引を保護するためには、大量の履歴顧客データを分析できる強化されたAIツールが必要となります。NVIDIA GPUを実装したOCI Compute上で実行されるAIモデルは、OCI Data Scienceやその他のオープン・ソース・モデルなどのモデル管理ツールとともに、金融機関による不正行為の軽減を支援します。
AIは、病院内のさまざまな種類の医療画像(X線やMRIなど)の解析によく利用されています。トレーニングしたモデルを使用することで、放射線科医による早急なレビューが必要な症例の優先度設定を支援でき、その他の症例については決定的な結果を報告することができます。
創薬には長い年月と数百万ドルの費用がかかる、時間のかかる高コストなプロセスです。AIインフラストラクチャと分析を活用することで、研究者は創薬を加速することができます。さらに、NVIDIA GPUを実装したOCI ComputeとBioNeMoなどのAIワークフロー管理ツールにより、お客様はデータのキュレーションと前処理を行うことができます。
オラクルでは、ほとんどのAIサービスで無料価格帯を提供しています。また、無料トライアル・アカウントに提供されるUS$300のクレジットを使って、追加のクラウド・サービスをお試しいただけます。AIサービスとは、開発者がアプリケーションや業務にAIを簡単に適用できるようにする、デフォルトの機械学習モデルを備えた生成AIなどを含む一連のサービスです。
また、OCI Data Scienceではコンピュートとストレージの使用料のみ。
RDMAクラスタ・ネットワーキング、GPUインスタンス、ベアメタル・サーバーなどの詳細をご覧ください。
Oracle Cloudの価格は、わかりやすく、世界中で一貫性のある低価格であり、さまざまなお客様事例をサポートしています。コストを見積もるには、コスト見積ツールをチェックし、ニーズに応じて、サービスを設定します。