Exécutez plus rapidement les workloads d'IA les plus exigeants, y compris l'IA générative, la vision par ordinateur et l'analyse prédictive, où que vous soyez dans notre cloud distribué. Utilisez Oracle Cloud Infrastructure (OCI) Supercluster pour évoluer jusqu'à 65,536 GPU aujourd'hui et bientôt 131 072 GPU*.
Boostez l'entraînement de l'IA avec les instances bare metal GPU uniques d'OCI et le réseau de cluster RDMA ultra-rapide qui réduisent la latence à seulement 2,5 microsecondes. Bénéficiez d'une tarification jusqu'à 220 % supérieure sur les machines virtuelles GPU par rapport aux autres fournisseurs cloud.
Tirez parti des cibles de montage haute performance (HPMT) pour un débit soutenu pouvant atteindre 500 Gb/s. Utilisez une capacité de stockage locale de 61,44 To, la plus élevée du secteur pour les instances avec des GPU NVIDIA H100.
Le cloud distribué d'Oracle vous permet de déployer une infrastructure d'IA n'importe où pour répondre aux exigences en matière de performances, de sécurité et de souveraineté de l'IA.
Jusqu'à 131 072 GPU, 8 fois plus d'évolutivité
Les innovations de structure réseau permettront à OCI Supercluster d'atteindre jusqu'à 131 072 GPU NVIDIA B200, 100 000 GPU Blackwell dans les superpuces NVIDIA Grace Blackwell. OCI Supercluster évolue jusqu'à 65 536 GPU NVIDIA H200 aujourd'hui.
Que vous cherchiez à effectuer des déductions ou des ajustements, ou à entraîner des modèles à grande échelle pour l'IA générative, OCI offre des options de cluster de GPU bare metal et de machine virtuelle de pointe, optimisées par un réseau à très large bande passante et un stockage à hautes performances pour répondre à vos besoins en IA.
Calcul surchargé
• Instances bare metal sans surcharge d'hyperviseur
• Accélérées par les GPU NVIDIA H200, H100, L40S et A100
• Possibilité d'utiliser des GPU AMD MI300X
• Unité de traitement de données (DPU) pour l'accélération matérielle intégrée
Capacité massive et stockage haut débit
• Stockage local : jusqu'à 61,44 To de capacité SSD NVMe
• Stockage de fichiers : cible de montage hautes performances (HPMT) avec un débit allant jusqu'à 80 Go/s (maintenant GA) et service Lustre entièrement géré (bientôt disponible)
• Stockage de blocs :volumes équilibrés, hautes performances et ultra-hautes performances avec un contrat de niveau de service de performances
• Stockage d'objets : niveaux de classe de stockage distincts, réplication de bucket et limites de capacité élevées
Réseau ultra-rapide
• Protocole RDMA sur Ethernet convergé personnalisé (RoCE v2)
• 2,5 à 9,1 microsecondes de latence pour la mise en réseau de cluster
• Jusqu'à 3 200 Gb/s de bande passante réseau de cluster
• Jusqu'à 200 Gb/s de bande passante réseau frontale
Les instances bare metal OCI optimisées par les GPU AMD MI300X, NVIDIA L40S, NVIDIA H100 et NVIDIA A100 vous permettent d'exécuter des modèles d'IA volumineux pour les cas d'utilisation qui incluent le deep learning, l'IA conversationnelle et l'IA générative. Avec OCI Supercluster, vous pouvez évoluer jusqu'à 32 768 GPU A100, 16 384 GPU H100,16,384 MI300X GPU et 3 840 GPU L40S par cluster.
La mise en réseau de clusters RDMA à haut débit alimentée par les cartes d'interface réseau NVIDIA ConnectX avec RDMA sur la version 2 de l'ethernet convergé vous permet de créer de grands clusters d'instances GPU avec la même mise en réseau à très faible latence et la même évolutivité des applications attendue on-premises.
Vous ne payez pas de frais supplémentaires pour la capacité RDMA, le stockage de blocs ou la bande passante réseau, et les 10 premiers To de sortie sont gratuits.
Grâce à OCI Supercluster, les clients peuvent accéder au stockage local, de blocs, d'objets et de fichiers pour le calcul exaflopique. Parmi les principaux fournisseurs de cloud, OCI offre la capacité la plus élevée de stockage NVMe local à hautes performances pour des points de reprise plus fréquents pendant les entraînements, ce qui permet une récupération plus rapide en cas de défaillance.
Les systèmes de fichiers HPC, y compris BeeGFS, GlusterFS, Lustre et WEKA, peuvent être utilisés pour l'entraînement d'IA à grande échelle sans compromettre les performances.
Pradeep Vincent, Architecte technique en chef, explique comment OCI Supercluster optimise l'entraînement et l'inférence des modèles de machine learning en s'adaptant à des dizaines de milliers de GPU NVIDIA.
Entraînez des modèles d'IA sur des instances bare metal OCI optimisées par des GPU, des réseaux de clusters RDMA et OCI Data Science.
La protection des milliards de transactions financières qui se produisent chaque jour nécessite des outils d'IA améliorés capables d'analyser de grandes quantités de données client historiques. Les modèles d'IA exécutés sur OCI Compute alimentés par des GPU NVIDIA, ainsi que des outils de gestion de modèles tels qu'OCI Data Science et d'autres modèles open source aident les institutions financières à réduire la fraude.
L'IA est souvent utilisée pour analyser divers types d'images médicales (comme les rayons X et les IRM) dans un hôpital. Les modèles entraînés peuvent aider à hiérarchiser les cas nécessitant une révision immédiate par un radiologue et à rapporter des résultats concluants sur d'autres.
La découverte de médicaments est un processus long et coûteux qui peut prendre de nombreuses années et coûter des millions de dollars. En tirant parti de l'infrastructure et de l'analyse de l'IA, les chercheurs peuvent accélérer la découverte de médicaments. En outre, OCI Compute s'appuie sur des GPU NVIDIA ainsi que sur des outils de gestion des workflows d'IA tels que BioNeMo pour permettre aux clients de traiter et de prétraiter leurs données.
Oracle offre un niveau gratuit pour la plupart des services d'IA ainsi qu'un compte d'essai gratuit avec 300 USD de crédits pour tester ses services cloud complémentaires. Les services d'IA comprennent un ensemble d'offres, incluant l'IA générative, avec des modèles de machine learning prédéfinis qui permettent aux développeurs d'appliquer plus facilement l'IA aux applications et aux opérations métier.
Vous n'avez à payer que des frais de calcul et de stockage pour OCI Data Science.
En savoir plus sur la mise en réseau de clusters RDMA, les instances GPU, les serveurs bare metal, etc.
La tarification d'Oracle Cloud est simple, avec des tarifs faibles homogènes dans le monde entier et prenant en charge un large éventail de cas spécifiques. Pour estimer votre tarif réduit, consultez l’estimateur de coûts et configurez les services en fonction de vos besoins.
Obtenez de l'aide pour créer votre prochaine solution d'IA ou déployer votre workload sur l'infrastructure d'IA d'OCI.