Execute as cargas de trabalho de IA mais exigentes com mais rapidez, incluindo IA generativa, visão computacional e análise preditiva, em qualquer lugar da nossa nuvem distribuída. Use o Oracle Cloud Infrastructure (OCI) Supercluster para dimensionar até 32.768 GPUs hoje e 131.072 GPUs em breve.*
Saiba como acelerar o treinamento e a inferência de IA
A infraestrutura de IA da OCI fornece o mais alto desempenho e valor para todas as cargas de trabalho de IA, incluindo inferência, treinamento e assistentes de IA.
Aproveite os pontos de acesso NFS (HPMTs) de alto desempenho para até 500 Gb/s de taxa de transferência sustentada. Use 61,44 TB de capacidade de armazenamento local, a mais alta do setor para instâncias com GPUs NVIDIA H100.
A nuvem distribuída da Oracle permite que você implemente infraestrutura de IA em qualquer lugar para ajudar a atender aos requisitos de desempenho, segurança e soberania de IA.
Até 131.072 GPUs, 8X mais escalabilidade
As inovações de malha de rede permitirão que o OCI Supercluster seja dimensionado para até 131.072 GPUs NVIDIA B200, mais de 100.000 GPUs Blackwell no NVIDIA Grace Blackwell Superchips e 65.536 GPUs NVIDIA H200. Obtenha até 8X mais escalabilidade sobre os limites atuais para o OCI Supercluster com GPUs NVIDIA A100 e H100.
Não importa se você está procurando realizar inferência, ajustar ou treinar modelos de grande escala para IA generativa; a OCI oferece opções de cluster de GPU bare metal e máquina virtual líderes no setor, alimentadas por uma rede de largura de banda ultra-alta e armazenamento de alto desempenho para atender às suas necessidades de IA.
Computação
• 8 GPUs NVIDIA H100; SSDs NVMe de 61,44 TB por nó
• 8 GPUs NVIDIA A100; SSDs NVMe de 27,2 TB por nó
• 4 GPUs NVIDIA L40S; SSDs NVMe de 7,38 TB por nó
Armazenamento
• Armazenamento em bloco: até 32 TB por volume
• Armazenamento de objetos: até 10 TiB por objeto
• Armazenamento de arquivos: até 8 EB por sistema de arquivos
• Clusters de armazenamento com formas de E/S densa.
Rede
• RDMA sobre Ethernet convergente (RoCE v2)
• Poucos microssegundos de latência entre os nós
• Largura de banda entre os nós do supercluster OCI:
o NVIDIA H100: 3200 Gb/seg
o NVIDIA A100: 1600 Gb/seg
o NVIDIA L40S: 800 Gb/seg
As instâncias bare metal da OCI equipadas com GPUs NVIDIA L40S, H100 e A100 permitem que os clientes executem grandes modelos de IA para casos de uso que incluem deep learning, IA conversacional e IA generativa. Com o OCI Supercluster, os clientes podem escalar até 32.768 GPUs A100, 16.384 GPUs H100 e 3.840 GPUs L40S por cluster.
A rede de cluster RDMA de alta velocidade alimentada por placas de interface de rede NVIDIA ConnectX com RDMA sobre Ethernet convergente versão 2 permite que você crie grandes clusters de instâncias de GPU com a mesma rede de latência ultrabaixa e escalabilidade de aplicações que você espera on-premises.
Você não paga mais pelo recurso RDMA, armazenamento em blocos ou largura de banda da rede, e os primeiros 10 TB de saída são gratuitos.
Pelo OCI Supercluster, os clientes podem acessar armazenamento local, em blocos, de objetos e de arquivos para computação em exaescala. Entre os principais provedores de nuvem, a OCI oferece a mais alta capacidade de armazenamento NVMe local de alto desempenho para checkpoint mais frequente durante as execuções de treinamento, resultando em recuperação mais rápida de falhas.
Os sistemas de arquivos HPC, como BeeGFS, GlusterFS, Lustre e WEKA, podem ser usados para treinamento de IA em escala sem comprometer o desempenho.
Assista ao arquiteto técnico Pradeep Vincent explicar como o OCI Supercluster potencializa o treinamento e a inferência de modelos de machine learning, podendo ser dimensionados para dezenas de milhares de GPUs NVIDIA.
Treine modelos de IA em instâncias bare metal da OCI com GPUs, rede de cluster RDMA e o OCI Data Science.
Proteger os bilhões de transações financeiras que acontecem todos os dias requer ferramentas aprimoradas de IA que possam analisar grandes quantidades de dados históricos dos clientes. Os modelos de IA executados no OCI Compute com GPUs NVIDIA, juntamente com ferramentas de gerenciamento de modelos, como o OCI Data Science e outros modelos de código aberto, ajudam as instituições financeiras a mitigar fraudes.
A IA é frequentemente usada para analisar vários tipos de imagens médicas (como raios-X e ressonâncias magnéticas) em um hospital. Modelos treinados podem ajudar a priorizar casos que precisam de revisão imediata por um radiologista e relatar resultados conclusivos sobre outros.
A descoberta de medicamentos é um processo demorado e caro que pode levar muitos anos e custar milhões de dólares. Utilizando a infraestrutura e a análise de IA, os pesquisadores podem acelerar a descoberta de medicamentos. Além disso, o OCI Compute com GPUs NVIDIA, juntamente com ferramentas de gerenciamento de fluxo de trabalho de IA, como BioNeMo, permite que os clientes selecionem e pré-processem seus dados.
A Oracle oferece um modo gratuito para a maioria dos serviços de IA, bem como uma conta de teste gratuita com US$ 300 em créditos para experimentar outros serviços de nuvem. Os serviços de IA são uma coleção de ofertas, incluindo IA generativa, com modelos de machine-learning pré-criados que facilitam para os desenvolvedores aplicar IA a aplicações e operações de negócios.
Você só precisa pagar as taxas de computação e armazenamento do OCI Data Science.
Saiba mais sobre rede de cluster RDMA, instâncias de GPU, servidores bare metal e muito mais.
Os preços da Oracle Cloud são simples, com preço baixo consistente em todo o mundo, oferecendo suporte a uma ampla gama de casos de uso. Para estimar a sua taxa, consulte a estimativa de custos e configure os serviços para atender às suas necessidades.
Receba ajuda para criar sua próxima solução de IA ou implementar sua carga de trabalho na infraestrutura de IA da OCI.