Simplifique as operações do Kubernetes de nível empresarial em larga escala Implemente e gerencie facilmente cargas de trabalho com uso intensivo de recursos, como IA, com escalonamento automático, patches e atualizações.
O Kubernetes é a plataforma certa para implementar cargas de trabalho de IA. O OKE capacita os serviços de IA da Oracle Cloud Infrastructure (OCI).
– O estágio inicial de criação de um projeto de IA envolve definir o problema e preparar dados para criar modelos.
– Os clusters do Kubernetes podem melhorar significativamente a eficiência ao conceder acesso compartilhado a recursos de GPU caros e muitas vezes limitados, fornecendo ambientes seguros e gerenciados centralmente.
– O Kubeflow, um projeto de código aberto relacionado ao Kubernetes, fornece uma estrutura abrangente projetada para simplificar a criação, o treinamento e a implementação de modelos.
O OKE foi desenvolvido com base na OCI, oferecendo uma pilha completa de infraestrutura de alto desempenho projetada para cargas de trabalho de IA/ML, como:
– A gama completa de GPUs NVIDIA, incluindo H100, A100, A10, etc.
– Redes RDMA ultrarrápidas
Usando nós autogerenciados do OKE, você pode executar cargas de trabalho de criação de IA/ML em seus clusters do Kubernetes.
O Kubernetes é a plataforma certa para implementar cargas de trabalho de IA. O OKE potencializa os serviços de IA da OCI
No treinamento de modelo, os cientistas de dados selecionam um algoritmo e iniciam trabalhos de treinamento usando dados preparados. Esse estágio requer sistemas de programação sofisticados para lidar com as tarefas de forma eficiente.
– Os projetos do Kubernetes, como o Volcano e Kueue, ajudam a lidar com esses requisitos e fazer uso eficiente dos recursos de computação.
– O treinamento distribuído em larga escala requer comunicações entre nós de baixa latência no cluster. É aqui que uma rede ultrarrápida especializada com acesso remoto direto à memória (RDMA) se faz necessária. Com ela, os dados podem ser movidos diretamente para ou da memória de uma aplicação ao ignorar a CPU para reduzir a latência.
O OKE foi desenvolvido com base na OCI, oferecendo uma pilha completa de infraestrutura de alto desempenho projetada para cargas de trabalho de IA/ML, como:
– A gama completa de GPUs NVIDIA, incluindo H100, A100, A10, etc.
– Redes RDMA de baixa latência e desempenho ultra-alto
Usando os nós autogerenciados do OKE, você pode executar cargas de trabalho de criação de IA/ML nos clusters do Kubernetes.
O Kubernetes é a plataforma certa para implementar cargas de trabalho de IA. O OKE potencializa os serviços de IA da OCI
– É na inferência do modelo de IA em que o Kubernetes realmente se destaca. O Kubernetes pode escalonar automaticamente o número de pods de inferência para cima ou para baixo com base na demanda, garantindo o uso eficiente dos recursos.
– O Kubernetes fornece gerenciamento de recursos sofisticado, incluindo a capacidade de especificar limites de CPU e memória para contêineres.
O OKE foi projetado com resiliência em sua base, aproveitando o escalonamento automático de pods integrado do Kubernetes para escalonar nós de trabalho com base no uso. Os nós de trabalho podem ser distribuídos em vários domínios de falha e/ou disponibilidade para alta disponibilidade.
Os nós virtuais do OKE fornecem uma experiência do Kubernetes sem servidor. Eles só precisam escalonar no nível do pod, sem nunca dimensionar nós de trabalho. Isso possibilita um escalonar mais rápido e um gerenciamento mais econômico, uma vez que as taxas de serviço são baseadas exclusivamente nos pods em uso.
Os nós virtuais são adequados para cargas de trabalho de inferência e podem usar processadores Arm, que estão se tornando uma opção muito mais interessante para inferência de IA, sobretudo na falta de GPUs.
O OKE oferece menor custo total de propriedade e melhor tempo de lançamento no mercado.
O OKE simplifica as operações em escala das seguintes maneiras:
Prepare suas aplicações para o futuro com uma arquitetura de microsserviços centrada no OKE.
“Muitos serviços de IA da OCI são executados no OCI Kubernetes Engine (OKE), o serviço de Kubernetes gerenciado da Oracle. Na verdade, o desempenho da nossa equipe de engenharia aumentou em dez vezes com a OCI Vision apenas mudando de uma plataforma mais antiga para o OKE. É boa nesse nível.
VP de Serviços de IA da OCI, Oracle Cloud Infrastructure
Implemente microsserviços simples empacotados como contêineres do Docker e se comunique por meio de uma API comum.
Descubra as melhores práticas para implementar um pool de nós virtuais sem servidor usando a arquitetura de referência e automação do Terraform fornecida.
Descubra como a Tryg Insurance reduziu seus custos em 50% com o ajuste dinâmico.
Mickey Boxell, Gerenciamento de Produtos
Os complementos do OKE oferecem uma oportunidade de transferir o gerenciamento do software operacional do cluster para a Oracle. Eles também oferecem a flexibilidade de personalizar ou desativar totalmente o software operacional padrão do Kubernetes para trazer software equivalente. Estamos animados em compartilhar o lançamento de quatro complementos adicionais: o Kubernetes Cluster Autoscaler, a malha de serviços Istio, o controlador de entrada nativo da OCI e o Kubernetes Metrics Server, bem como suporte para novos argumentos de configuração para fornecer maior controle sobre os complementos implantados em seus clusters.
Leia a publicação completaKubernetes é uma plataforma de código-fonte aberto para gerenciar e dimensionar clusters de aplicações e serviços em contêineres.
Kubernetes é uma plataforma de código-fonte aberto para gerenciar e dimensionar clusters de aplicações e serviços em contêineres.
Obtenha 30 dias de acesso a ferramentas de CI/CD, Terraform gerenciado, telemetria e muito mais.
Explore arquiteturas de referência implementáveis e manuais de soluções.
Capacite o desenvolvimento de aplicativos com Kubernetes, Docker, sem servidor, APIs e muito mais.
Entre em contato com nossos associados para vendas, suporte e outras perguntas.