Kubernetes Engine (OKE)

Simplifique as operações do Kubernetes de nível empresarial em larga escala Implemente e gerencie facilmente cargas de trabalho com uso intensivo de recursos, como IA, com escalonamento automático, patches e atualizações.

Casos de uso do OKE

O OKE potencializa os serviços de IA da OCI

O Kubernetes é a plataforma certa para implementar cargas de trabalho de IA. O OKE capacita os serviços de IA da Oracle Cloud Infrastructure (OCI).

Criação de modelo de IA

– O estágio inicial de criação de um projeto de IA envolve definir o problema e preparar dados para criar modelos.

– Os clusters do Kubernetes podem melhorar significativamente a eficiência ao conceder acesso compartilhado a recursos de GPU caros e muitas vezes limitados, fornecendo ambientes seguros e gerenciados centralmente.

– O Kubeflow, um projeto de código aberto relacionado ao Kubernetes, fornece uma estrutura abrangente projetada para simplificar a criação, o treinamento e a implementação de modelos.

OKE para criação de modelos de IA

O OKE foi desenvolvido com base na OCI, oferecendo uma pilha completa de infraestrutura de alto desempenho projetada para cargas de trabalho de IA/ML, como:

– A gama completa de GPUs NVIDIA, incluindo H100, A100, A10, etc.

– Redes RDMA ultrarrápidas

Usando nós autogerenciados do OKE, você pode executar cargas de trabalho de criação de IA/ML em seus clusters do Kubernetes.

O OKE potencializa os serviços de IA da OCI

O Kubernetes é a plataforma certa para implementar cargas de trabalho de IA. O OKE potencializa os serviços de IA da OCI

Treinamento de modelo de IA

No treinamento de modelo, os cientistas de dados selecionam um algoritmo e iniciam trabalhos de treinamento usando dados preparados. Esse estágio requer sistemas de programação sofisticados para lidar com as tarefas de forma eficiente.

– Os projetos do Kubernetes, como o Volcano e Kueue, ajudam a lidar com esses requisitos e fazer uso eficiente dos recursos de computação.

– O treinamento distribuído em larga escala requer comunicações entre nós de baixa latência no cluster. É aqui que uma rede ultrarrápida especializada com acesso remoto direto à memória (RDMA) se faz necessária. Com ela, os dados podem ser movidos diretamente para ou da memória de uma aplicação ao ignorar a CPU para reduzir a latência.

OKE para treinamento de modelos de IA

O OKE foi desenvolvido com base na OCI, oferecendo uma pilha completa de infraestrutura de alto desempenho projetada para cargas de trabalho de IA/ML, como:

– A gama completa de GPUs NVIDIA, incluindo H100, A100, A10, etc.

– Redes RDMA de baixa latência e desempenho ultra-alto

Usando os nós autogerenciados do OKE, você pode executar cargas de trabalho de criação de IA/ML nos clusters do Kubernetes.

O OKE potencializa os serviços de IA da OCI

O Kubernetes é a plataforma certa para implementar cargas de trabalho de IA. O OKE potencializa os serviços de IA da OCI

Inferência de modelo de IA (servindo)

– É na inferência do modelo de IA em que o Kubernetes realmente se destaca. O Kubernetes pode escalonar automaticamente o número de pods de inferência para cima ou para baixo com base na demanda, garantindo o uso eficiente dos recursos.

– O Kubernetes fornece gerenciamento de recursos sofisticado, incluindo a capacidade de especificar limites de CPU e memória para contêineres.

OKE para inferência de modelo de IA

O OKE foi projetado com resiliência em sua base, aproveitando o escalonamento automático de pods integrado do Kubernetes para escalonar nós de trabalho com base no uso. Os nós de trabalho podem ser distribuídos em vários domínios de falha e/ou disponibilidade para alta disponibilidade.

Os nós virtuais do OKE fornecem uma experiência do Kubernetes sem servidor. Eles só precisam escalonar no nível do pod, sem nunca dimensionar nós de trabalho. Isso possibilita um escalonar mais rápido e um gerenciamento mais econômico, uma vez que as taxas de serviço são baseadas exclusivamente nos pods em uso.

Os nós virtuais são adequados para cargas de trabalho de inferência e podem usar processadores Arm, que estão se tornando uma opção muito mais interessante para inferência de IA, sobretudo na falta de GPUs.

As aplicações existentes podem se beneficiar migrando para a OCI e o OKE

O OKE oferece menor custo total de propriedade e melhor tempo de lançamento no mercado.

O OKE simplifica as operações em escala das seguintes maneiras:

Lift and shit, sem necessidade de rearquitetar
Reduza a carga operacional com automação
Economize tempo com o gerenciamento de infraestrutura
Aumente a utilização e a eficiência dos recursos
Melhore a agilidade, a flexibilidade, o tempo de atividade e a resiliência
Reduza os riscos de conformidade e aumente a segurança

Os microsserviços oferecem muitas vantagens em relação às aplicações monolíticas

Prepare suas aplicações para o futuro com uma arquitetura de microsserviços centrada no OKE.

Modernização da arquitetura
Ritmo de inovação mais rápido
Automação de implementação
Desenvolvimento paralelo
Escalabilidade facilitada
Maior confiabilidade
Mais flexibilidade
Maior agilidade

“Muitos serviços de IA da OCI são executados no OCI Kubernetes Engine (OKE), o serviço de Kubernetes gerenciado da Oracle. Na verdade, o desempenho da nossa equipe de engenharia aumentou em dez vezes com a OCI Vision apenas mudando de uma plataforma mais antiga para o OKE. É boa nesse nível.

Jun Qian

VP de Serviços de IA da OCI, Oracle Cloud Infrastructure

Conceitos básicos do Kubernetes Engine

Implemente uma aplicação simples em contêiner usando os nós gerenciados do OKE

Implemente microsserviços simples empacotados como contêineres do Docker e se comunique por meio de uma API comum.

Implemente a aplicação de exemplo
Implemente um cluster do Kubernetes com nós virtuais

Descubra as melhores práticas para implementar um pool de nós virtuais sem servidor usando a arquitetura de referência e automação do Terraform fornecida.

Descubra como criar um cluster com nós virtuais
Descubra padrões para otimizar seus recursos do Kubernetes

Descubra como a Tryg Insurance reduziu seus custos em 50% com o ajuste dinâmico.

Leia o blog

10 de setembro de 2024

Simplifique as operações com complementos do OCI Kubernetes Engine (OKE)

Mickey Boxell, Gerenciamento de Produtos

Os complementos do OKE oferecem uma oportunidade de transferir o gerenciamento do software operacional do cluster para a Oracle. Eles também oferecem a flexibilidade de personalizar ou desativar totalmente o software operacional padrão do Kubernetes para trazer software equivalente. Estamos animados em compartilhar o lançamento de quatro complementos adicionais: o Kubernetes Cluster Autoscaler, a malha de serviços Istio, o controlador de entrada nativo da OCI e o Kubernetes Metrics Server, bem como suporte para novos argumentos de configuração para fornecer maior controle sobre os complementos implantados em seus clusters.

Leia a publicação completa