Aaron Ricadela | Redator Sênior | 25 de julho de 2024
Desastres de vários tipos podem deixar sistemas críticos offline, danificar escritórios e data centers ou tornar temporariamente inutilizáveis os bancos de dados e aplicações necessários para executar as operações comerciais normais. Um plano de recuperação de desastres é um processo empresarial e um roteiro tecnológico para fazer com que seus sistemas e aplicações mais importantes voltem a funcionar rapidamente, para que seja possível retomar o trabalho enquanto outros são restaurados.
A recuperação de desastres (RD) abrange os planos técnicos de uma empresa para colocar suas cargas de trabalho de computação novamente online após um evento disruptivo, bem como os métodos para testar o playbook antes que a calamidade aconteça. Em um plano de recuperação de desastres, as cargas de trabalho são classificadas em ordem de importância. As empresas buscam minimizar o tempo de inatividade da computação e a perda de dados, ao mesmo tempo em que equilibram o custo disso para cada carga de trabalho.
Embora a recuperação de desastres tenha sido um componente importante das operações de TI por muito tempo, a computação em nuvem e as arquiteturas de software projetadas para a Internet estão reduzindo o custo e o trabalho de implementação de planos abrangentes de recuperação de desastres.
A recuperação de desastres descreve as políticas, as tecnologias e o orçamento que as empresas dedicam para colocar sistemas de TI importantes novamente online após um tempo de inatividade inesperado causado por erros do operador, irregularidades, bugs de software, desastres naturais ou outras calamidades. Antes que ocorra uma interrupção, as empresas precisam identificar quais aplicações de missão crítica devem ser restauradas imediatamente após um desastre e classificar outras em grupos de importância, chamados níveis. Em seguida, precisam decidir quanto tempo de inatividade e perda de dados a empresa pode suportar para cada aplicação e planejar estratégias de TI adequadamente.
A recuperação de desastres é importante porque o tempo de inatividade não planejado causado por eventos disruptivos pode levar a perdas financeiras substanciais, na ordem de US$ 100.000 por hora, de acordo com estimativas do setor. Tempos de inatividade prolongados também podem prejudicar a reputação de uma marca e resultar em reprimendas ou penalidades regulatórias. Em alguns setores altamente regulamentados, incluindo de serviços financeiros, energia e saúde, as empresas precisam restaurar dados e operações de computação mais rápido do que as cópias de dados de backup convencionais permitem.
O tempo de inatividade não planejado também pode custar vidas em áreas como serviços de emergência e assistência médica. Se houver um evento catastrófico, como um furacão, tornado ou terremoto, todos os serviços estarão em risco. As informações podem fluir para onde precisam para salvar vidas?
Existem duas métricas críticas de recuperação de desastres: objetivo de tempo de recuperação (RTO), que mede o tempo máximo que um sistema pode permanecer offline, e objetivo de ponto de recuperação (RPO), que mede quantos dados uma empresa pode perder e está associado à frequência de backups ou replicação. Para ambos, limites mais curtos são melhores, mas mais caros. As organizações de TI geralmente definem um RTO e um RPO para cada sistema que executam, permitindo equilibrar custos com criticidade.
RD é uma área de prática bem estabelecida, mas o uso mais frequente de serviços de nuvem combinados com as chamadas implementações "piloto", que usam dados ativos e atualizados com serviços de espera para reiniciar um sistema em um data center na nuvem, estão ajudando os planejadores a fornecer excelentes métricas de RTO e RPO a um custo menor. Isso ocorre porque os provedores de nuvem investem em redundância em todas as camadas da infraestrutura, possibilitando processos de failover e recuperação automatizados e semiautomatizados. Esses são investimentos que seus clientes não precisam mais fazer. Além disso, as implementações "piloto" podem reduzir para minutos o tempo necessário para que os serviços voltem a funcionar.
Mais sobre implementações de RD baseadas em nuvem em breve.
Muitos tipos de desastres podem afetar sistemas de TI, incluindo ataques cibernéticos, falhas de hardware, desastres naturais e interrupções causadas por erro humano. Alguns podem ser previstos. Por exemplo, todas as organizações podem ser alvos de ataques cibernéticos. Algumas empresas estão sediadas onde desastres naturais, como furacões, terremotos e inundações, são mais propensos a ocorrer. O erro humano é uma constante.
A questão é estar pronto para reagir quando algo der errado.
Indisponibilidades não planejadas são eventos inesperados que afetam um sistema ou serviço e resultam em tempo de inatividade e interrupção das operações normais. Essas interrupções podem ocorrer devido aos fatores discutidos e podem ter consequências sérias para as empresas, incluindo perda de receita, danos à reputação, diminuição da satisfação do cliente e até mesmo perda de vidas. É essencial ter planos de recuperação em vigor para minimizar o impacto de interrupções não planejadas e garantir a rápida restauração dos serviços.
Tecnologias de alta disponibilidade que replicam dados entre nós em um cluster ou servidores de cluster juntos para que eles possam fazer failover entre si e manter as cargas de trabalho em execução podem garantir níveis de serviço de TI muito altos. Essas tecnologias buscam eliminar pontos únicos de falha e geralmente são apoiadas por acordos de nível de serviço que garantem porcentagens de tempo de atividade. Na computação em nuvem, a alta disponibilidade protege a infraestrutura física, incluindo energia, refrigeração, armazenamento, redes e servidores. O software de balanceamento de carga no nível da aplicação também ajuda a garantir altos níveis de tempo de atividade.
A recuperação de desastres, por outro lado, protege contra múltiplos pontos de falha e visa restaurar cargas de trabalho críticas a um estado operacional após uma interrupção extrema, como quando um terremoto ou furacão destrói uma instalação. Os locais de RD geralmente são geograficamente distantes uns dos outros.
Tanto as tecnologias de alta disponibilidade quanto as de RD devem fazer parte de um plano abrangente de continuidade de negócios.
O principal objetivo de um plano de recuperação de desastres é garantir que as unidades de negócios possam continuar trabalhando durante uma crise. Os planos de RD incluem processos para reiniciar rapidamente os serviços de computação e limitar perdas de dados e dinheiro. Eles também visam satisfazer os requisitos regulatórios que regem a continuidade dos negócios e a retenção de dados.
As duas métricas principais para planos de recuperação de desastres são o objetivo de tempo de recuperação (RTO) e o objetivo de ponto de recuperação (RPO). Cada sistema executado por uma empresa pode ter diferentes requisitos de RTO e RPO, dependendo dos acordos de nível de serviço entre a TI e as unidades de negócios relevantes.
Para cada aplicação ou serviço, o RTO é o tempo máximo de inatividade permitido após uma interrupção não planejada, enquanto o RPO mede a quantidade máxima de perda de dados que uma empresa está disposta a tolerar. Limiares menores/mais curtos são melhores, mas geralmente mais caros. As organizações de TI podem definir um RTO e um RPO para cada sistema que executam para equilibrar custos com criticidade.
Os planos de RD incluem avaliações completas dos riscos potenciais de eventos catastróficos, os danos às operações que eles potencialmente causariam, como os funcionários e as partes interessadas externas podem ser afetados e as perdas financeiras ou multas regulatórias que podem ser incorridas como resultado.
Como parte do desenvolvimento de um plano de RD, as empresas precisam identificar patrocinadores executivos e equipes afetadas; catalogar ativos físicos e de TI que podem ser danificados durante um desastre; e considerar os impactos potenciais sobre clientes, fornecedores, parceiros e outras partes interessadas.
Os departamentos de TI precisam decidir quais cargas de trabalho podem ser restauradas a partir de backups, quais exigem dados ativos combinados com serviços executados em menor capacidade e quais cargas de trabalho precisam de capacidade total. Em alguns casos, sistemas ativos que estão inativos alternarão automaticamente para sistemas em espera, causando tempo de inatividade mínimo e nenhuma perda de dados. Em outros casos, a troca será manual. As equipes de TI precisarão selecionar sites de backup e elaborar um plano que lhes permita reiniciar as aplicações rapidamente. A nuvem é uma grande ajuda aqui. As empresas também precisam procurar dependências de TI que possam impedir a reinicialização das operações, casos em que uma aplicação offline impede que outra volte a ficar online.
Além desses aspectos técnicos, a liderança executiva e as linhas de negócios devem ter planos de comunicação e resposta a emergências em vigor, bem como disposições para treinar funcionários sobre o plano de RD, testá-lo e ensaiá-lo por meio de simulações ou orientações e melhorá-lo continuamente.
Todo plano de RD deve incluir uma avaliação de risco de eventos que podem interromper as operações comerciais, uma análise de impacto das aplicações que podem ser afetadas e uma estimativa das perdas financeiras resultantes. A análise de impacto comercial deve incluir RTOs e RPOs para cada aplicação. As empresas podem então decidir sobre seus planos de recuperação e escolher onde faz sentido negociar custos mais altos por objetivos de tempo e ponto de recuperação mais curtos.
As abordagens de backup e recuperação se enquadram em um espectro de custo-benefício e incluem o seguinte:
Não basta criar um inventário de TI, determinar níveis de aplicações e mapear dependências. Para que a RD funcione no nível esperado pela empresa, toda tecnologia, desde sistemas operacionais até aplicações, precisa ser redundante. O sucesso da RD também depende de testes regulares, sejam eles exercícios de simulação, nos quais as partes interessadas executam as etapas verbalmente, ou uma inspeção física das medidas que os departamentos de TI tomarão e testes dos componentes do sistema que são usados apenas durante desastres.
Os relatórios financeiros e as regulamentações de proteção de dados também impactam os planos de RD. Por exemplo, a Lei Sarbanes-Oxley, uma regulamentação de relatórios financeiros corporativos dos EUA, define requisitos de retenção de dados. A Lei de Portabilidade e Responsabilidade de Seguros de Saúde dos EUA (HIPAA) exige planos de contingência para informações eletrônicas de saúde durante um desastre, e o Regulamento Geral de Proteção de Dados (GDPR) da União Europeia determina a disponibilidade de dados pessoais dos cidadãos durante um desastre.
A recuperação de desastres como serviço (DRaaS) permite que as empresas executem aplicações em uma nuvem pública ou híbrida, com um plano de RD implementado nas instalações dos provedores de nuvem em vez de um data center on-premises. As ofertas de DRaaS baseadas em nuvem permitem que as empresas transfiram cargas de computação, banco de dados e aplicações entre regiões de nuvem remotamente e automatizem as etapas necessárias para recuperar sistemas sem reestruturar ou usar software de gerenciamento especializado. É crucial que a solução de DRaaS de um provedor de nuvem seja projetada para alta disponibilidade na região de espera para garantir que o serviço esteja acessível e funcional durante um evento catastrófico.
As empresas podem usar a recuperação de desastres na nuvem para planejar a recuperação de dados após um desastre natural que destrua a infraestrutura ou após um incidente cibernético, como um ataque de ransomware, em que o acesso aos recursos da rede local é interrompido. Como os dados podem ser armazenados em uma nuvem regional, a estratégia pode ser tornada compatível com regulamentações de proteção de dados, como a GDPR. A DRaaS também pode ser uma boa solução quando os orçamentos são apertados, já que os custos podem ser menores do que os de configuração de sites de recuperação redundantes.
O desenvolvimento de um plano de recuperação de desastres deve começar com uma avaliação de risco de possíveis eventos catastróficos e seu impacto nos sistemas de TI e processos de negócios. Em seguida, as equipes de TI e de linha de negócios, apoiadas pela gerência, devem classificar os ativos e sistemas por sua importância e atribuir estratégias de RD para proteger cada um, considerando os RTOs e RPOs desejados e o orçamento disponível. Os planos de RD fazem parte de estratégias mais amplas de continuidade de negócios para reduzir o tempo entre um desastre, ataque cibernético ou interrupção causada por um erro técnico e a recuperação. Eles precisam ser testados e atualizados continuamente.
A RD tradicional depende de servidores redundantes e dispositivos de armazenamento localizados em um data center de propriedade da empresa ou fazendo backup de dados comerciais e instâncias de aplicações em data centers remotos, de modo que um problema em uma área geográfica dificilmente causará danos a cópias remotas distantes. As estratégias de RD baseadas em nuvem, por outro lado, permitem que as empresas economizem em custos iniciais armazenando cópias menores ou em espera de instâncias de aplicações em uma nuvem pública, ampliando-as ao adicionar recursos de computação quando precisam ser ativados em uma emergência. As empresas também podem distribuir aplicações de missão crítica em diversas regiões de nuvem.
Um fluxo de trabalho de recuperação de desastres contém uma visão geral das etapas e das sequências necessárias para reiniciar sistemas, recuperar dados e se comunicar durante uma crise. Os runbooks de RD entram em mais detalhes sobre os processos de recuperação e a documentação associada. Eles fornecem listas de verificação fáceis de seguir para mover operações digitais para a segurança durante incidentes e podem facilitar testes ou failover em caso de emergência. Fluxos de trabalho e runbooks mostram às empresas como organizar uma recuperação em fases e identificam sistemas críticos e acordos de nível de serviço.
Os fluxos de trabalho de RD incluem avaliações de risco, os comitês envolvidos em um plano, bem como suporte de gestão, estratégias de recuperação e procedimentos de teste. Os runbooks podem conter listas de verificação detalhadas para diferentes bancos de dados, servidores e equipamentos de rede para que a equipe possa executar etapas de recuperação sob pressão de tempo.
Uma operação de recuperação de desastres é o processo de execução de cada etapa ou tarefa predeterminada em um plano de RD que é necessário para restaurar a infraestrutura, os bancos de dados e as aplicações de uma organização a um estado totalmente operacional. Dois termos, failover e switchover, são usados para descrever a transição de uma pilha de aplicações para um local diferente.
O failover proporciona uma mudança rápida para um sistema de backup durante crises inesperadas, incluindo quedas de energia e falhas de equipamento. É empregado quando aplicações, bancos de dados e máquinas virtuais falham e recursos como armazenamento, dados e sistemas operacionais estão em um estado instável.
Switchover é a transição ordenada para um sistema secundário durante o tempo de inatividade planejado para manutenção. Ele permite o desligamento de aplicações, bancos de dados e máquinas virtuais ou servidores. Nesse caso, tanto a região primária quanto a de espera operam normalmente, e a equipe de operações de TI move os sistemas de uma região para outra para manutenção ou para concluir atualizações.
A flexibilidade da computação em nuvem permite que as empresas implementem estratégias de RD que se ajustem às suas necessidades sem exceder seus orçamentos. Os arranjos de nuvem híbrida, nos quais alguns recursos de computação são executados on-premises e outros em uma nuvem pública, podem reduzir o custo da recuperação de desastres. Arquiteturas de nuvem, incluindo microsserviços, permitem que componentes de software sejam executados em servidores virtuais distribuídos, tornando-os menos vulneráveis a muitos tipos de desastres.
Soluções de recuperação de desastres inter-regionais protegem organizações contra interrupções, como aquelas causadas por furacões, que podem prejudicar o acesso a sistemas hospedados em apenas um data center. Os serviços podem ser executados em domínios de disponibilidade isolados, geograficamente separados e tolerantes a falhas, fora da zona de impacto. Uma pilha inteira para um determinado sistema, incluindo máquinas virtuais, bancos de dados e aplicações, pode ser transferida para uma região de nuvem diferente em outro local.
Nuvem híbrida é uma arquitetura popular que permite que as empresas transfiram algumas cargas de trabalho de seus próprios data centers para a infraestrutura de nuvem. Também pode ser útil para a recuperação de desastres. A adoção de uma arquitetura híbrida geralmente requer a execução de cargas de trabalho em servidores virtuais para que o hardware subjacente no data center na nuvem possa alterar facilmente sem afetar as operações.
Depois que as cargas de trabalho são virtualizadas, elas podem ser reiniciadas em um ambiente de nuvem quando os data centers primários ficam indisponíveis. Os data centers em nuvem podem ser alternativas econômicas a conjuntos de data centers geograficamente dispersos.
As soluções de DR multicloud protegem aplicações e dados ao distribuir os componentes das aplicações pelas infraestruturas de nuvem de dois ou mais provedores. Essa estratégia pode ser adequada para empresas que usam mais de um provedor de nuvem, permitindo que elas definam o tempo de recuperação e objetivos pontuais para diferentes aplicações, ao mesmo tempo em que gerenciam custos e tomam decisões sobre dispersão geográfica. Um processo de RD multicloud também pode derivar de como os serviços e as aplicações foram desenvolvidos.
Os serviços de orquestração e gerenciamento podem fornecer recuperação de desastres abrangente para todas as camadas de uma pilha de aplicações, incluindo infraestrutura, bancos de dados e middleware. A DRaaS reduz erros humanos e minimiza o tempo de recuperação executando rapidamente fluxos de trabalho de recuperação de desastres para restaurar pilhas de aplicações em diferentes regiões.
O Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery possibilita que os clientes gerenciem a transição de infraestrutura, bancos de dados e aplicações entre regiões da OCI em todo o mundo. Os clientes podem usar o Full Stack DR sem redesenhar ou reimplementar a infraestrutura, os bancos de dados ou as aplicações existentes, eliminando a necessidade de servidores de armazenamento ou gerenciamento especializados.
Crie, teste e implemente aplicações na Oracle Cloud gratuitamente.
Por que a recuperação de desastres é importante para as empresas?
Disrupções não planejadas podem sair caro. Mais de dois terços delas custam mais de US$ 100.000, de acordo com o grupo de consultoria de TI Uptime Institute, enquanto um quarto das interrupções não planejadas custam mais de US$ 1 milhão para as empresas.
Quais são os principais componentes de um plano de recuperação de desastres?
Um plano de recuperação de desastres inclui a estratégia de uma empresa para selecionar sites de backup ou implementar cargas de trabalho de computação em uma nuvem pública de uma forma que permita reiniciar rapidamente as operações. As organizações também precisam classificar suas aplicações corporativas importantes e de missão crítica e mapear dependências entre elas que podem impedir que o software volte a funcionar.
Como a recuperação de desastres difere do backup de dados?
Fazer backup de dados em um servidor ou site remoto é um aspecto da recuperação de desastres, mas os planos modernos de RD abrangem muito mais. As empresas precisam considerar estratégias tecnológicas que equilibrem a replicação de dados com a disponibilidade do serviço para manter os custos sob controle e, ao mesmo tempo, permitir que reiniciem as aplicações a partir de uma pequena instância em espera.
Como a computação em nuvem afeta a recuperação de desastres?
As tecnologias de nuvem podem fornecer proteções durante um desastre, separando regiões de nuvem em domínios de disponibilidade isolados uns dos outros e tolerantes a falhas. As empresas podem replicar sistemas para alta disponibilidade e recuperação de desastres usando os recursos e utilitários geralmente fornecidos pelo provedor de nuvem.