Aaron Ricadela | Escritor sénior | 25 de julio de 2024
Los desastres de diversos tipos pueden dejar fuera de línea los sistemas críticos, dañar oficinas y centros de datos o inutilizar temporalmente las bases de datos y aplicaciones necesarias para las operaciones comerciales normales. Un plan de recuperación ante desastres es el proceso y la hoja de ruta tecnológica de una empresa para restaurar rápidamente sus sistemas y aplicaciones más importantes, de modo que pueda reanudar el trabajo mientras se restauran otros.
La recuperación ante desastres (DR) abarca los planes técnicos de una empresa para restaurar sus cargas de trabajo informáticas después de un evento disruptivo, así como los métodos para probar el plan antes de que ocurra una calamidad. En un plan de recuperación ante desastres, las cargas de trabajo se clasifican en orden de importancia. Las empresas buscan minimizar el tiempo de inactividad informática y la pérdida de datos mientras equilibran el costo de hacerlo para cada carga de trabajo.
Aunque la recuperación ante desastres ha sido durante mucho tiempo un componente importante de las operaciones de TI, la computación en la nube y las arquitecturas de software diseñadas para internet están reduciendo el costo y el esfuerzo de implementar planes de recuperación ante desastres integrales.
La recuperación ante desastres describe las políticas, tecnologías y presupuesto que las empresas dedican a restaurar sistemas de TI importantes después de tiempos de inactividad inesperados causados por errores de operador, actos malintencionados, fallos de software, desastres naturales u otras calamidades. Antes de que ocurra una interrupción, las empresas deben identificar qué aplicaciones esenciales deben restaurarse inmediatamente después de un desastre y clasificar otras en grupos de importancia, llamados niveles. Luego, deben decidir cuánto tiempo de inactividad y pérdida de datos puede soportar la empresa para cada aplicación y planificar estrategias de TI en consecuencia.
La recuperación ante desastres es importante porque el tiempo de inactividad no planificado causado por eventos disruptivos puede generar pérdidas financieras sustanciales —alrededor de 100 000 dólares por hora, según estimaciones del sector. Los tiempos de inactividad prolongados también pueden dañar la reputación de una marca y resultar en sanciones regulatorias. En algunas industrias altamente reguladas, como servicios financieros, energía y salud, las empresas necesitan restaurar datos y operaciones informáticas más rápido de lo que permiten las copias de seguridad convencionales.
El tiempo de inactividad no planificado también puede costar vidas, especialmente en sectores como servicios de emergencia y atención médica. Si ocurre un evento catastrófico —como un huracán, tornado o terremoto— todos los servicios están en riesgo. ¿Puede la información ir a donde se necesita para salvar vidas?
Hay dos métricas críticas de recuperación ante desastres: el objetivo de tiempo de recuperación (RTO), que mide la cantidad máxima de tiempo que un sistema puede permanecer fuera de línea, y el objetivo de punto de recuperación (RPO), que mide la cantidad de datos que una empresa puede permitirse perder y está asociado con la frecuencia de copias de seguridad o replicación. Para ambos, los umbrales más cortos son mejores pero más costosos. Las organizaciones de TI a menudo establecen un RTO y un RPO para cada sistema que ejecutan, lo que les permite equilibrar los costos con la importancia.
La recuperación ante desastres es un área de práctica bien establecida, pero un mayor uso de los servicios en la nube combinados con las llamadas implementaciones de "luz piloto", que utilizan datos en vivo y actualizados con servicios en espera para reiniciar un sistema en un centro de datos en la nube, están ayudando a los planificadores a ofrecer excelentes métricas de RTO y RPO por menos dinero. Esto se debe a que los proveedores de nube invierten en redundancia en cada capa de infraestructura, lo que permite procesos de recuperación y failover automatizados y semiautomizados. Estas son inversiones que sus clientes ya no necesitan hacer. Además, las implementaciones piloto de luz pueden reducir el tiempo necesario para que los servicios vuelvan a estar en funcionamiento en minutos.
Más información sobre los despliegues de recuperación ante desastres basados en la nube que se deben seguir.
Muchos tipos de desastres pueden afectar a los sistemas de TI, incluidos los ciberataques, los fallos de hardware, los desastres naturales y las interrupciones causadas por errores humanos. Algunos pueden anticiparse. Por ejemplo, todas las organizaciones pueden ser blanco de ciberataques. Algunas empresas se ubican en donde los desastres naturales, como huracanes, terremotos e inundaciones, son más propensos a ocurrir. El error humano es una constante.
La tarea es estar preparado para reaccionar cuando algo salga mal.
Las interrupciones no planificadas son cortes inesperados en un sistema o servicio que resultan en tiempo de inactividad y disrupción de las operaciones normales. Estas interrupciones pueden ocurrir por los factores mencionados anteriormente y tener consecuencias graves para las empresas, como pérdida de ingresos, daño a la reputación, disminución de la satisfacción del cliente e incluso pérdida de vidas. Es esencial tener planes de recuperación para minimizar el impacto de las interrupciones no planificadas y garantizar la rápida restauración de los servicios.
Las tecnologías de alta disponibilidad replican datos entre nodos de un clúster o agrupan servidores para que puedan reemplazarse mutuamente y mantener las cargas de trabajo en ejecución, asegurando niveles de servicio de TI muy altos. Estas tecnologías buscan eliminar puntos únicos de fallo y, en general, están respaldadas por acuerdos de nivel de servicio que garantizan porcentajes de tiempo de actividad. En la computación en la nube, la alta disponibilidad protege la infraestructura física, incluidos el suministro eléctrico, la refrigeración, el almacenamiento, las redes y los servidores. El software de equilibrio de carga de nivel de aplicación también ayuda a garantizar altos niveles de tiempo de actividad.
La recuperación ante desastres, por otro lado, protege contra múltiples puntos de fallo y tiene como objetivo restaurar las cargas de trabajo críticas a un estado operativo después de una interrupción extrema, como cuando un terremoto o huracán derriba una instalación. Los sitios de recuperación ante desastres suelen estar geográficamente distantes entre sí.
Tanto las tecnologías de alta disponibilidad como las de recuperación ante desastres deben formar parte de un plan integral de continuidad del negocio.
El objetivo principal de un plan de recuperación ante desastres es garantizar que las unidades de negocio puedan seguir trabajando durante una crisis. Los planes de DR incluyen procesos para reiniciar rápidamente los servicios informáticos y limitar las pérdidas de datos y dólares. También tienen como objetivo satisfacer los requisitos normativos que rigen la continuidad del negocio y la retención de datos.
Las dos métricas principales para los planes de recuperación ante desastres son el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO). Cada sistema que ejecuta una empresa puede tener diferentes requisitos de RTO y RPO en función de los acuerdos de nivel de servicio entre TI y las unidades de negocio relevantes.
Para cada aplicación o servicio, el RTO es el tiempo de inactividad máximo permitido después de una interrupción no planificada, mientras que el RPO mide la cantidad máxima de pérdida de datos que una empresa está dispuesta a tolerar. Los umbrales más cortos/menores son mejores, pero generalmente más caros. Las organizaciones de TI pueden establecer un RTO y un RPO para cada sistema que ejecuten a fin de equilibrar los costos con la importancia.
Los planes de DR incluyen evaluaciones exhaustivas de los riesgos potenciales de eventos catastróficos, el daño potencial a las operaciones, cómo podrían verse afectados los empleados y las partes interesadas externas, y las pérdidas financieras o multas regulatorias que podrían incurrir como resultado.
Como parte del desarrollo de un plan de recuperación ante desastres, las empresas deben identificar a los patrocinadores ejecutivos y los equipos afectados; catalogar los activos físicos y de TI que podrían verse perjudicados durante un desastre; y considerar los posibles impactos en los clientes, proveedores, socios y otras partes interesadas.
Los departamentos de TI deben decidir qué cargas de trabajo se pueden restaurar a partir de copias de seguridad, que requieren datos en directo combinados con servicios que se ejecutan a menor capacidad y qué cargas de trabajo necesitan plena capacidad. En algunos casos, los sistemas activos que están caídos realizarán automáticamente una operación de switchover a los sistemas en espera, lo que supondrá un tiempo de inactividad mínimo y sin pérdida de datos. En otros casos, el switchover será manual. Los equipos de TI querrán seleccionar sitios de copia de seguridad y elaborar un plan que les permita reiniciar rápidamente las aplicaciones. La nube es una gran ayuda en este punto. Las empresas también deben buscar dependencias de TI que puedan impedir el reinicio de las operaciones, casos en los que una aplicación fuera de línea impide que otra vuelva a estar en línea.
Además de estos aspectos técnicos, el liderazgo ejecutivo y las líneas de negocio deben tener planes de comunicación y respuesta de emergencia, así como provisiones para capacitar a los empleados en el plan de recuperación ante desastres, ensayarlo a través de pruebas de mesa o recorridos virtuales, y mejorarlo continuamente.
Cada plan de DR debe incluir una evaluación de riesgos de eventos que podrían interrumpir las operaciones comerciales, un análisis de impacto de las aplicaciones que podrían verse afectadas y una estimación de las pérdidas financieras resultantes. El análisis de impacto empresarial debe incluir RTO y RPO para cada aplicación. Las empresas pueden decidir sus planes de recuperación y elegir dónde tiene sentido negociar costos más altos para reducir el tiempo de recuperación y los objetivos de punto de recuperación.
Los enfoques de copia de seguridad y recuperación se encuentran a lo largo de un espectro de costos de rendimiento e incluyen lo siguiente:
No basta con crear un inventario de TI, determinar los niveles de aplicación y asignar dependencias. Para que la recuperación ante desastres funcione al nivel que espera la empresa, todas las tecnologías, desde los sistemas operativos hasta las aplicaciones, deben ser redundantes. El éxito de la recuperación ante desastres también depende de pruebas periódicas, ya sean ejercicios, en los que las partes interesadas realicen los pasos verbalmente, o una guía física de las medidas que los departamentos de TI tomarán y probarán los componentes del sistema que se utilizan solo durante los desastres.
Las regulaciones de informes financieros y protección de datos también afectan los planes de recuperación ante desastres. Por ejemplo, la Ley Sarbanes-Oxley, un reglamento de información financiera corporativa de los Estados Unidos, establece requisitos de retención de datos. La Ley de Portabilidad y Responsabilidad del Seguro Médico de los Estados Unidos (HIPAA) exige planes de contingencia para la información médica electrónica durante un desastre, y el Reglamento General de Protección de Datos (GDPR) de la Unión Europea exige la disponibilidad de datos personales de los ciudadanos durante un desastre.
La recuperación ante desastres como servicio (DRaaS) es un servicio en la nube que permite a las empresas ejecutar aplicaciones en una nube pública o híbrida, con un plan de recuperación ante desastres implementado en las instalaciones de los proveedores de nube en lugar de un centro de datos on-premises. Las ofertas DRaaS basadas en la nube permiten a las empresas realizar la transición de cargas de recursos informáticos, bases de datos y aplicaciones entre regiones de la nube de forma remota, y automatizar los pasos necesarios para recuperar los sistemas empresariales sin necesidad de volver a diseñarlos ni utilizar software de gestión especializado. Es crucial que la solución DRaaS de un proveedor de nube esté diseñada para alta disponibilidad en la región en espera para garantizar que el servicio sea accesible y funcional durante un evento catastrófico.
Las empresas pueden utilizar la recuperación ante desastres en la nube para planificar la recuperación de datos después de un desastre natural que destruya la infraestructura o después de un incidente cibernético, como un ataque de ransomware, donde se interrumpe el acceso a los recursos de la red local. Puesto que los datos se pueden almacenar en una nube regional, la estrategia se puede ajustar a normativas de protección de datos como GDPR. La DRaaS también puede ser una buena solución cuando los presupuestos son ajustados, ya que los costos pueden ser más bajos que los de la configuración de sitios de recuperación redundantes.
El desarrollo de un plan de recuperación ante desastres debe comenzar con una evaluación del riesgo de posibles eventos catastróficos y su impacto en los sistemas de TI y los procesos de empresariales. Luego, los equipos de TI y de línea de negocio, con el apoyo de la administración, deben clasificar los activos y los sistemas por su importancia y asignar estrategias de DR para proteger a cada uno, teniendo en cuenta los RTO y RPO deseados y el presupuesto disponible. Los planes de recuperación ante desastres forman parte de planes de continuidad del negocio más amplios para reducir el tiempo de un desastre, un ciberataque o una interrupción causada por un error técnico a la recuperación. Deben probarse y actualizarse continuamente.
La DR tradicional se basa en servidores redundantes y dispositivos de almacenamiento ubicados en un centro de datos propiedad de la empresa o en la copia de seguridad de datos empresariales e instancias de aplicaciones en centros de datos remotos, por lo que es poco probable que un problema en un área geográfica cause daños a copias remotas lejanas. Las estrategias de recuperación ante desastres basadas en la nube, por el contrario, permiten a las empresas ahorrar en costos iniciales al almacenar copias más pequeñas o en espera de instancias de aplicaciones en una nube pública, escalándolas al agregar recursos informáticos cuando necesiten activarse en una emergencia. Las empresas también pueden distribuir aplicaciones esenciales entre varias regiones de la nube.
Un flujo de trabajo de recuperación ante desastres contiene una visión general de los pasos y secuencias necesarios para reiniciar sistemas, recuperar datos y comunicarse durante una crisis. Los runbooks de DR profundizan en los procesos de recuperación y la documentación asociada. Proporcionan listas de verificación fáciles de seguir para trasladar las operaciones digitales a la seguridad durante las emergencias, y pueden facilitar las pruebas o el failover durante una emergencia. Los flujos de trabajo y los runbooks muestran a las empresas cómo organizar una recuperación en fases e identifican los sistemas críticos y los acuerdos de nivel de servicio.
Los flujos de trabajo de recuperación ante desastres incluyen evaluaciones de riesgos, los comités involucrados en un plan, así como el apoyo de la gestión, las estrategias de recuperación y los procedimientos de prueba. Los runbooks pueden contener listas de verificación detalladas para diferentes bases de datos, servidores y equipos de red para que el personal pueda llevar a cabo pasos de recuperación bajo presión de tiempo.
Una operación de recuperación ante desastres es el proceso de ejecución de cada paso o tarea predeterminados del plan de DR necesario para restaurar la infraestructura, las bases de datos y las aplicaciones de una organización a un estado totalmente operativo. Para describir la transición de una pila de aplicaciones a una ubicación diferente se utilizan dos términos: failover y switchover.
La conmutación por error proporciona un cambio rápido a un sistema de copia de seguridad durante crisis inesperadas, incluidas las interrupciones de energía y los fallos de equipo. Se emplea cuando las aplicaciones, las bases de datos y las máquinas virtuales se bloquean y los recursos, como el almacenamiento, los datos y los sistemas operativos, se encuentran en un estado inestable.
Switchover es la transición ordenada a un sistema secundario durante el tiempo de inactividad planificado para el mantenimiento. Permite el cierre de aplicaciones, bases de datos y máquinas virtuales o servidores. En este caso, la región principal y en espera funcionan normalmente, y el personal de operaciones de TI mueve los sistemas de una región a otra para realizar tareas de mantenimiento o completar actualizaciones sucesivas.
La flexibilidad de la computación en la nube permite a las empresas implementar estrategias de recuperación ante desastres que se ajusten a sus requisitos sin sobrecargar sus presupuestos. Los acuerdos de nube híbrida, en los que algunos recursos informáticos se ejecutan localmente y otros en una nube pública, pueden reducir el costo de la recuperación ante desastres. Las arquitecturas en la nube, incluidos los microservicios, permiten que los componentes de software se ejecuten en servidores virtuales distribuidos, lo que los hace menos vulnerables a muchos tipos de desastres.
Las soluciones de recuperación ante desastres interregionales protegen a las organizaciones de interrupciones, como las causadas por huracanes, que anularían el acceso a los sistemas alojados en un solo centro de datos. Los servicios se pueden ejecutar en dominios de disponibilidad aislados, geográficamente independientes y tolerantes a errores fuera de la zona de impacto. Toda la pila de aplicaciones de un sistema determinado, incluidas las máquinas virtuales, las bases de datos y las aplicaciones, se puede transferir a una región de nube diferente de otra ubicación.
La nube híbrida es una arquitectura popular que permite a las empresas migrar algunas cargas de trabajo de sus propios centros de datos a una infraestructura en la nube. También puede ser útil para la recuperación ante desastres. La adopción de una arquitectura híbrida generalmente requiere ejecutar cargas de trabajo en servidores virtuales para que el hardware subyacente dentro del centro de datos en la nube pueda cambiar fácilmente sin afectar las operaciones.
Una vez que las cargas de trabajo se virtualizan, se pueden reiniciar en un entorno en la nube cuando los centros de datos principales dejan de estar disponibles. Los centros de datos en la nube pueden ser alternativas económicas a las matrices de centros de datos geográficamente dispersos.
Las soluciones de DR multinube protegen aplicaciones y datos mediante la distribución de componentes de aplicaciones en las infraestructuras en la nube de dos o más proveedores. Esta estrategia puede adaptarse a las empresas que utilizan más de un proveedor de nube, permitiéndoles establecer objetivos de tiempo y punto de recuperación para diferentes aplicaciones, al tiempo que gestionan los costos y toman decisiones sobre la dispersión geográfica. Un proceso de recuperación ante desastres multinube también podría derivarse de cómo se desarrollaron los servicios y las aplicaciones.
Los servicios de gestión y orquestación de recuperación ante desastres pueden proporcionar una recuperación completa para todas las capas de una pila de aplicaciones, incluidas la infraestructura, las bases de datos y el middleware. La DRaaS reduce los errores humanos y minimiza el tiempo de recuperación mediante la ejecución rápida de flujos de trabajo de recuperación ante desastres para restaurar pilas de aplicaciones en diferentes regiones.
Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery permite a los clientes gestionar la transición de infraestructura, bases de datos y aplicaciones entre regiones de OCI de todo el mundo. Los clientes pueden utilizar Full Stack DR sin volver a diseñar o desplegar la infraestructura, las bases de datos o las aplicaciones existentes, a la vez que eliminan la necesidad de servidores de gestión o almacenamiento especializados.
Crea, comprueba e implementa aplicaciones en Oracle Cloud de forma gratuita.
¿Por qué es importante la recuperación ante desastres para las empresas?
Las interrupciones empresariales no planificadas son costosas. Más de dos tercios de ellos cuestan más de 100 000 dólares, según el grupo asesor de TI Uptime Institute, mientras que una cuarta parte de las interrupciones no planificadas de TI cuestan más de 1 millón de dólares.
¿Cuáles son los componentes clave de un plan de recuperación ante desastres?
Un plan de recuperación ante desastres incluye la estrategia de una compañía para seleccionar sitios de copia de seguridad o desplegar cargas de trabajo informáticas en una nube pública, de manera que le permita reiniciar rápidamente las operaciones. Las organizaciones también deben clasificar sus aplicaciones empresariales esenciales e importantes y asignar dependencias entre ellas que podrían obstaculizar la puesta en línea del software.
¿En qué se diferencia la recuperación ante desastres de la copia de seguridad de datos?
La copia de seguridad de los datos en un servidor o sitio remoto es un aspecto de la recuperación ante desastres, pero los planes de DR modernos cubren mucho más. Las empresas deben considerar estrategias tecnológicas que equilibren la replicación de datos con la disponibilidad del servicio para mantener los costos bajo control y, al mismo tiempo, permitirles reiniciar las aplicaciones desde una pequeña instancia en espera.
¿Cómo afecta la computación en la nube a la recuperación ante desastres?
Las tecnologías en la nube pueden ofrecer protección ante desastres al separar las regiones en dominios de disponibilidad aisladas y tolerantes a fallos. Las empresas pueden replicar sistemas para alta disponibilidad y recuperación ante desastres utilizando las instalaciones y los servicios públicos que a menudo proporciona el proveedor de la nube.