Aaron Ricadela | Estratega de contenido | 26 de abril de 2024
Las empresas deben seguir funcionando en tiempos de crisis. Un elemento crucial del desafío pasa por afrontar y recuperarse de las averías informáticas, que pueden alterar el curso de las ventas, las operaciones, la producción y el transporte. Independientemente de que las interrupciones de TI estén causadas por acciones humanas, errores de software, condiciones climáticas extremas o desastres naturales, las organizaciones necesitan estrategias operativas y técnicas bien planificadas para superar una crisis manteniendo intactos sus procesos, recuperándose rápidamente y reanudando el curso normal de las operaciones.
Los eventos disruptivos no planificados que impiden las operaciones críticas de la empresa pueden dañar la reputación de la marca y provocar pérdidas financieras y reprimendas normativas. Por eso las organizaciones mantienen desde hace tiempo planes de continuidad y sistemas de copia de seguridad completos. Actualmente, la proliferación de la computación en la nube y las arquitecturas de aplicaciones más recientes inspiradas en Internet están cambiando la forma en que las organizaciones planean operar a través de interrupciones, diseñan sistemas de recuperación ante desastres para recuperar datos críticos y asignan presupuestos para mejorar la resiliencia.
Si bien los planes que utilizan centros de datos físicos geográficamente distanciados como base para la recuperación ante desastres son comunes, aquí nos centraremos en estrategias más recientes que implican el uso de servicios en la nube.
Ejecutar algunas aplicaciones tanto en un centro de datos como en un servicio de infraestructura en la nube puede ser una forma sencilla y asequible de mejorar la resiliencia mediante la distribución geográfica de los sistemas de aplicaciones. Los costos se pueden reducir aún más si se ejecutan instancias más pequeñas o en espera en la nube y escalándolas solo cuando sea necesario.
Como veremos, una de las decisiones más difíciles implicará decidir cómo mantener copias actualizadas constantemente de los almacenes de datos críticos, de modo que perder una copia solo interrumpa temporalmente las operaciones. Por ejemplo, un sistema que permite a los clientes gestionar sus cuentas solo es útil si estos pueden consultar sus compras y crear otras nuevas. Si un desastre interrumpe ese acceso, la aplicación no resulta útil. Las estrategias de replicación de bases de datos a menudo son un factor decisivo a la hora de crear una estrategia resiliente.
Los planes de continuidad de negocio proporcionan a los líderes de una organización hojas de ruta para mantener las operaciones en marcha cuando un desastre o fallo de TI interrumpe el curso normal del trabajo y desconecta de Internet las aplicaciones en que utilizan. Los planes detallan las personas, los procesos y las estrategias tecnológicas que una organización necesita para seguir trabajando de manera eficaz durante una catástrofe. Las interrupciones en las operaciones se deben habitualmente a errores técnicos humanos y de software que causan fallos, según los expertos. Los desastres naturales y, cada vez más, los problemas del sistema causados por los centros de datos sobrecalentados debido al clima extremo pueden provocar interrupciones en el negocio. El terrorismo, la ciberdelincuencia y la guerra también pueden ser causantes de interrupciones.
Los planes de continuidad de negocio, al tiempo que incluyen la recuperación ante desastres de aplicaciones de software y datos, abordan otros muchos aspectos, como la comunicación con el personal, garantizar que los trabajadores tengan acceso físico a computadoras y dispositivos móviles, y los cambios necesarios en las cadenas de suministro y otras consideraciones operativas.
Además de planificar el personal, los procesos y la tecnología necesarios para mantener las operaciones durante una interrupción, las empresas necesitan una táctica concreta para recuperar el acceso a sistemas, datos y aplicaciones fundamentales. La recuperación ante desastres describe los planes técnicos detallados que las empresas crean para poner en marcha las cargas de trabajo de nuevo en su orden de importancia, los presupuestos que asignan para hacerlo y los planes para probar la estrategia.
El objetivo es minimizar el tiempo de inactividad y la pérdida de datos al tiempo que se equilibra el costo para proteger cada carga de trabajo informática. Aquí es donde las tecnologías en la nube pueden ayudar.
Cuando la computación se realizaba principalmente en sistemas cliente-servidor en centros de datos propiedad de la empresa o alquilados, los presupuestos de TI podían duplicarse o triplicarse para cada aplicación que necesitaba su propio conjunto de licencias, servidores duplicados, almacenamiento, redes y refrigeración, todo funcionando en instalaciones y a una distancia adecuada del centro de datos de producción de la empresa. La computación en la nube ha cambiado las dinámicas, lo que permite a las empresas desplegar aplicaciones esenciales en varias regiones en la nube o centros de datos. Las tecnologías en la nube también permiten a los departamentos de TI cambiar rápidamente el tamaño de los recursos o instancias del servidor y agregar más capacidad según sea necesario mediante herramientas de gestión remota.
Las empresas deben tomar decisiones esenciales sobre dos métricas clave de recuperación ante desastres: ¿con qué rapidez necesitamos recuperarnos de una interrupción y cuál es la cantidad aceptable de pérdida de datos?
El objetivo de tiempo de recuperación (RTO) mide el tiempo que una empresa está dispuesta a esperar hasta que se restaure el servicio, y el objetivo de punto de recuperación (RPO) determina la cantidad máxima de datos que una empresa está dispuesta a perder en un desastre. Cuanto más bajos sean los umbrales, mejor, pero más costará implementar un plan de recuperación ante desastres. Cada ejecución de TI del sistema tendrá su propio RTO y RPO. Un sistema de transacciones de ventas presentará tiempos y puntos de recuperación cortos, mientras que un sistema de gastos de empleado podría recuperarse razonablemente unos días después de un desastre.
La continuidad de negocio y la recuperación ante desastres se refiere a las tecnologías, políticas y procedimientos que una organización pone en marcha para garantizar que pueda continuar operando en caso de un desastre u otra interrupción imprevista. BCDR implica identificar los riesgos potenciales para el tiempo de actividad y desarrollar estrategias para recuperar y reanudar las operaciones normales lo más rápido posible.
Las estrategias de continuidad de negocio y recuperación ante desastres se han convertido en un elemento fundamental para una amplia gama de empresas a medida que se realizan más transacciones en línea con clientes, proveedores y otros socios, y los volúmenes de datos han aumentado. Además, se ha incrementado el número de sistemas que se han vuelto interdependientes. Ese portal de clientes que permite a los clientes consultar órdenes anteriores y realizar otras nuevas puede requerir conexiones con los sistemas de gestión de inventario, satisfacción y gestión de producción. Dado que todos son necesarios, cada uno heredará los requisitos de RTO y RPO más cortos del grupo.
Si bien la continuidad de negocio es importante para las empresas de todos los sectores, contar con planes BCDR eficaces puede ser particularmente importante para las organizaciones de ciertos sectores. Por ejemplo, las empresas de sectores altamente regulados, como banca, energía y salud, están sujetas a estrictos requisitos en materia de continuidad de negocio y, a menudo, no pueden tolerar el tiempo que se tarda en recuperar datos de copias de seguridad. Y ciertos subsectores, como los mercados de capitales, no pueden permitirse el lujo de perder ni siquiera minutos de datos.
Las empresas deben comenzar su planificación de BCDR con un análisis de impacto que detalle qué desastres pueden ocurrir y los tipos de pérdidas que podrían provocar. El plan debe incluir errores técnicos de configuración, desastres naturales, terrorismo e incidentes de ciberseguridad, como ataques de ransomware. Dado que los volúmenes de datos actuales son mucho más altos que en décadas pasadas, los líderes empresariales deben priorizar los procesos y sus aplicaciones de software asociadas, determinando cuáles son esenciales y colocando a otros en grupos clasificados en función de su importancia, llamados niveles, donde se pueden aplicar estándares de RTO y RPO más indulgentes.
Identificar las áreas más importantes de un negocio y estimar la cantidad de tiempo de inactividad que cada uno podría tolerar ayudará a crear un plan para mantener esas funciones en ejecución, incluidas las copias de seguridad de datos, las cuotas de TI "de luz piloto" que pueden ayudar a iniciar operaciones informáticas más amplias y las configuraciones de tecnología que los empleados necesitarían para trabajar desde casa. Los sistemas de "luz piloto" se pueden considerar sistemas en espera en caliente, y siempre que sean aplicables a almacenes de datos esenciales, estos sistemas en la nube podrán entrar en funcionamiento en cuestión de minutos después de un desastre.
Las tecnologías de computación en la nube son herramientas importantes que pueden ayudar a las empresas a implementar planes de continuidad de negocio y recuperación ante desastres sin alterar sus presupuestos.
Las configuraciones de TI híbrida, en las que algunos recursos informáticos se ejecutan en la nube pública y otros en centros de datos locales, han reducido el costo de la recuperación ante desastres. Las cargas de trabajo en la nube creadas con microservicios (recopilaciones de pequeños componentes de software que se ejecutan en servidores virtuales distribuidos que trabajan en conjunto para entregar aplicaciones a los usuarios) permiten a las empresas crear despliegues de TI denominados "luz piloto", es decir, datos en directo y actualizados con servicios inactivos que se pueden utilizar para reiniciar un sistema en un centro de datos en la nube. Los entornos de nube híbrida requieren que las empresas identifiquen, cataloguen y gestionen dependencias de aplicaciones que impidan que un programa de software se reinicie si otro en el que se basa está fuera de línea.
Algunas empresas están trabajando para mover todas sus aplicaciones a la nube, con el objetivo de cerrar sus centros de datos al final. Por lo general, varios factores entran en juego, como el deseo de integrar aplicaciones internas más fácilmente con otros sistemas basados en la nube; una gestión de aplicaciones y sistemas más sencilla; una mejor escalabilidad, disponibilidad y capacidad de actualización de las aplicaciones; y un BCDR superior. Las ventajas de la continuidad de negocio incluyen la capacidad de mantener sistemas "piloto de luz" en centros de datos en la nube de regiones de nube geográficamente dispares; menos preocupaciones por la accesibilidad de empleados y clientes en caso de desastre, y un diseño de aplicaciones fundamentalmente más resistentes con pocos o ningún punto de fallo único. Sin embargo, obtener todas estas ventajas no solo requiere mover una aplicación existente para ejecutarla en un centro de datos en la nube. Exige volver a diseñar y codificar la aplicación.
El proceso se conoce como refactorización, y las arquitecturas más adecuadas son los servicios en la nube. La refactorización puede tomar mucho tiempo y ser costosa. Sin embargo, las aplicaciones resultantes son más resistentes, versátiles y escalables, que es lo mejor para tu estrategia de BCDR. La aplicación también será más fácil de modificar para proporcionar una nueva funcionalidad. Por ejemplo, el proceso de agregar funciones de análisis e IA resulta mucho más manejable, ya que estos son únicamente nuevos servicios web que se pueden utilizar dentro de la aplicación.
Las empresas deben priorizar sus cargas de trabajo según la disponibilidad, el RTO y el RPO que necesiten, y así poder planificar un enfoque de recuperación ante desastres que se ajuste a su presupuesto. La restauración de sistemas a partir de una copia de seguridad puede ser la ruta de acceso menos costosa, aunque los conjuntos de datos grandes pueden tardar mucho tiempo en recuperarse, y las copias de seguridad fuera de línea tendrán un RPO prolongado. Sin embargo, las copias de seguridad fuera de línea son importantes, especialmente para los datos esenciales, y puede ser la única opción viable para recuperarse de un incidente de ransomware. Las implementaciones de "luz piloto" pueden restaurar los sistemas al estado de ejecución en minutos en lugar de horas, pero su mantenimiento suele traer consigo mayores costos.
Con los métodos en espera en caliente, que combinan datos activos y actualizados con réplicas de aplicaciones basadas en la nube y pueden manejar solicitudes mientras se ejecutan a menor capacidad, los RPO se miden en segundos y los RTO en minutos. Un enfoque de failover activo/activo que utilice múltiples sitios ejecutados a plena capacidad puede ofrecer tiempos de recuperación y puntos de casi cero, pero representa la fórmula más cara.
Ventajas y desventajas de la recuperación ante desastres
Al planificar su estrategia de recuperación ante desastres, las empresas deben tomar decisiones sobre el tiempo de recuperación, la pérdida de datos y los costos
Método de recuperación ante desastres | Objetivo de punto de recuperación | Objetivo de tiempo de recuperación | Costo |
---|---|---|---|
Copia de seguridad y restauración | horas | horas | Dólares |
Piloto | minutos | minutos | $$ |
Espera activa | segundos | minutos | $$$ |
Activa/activa | Casi cero | Potencialmente cero | $$$$ |
Fuente: Oracle
Los planes de continuidad de negocio permiten garantizar que una empresa pueda seguir operando y entregando sus productos o servicios durante una crisis. Implica coordinar las personas, los procesos y la tecnología para atravesar un escenario de desastre.
La recuperación ante desastres es el elemento de la continuidad de negocio relacionado con la recuperación y ejecución rápidas de las operaciones de TI y con una pérdida mínima de datos. Abarca planes técnicos para reiniciar las cargas de trabajo informáticas y un enfoque escalonado de la recuperación basado en la importancia y las dependencias de las aplicaciones.
Conclusiones clave
La planificación de la continuidad de negocio debe comenzar con una evaluación de los riesgos potenciales. Los planes también deben reflejar cómo la empresa espera mantener las comunicaciones con los empleados, tendrá en cuenta las contingencias de servicio al cliente y ventas, y así ajustará las cadenas de suministro. Los planes también deben hacerse eco de cómo la empresa espera mantener las comunicaciones con los empleados, tendrá en cuenta las contingencias de servicio al cliente y ventas, y ajustará las cadenas de suministro. Y no deberían depender de ninguna persona para reconectar los sistemas en línea.
Las empresas necesitan crear un inventario de sus activos de hardware y software que documente las dependencias que existen entre ellos. Los componentes de los sistemas que solo se ejecuten durante los desastres necesitan ser sometidos a pruebas especialmente cuidadosas, ya que no se utilizan normalmente y son propensos fallos.
Los programas de BCDR más eficaces asignan dependencias, determinan niveles de aplicación, evalúan riesgos, se someten a pruebas regulares y cuentan con equipos calificados y un responsable ejecutivo visible, según investigación de PwC.
Es importante que las empresas diferencien entre alta disponibilidad y recuperación ante desastres al planificar sus enfoques de computación en la nube. Las nubes públicas que incluyen las denominadas zonas de disponibilidad a pocos kilómetros unas de otras, o incluso dentro del mismo complejo de edificios, pueden ayudar a garantizar que si se produce un fallo en un centro de datos, las cargas de trabajo de los clientes continúen ejecutándose en los demás centros que se encuentren dentro de la misma zona. Si bien este enfoque proporciona mayor disponibilidad, no aborda los desastres con un radio más amplio, como los principales eventos climáticos, los apagones regionales y las olas de calor.
Los eventos disruptivos, los desastres naturales o los fallos imprevistos de TI pueden lastrar las ventas y complicar las operaciones, dejar las oficinas inutilizables, desconectar los centros de datos o destruir plantas y equipos. Todo ello suele desembocar en pérdidas financieras. Un plan de continuidad de negocio y recuperación ante desastres puede permitir que las organizaciones respondan rápidamente durante una crisis, limiten las pérdidas, se ajusten a los requisitos normativos y sigan atendiendo a los clientes.
Según estimaciones, las interrupciones informáticas graves que causen estragos en las operaciones pueden generar daños financieros hasta de 100 000 dólares por hora. Southwest Airlines, por ejemplo, mantuvo en tierra casi 2000 vuelos en abril de 2023 después de un problema de firewall de red, lo cual provocó que dejara atascados en terminales o las pistas de despegue. Y las interrupciones no planificadas son cada vez más caras: una encuesta de 2022 realizada entre 830 empresas (PDF) por el grupo asesor de TI Uptime Institute descubrió que una cuarta parte de las interrupciones no planificadas cuestan a las empresas más de 1 millón de dólares. De los encuestados, el 29 % registró ingresos inferiores a 1 millón de dólares, el 28 % entre 1 millón de dólares y 9,99 millones de dólares, y el resto alcanzaba 10 millones de dólares o más.
Los planes de continuidad de negocio incluyen evaluaciones exhaustivas de los riesgos potenciales y las interrupciones en las operaciones que causarían, cómo afectarían al personal interno y los proveedores, y las pérdidas financieras y las multas reglamentarias que podrían acarrear. También detallan las medidas en materia de personal, procesos y técnicas que deben tomar para volver a estar en línea y operativos y para recuperar los datos que se pierdan. La formación y las pruebas también son esenciales.
Un plan de BCDR sólido debe incluir los siguientes elementos:
La construcción de un plan de BCDR implica varios pasos, comenzando con la creación y coordinación de un equipo con representantes de las partes interesadas clave. Al seguir este proceso, puedes crear un plan de BCDR integral que te ayudará a proteger tu negocio y minimizar las interrupciones en caso de emergencia.
Desde el punto de vista de la TI, debes prestar especial atención a las pruebas de componentes de sistemas que se utilizarán únicamente durante desastres.
Descarga el plan gratuito de continuidad de negocio y recuperación ante desastres (DOC)
Los ámbitos de la continuidad de negocio y la recuperación ante desastres están buscando nuevas tecnologías para automatizar el trabajo y mejorar la precisión. En primer lugar está la IA generativa, que puede examinar los estándares y documentos que recomiendan las mejores prácticas para crear un punto de partida de cara a desarrollar un plan de BCDR. La tecnología puede establecer conexiones entre los procesos de negocio y los recursos que los ejecutan, lo cual facilita el análisis de impacto empresarial.
Las herramientas de IA pueden ahorrar horas de tiempo a los responsables de continuidad de negocio, ya que encuentran información detallada en los análisis de impacto para fundamental la elaboración del plan de recuperación.
El uso de la IA generativa en el desarrollo y las operaciones de TI también puede servir para analizar los picos de uso y los cambios anormales en el acceso a los datos que el personal podría perder y que podrían ser indicativos de una próxima interrupción. También puede ayudar a identificar dependencias de software y rediseñar los sistemas para reducir el número de puntos únicos de fallo.
La computación en la nube con tecnología de Oracle proporciona varias medidas de protección contra el tiempo de inactividad en el procesamiento provocado por un desastre. Oracle Cloud Infrastructure (OCI) emplea un enfoque único y especialmente resistente que separa las distintas regiones de nube globales —las cuales proporcionan servicios en todas las áreas geográficas— en dominios de disponibilidad, que están aislados entre sí. Los dominios de disponibilidad de la misma región cuentan con sus propios sistemas de alimentación y refrigeración, por lo que es poco probable que un fallo en un dominio de la región interrumpa el trabajo de procesamiento en otro.
Los dominios de disponibilidad se conectan entre sí mediante una red de baja latencia y gran ancho de banda, lo que permite a los clientes crear sistemas replicables en los distintos dominios de disponibilidad para garantizar una elevada disponibilidad y la capacidad de recuperación ante desastres. La red también conecta los entornos de nube a la computación local para los entornos de nube híbrida.
A su vez, cada dominio de disponibilidad de Oracle Cloud Infrastructure incluye tres dominios de error para que las instancias informáticas no residan en el mismo hardware dentro de un dominio de disponibilidad. Esta arquitectura también ayuda a proteger a la organización contra interrupciones no planificadas. La estrategia de Oracle consiste en desplegar dos o más regiones en la nube en países en los que opere una nube pública para satisfacer los requisitos de residencia de datos de los clientes.
Además, Oracle Database incluye la tecnología Real Application Clusters (RAC) para la redundancia incorporada, tanto si las cargas de trabajo se ejecutan en Oracle Cloud Infrastructure como en Microsoft Azure. Un producto independiente, Oracle Active Data Guard, ofrece copia remota en espera y en tiempo real de los datos para maximizar la disponibilidad y la recuperación ante desastres de Oracle Database. Para los clientes con las necesidades más exigentes y sofisticadas de recuperación ante desastres, Oracle Cloud Infrastructure GoldenGate puede replicar datos a nivel de bloque, lo que reduce los tiempos de recuperación desde los puntos de recuperación.
Un plan integral de continuidad de negocio y recuperación ante desastres puede ayudar a minimizar el tiempo de inactividad, las pérdidas financieras y los daños a la reputación. También proporciona una sensación de seguridad a los empleados, clientes y partes interesadas, ya que serán conscientes de que la organización está preparada para manejar situaciones inesperadas, cumplir con los requisitos normativos y proteger los datos y activos más importantes. La tranquilidad y la resiliencia que ofrece un plan BCDR hacen que valga la pena el esfuerzo independientemente del tamaño de la empresa.
Una nube distribuida te proporciona la flexibilidad de elegir dónde y cómo se entregan los servicios para satisfacer tus necesidades, incluidas las tareas de BCDR. Descubre por qué Oracle ha sido nombrada entre los líderes en el Magic Quadrant™ de Gartner® 2023 en la categoría de infraestructuras híbridas distribuidas Obtén el informe gratuito ahora.
¿Qué incluye en un plan de BCDR?
Un plan de continuidad de las actividades y recuperación ante desastres debería incluir una evaluación del riesgo de los posibles errores y acontecimientos que podrían interrumpir las operaciones normales, un análisis de impacto de los activos y los sistemas informáticos afectados, una estimación de las posibles pérdidas financieras y provisiones para mantener a las personas y los procesos en funcionamiento durante una crisis. Los planes de BCDR también incluyen descripciones técnicas detalladas de cómo una empresa volverá a conectar en línea las aplicaciones clave y se asegurará de que los empleados tengan acceso a los datos al tiempo que minimiza su pérdida. Aportar cursos de formación al personal también supone un elemento clave.
¿Qué significan las siglas BCP?
BCP significa plan de continuidad de negocio, que incluye una estrategia detallada y un catálogo de los procesos y sistemas que permiten a una empresa mantener sus operaciones cuando se produce una interrupción imprevista. Un plan de continuidad de negocio incluye disposiciones para gestionar personas, procesos y tecnologías durante una crisis, con el objetivo de volver al trabajo normal lo más rápido posible.