Aaron Ricadela | Rédacteur senior | 25 juillet 2024
Des catastrophes en tout genre peuvent mettre hors ligne les systèmes critiques, endommager les bureaux et les data centers, ou rendre temporairement inutilisables les bases de données et les applications nécessaires à l'exécution des opérations commerciales normales. Un plan de reprise après sinistre est une feuille de route reprenant les processus et la technologie d'une entreprise pour la sauvegarde rapide de ses systèmes et applications les plus importants afin qu'elle puisse reprendre le travail tout en restaurant les autres.
La reprise après sinistre englobe les plans techniques d'une entreprise pour remettre ses workloads de calcul en ligne après un événement perturbateur, ainsi que les méthodes pour tester ses stratégies. Dans un plan de reprise après sinistre, les workloads sont classés par ordre d'importance. Les entreprises visent à réduire les temps d'arrêt de calcul et les données perdues tout en équilibrant le coût de cette opération pour chaque workload.
Alors que la reprise après sinistre est depuis longtemps un élément important des opérations informatiques, le cloud computing et les architectures logicielles conçues pour Internet réduisent le coût et le travail de mise en œuvre de plans de reprise après sinistre complets.
La reprise après sinistre décrit les politiques, les technologies et le budget que les entreprises consacrent à la remise en ligne des systèmes informatiques importants après des temps d'arrêt inattendus causés par des erreurs d'opérateur, des actes malveillants, des bugs logiciels, des catastrophes naturelles ou d'autres incidents. Avant qu'une perturbation ne se produise, les entreprises doivent identifier les applications critiques qui doivent être restaurées immédiatement après une catastrophe et classer les autres dans des groupes d'importance, appelés niveaux. Ensuite, ils doivent décider du temps d'arrêt et de la perte de données que l'entreprise peut supporter pour chaque application et planifier les stratégies informatiques en conséquence.
La reprise après sinistre est importante car les temps d'arrêt imprévus causés par des événements perturbateurs peuvent entraîner des pertes financières importantes, de l'ordre de 100 000 USD par heure, selon des estimations. Des temps d'arrêt prolongés peuvent également nuire à la réputation d'une marque et entraîner des réprimandes réglementaires ou des pénalités. Dans certains secteurs hautement réglementés, notamment les services financiers, l'énergie et les soins de santé, les entreprises doivent restaurer les données et les opérations informatiques plus rapidement que ne le permettent les copies de données de sauvegarde conventionnelles.
Les temps d'arrêt imprévus peuvent également coûter des vies dans des domaines tels que les services d'urgence et les soins de santé. S'il y a un événement catastrophique, tel qu'un ouragan, une tornade ou un tremblement de terre, alors tous les services sont à risque. Les informations peuvent-elles être consultées où c'est nécessaire pour sauver des vies ?
Il existe deux mesures de reprise après sinistre critiques : l'objectif de temps de récupération (RTO), qui mesure la durée maximale pendant laquelle un système peut rester hors ligne, et l'objectif de point de récupération (RPO), qui mesure la quantité de données qu'une entreprise peut se permettre de perdre et qui est associée à la fréquence des sauvegardes ou de la réplication. Pour les deux, des seuils plus courts sont préférables, mais cela a un coût. Les équipes informatiques définissent souvent un RTO et un RPO pour chaque système qu'elles exécutent, ce qui leur permet d'équilibrer les coûts avec la criticité.
La reprise après sinistre est un domaine de pratique bien établi, mais une plus grande utilisation des services cloud, combinée à des déploiements dits « pilotes légers », qui utilisent des données en direct et à jour avec des services de secours pour redémarrer un système dans un data center cloud, aide les planificateurs à fournir d'excellents indicateurs RTO et RPO pour moins d'argent. En effet, les fournisseurs de cloud investissent dans la redondance à chaque couche d'infrastructure, ce qui permet des processus de reprise et de basculement automatisés et semi-automatisés. Ce sont des investissements que leurs clients ne doivent plus réaliser. En outre, les déploiements légers pilotes peuvent réduire à quelques minutes le temps nécessaire à la reprise et à l'exécution des services.
En savoir plus sur les déploiements de reprise après sinistre basés sur le cloud à suivre.
De nombreux types de catastrophes peuvent affecter les systèmes informatiques, notamment les cyberattaques, les pannes matérielles, les catastrophes naturelles et les pannes causées par des erreurs humaines. Certaines peuvent être anticipées. Par exemple, toutes les entreprises peuvent être ciblées par des cyberattaques. Certaines entreprises sont implantées dans des zones plus sujettes aux catastrophes naturelles, telles que les ouragans, les tremblements de terre et les inondations. L'erreur humaine est une constante.
L'objectif est d'être prêt à réagir en cas d'incident.
Les coupures non planifiées sont des interruptions inattendues d'un système ou d'un service qui entraînent des temps d'arrêt et des perturbations des opérations. Ces pannes peuvent se produire en raison des facteurs évoqués précédemment et peuvent avoir de graves conséquences pour les entreprises, notamment la perte de revenus, les dommages à la réputation, la diminution de la satisfaction des clients et même la perte de vies humaines. Il est essentiel d'avoir des plans de rétablissement en place pour réduire l'impact des pannes imprévues et assurer la restauration rapide des services.
Les technologies de haute disponibilité qui répliquent les données entre les nœuds d'un cluster ou de serveurs de cluster ensemble afin qu'ils puissent basculer entre eux et maintenir les workloads en cours d'exécution peuvent garantir des niveaux de services informatiques très élevés. Ces technologies visent à éliminer les points de défaillance uniques et sont généralement soutenues par des contrats de niveau de service qui garantissent des pourcentages de disponibilité. Dans le cloud computing, la haute disponibilité protège l'infrastructure physique, notamment l'alimentation, le refroidissement, le stockage, les réseaux et les serveurs. Un logiciel d'équilibrage de charge au niveau de l'application permet également d'assurer des niveaux élevés de disponibilité.
La reprise après sinistre, en revanche, protège contre de multiples points de défaillance et vise à restaurer les workloads critiques à un état opérationnel après une perturbation extrême, par exemple lorsqu'un tremblement de terre ou un ouragan arrête une installation. Les sites de reprise après sinistre sont généralement éloignés géographiquement les uns des autres.
Les technologies de haute disponibilité et de reprise après sinistre doivent faire partie d'un plan complet de continuité des activités.
L'objectif principal d'un plan de reprise après sinistre est de veiller à ce que les unités opérationnelles puissent continuer à travailler pendant une crise. Les plans de reprise après sinistre incluent des processus permettant de redémarrer rapidement les services informatiques et de limiter les pertes de données et d'argent. Ils visent également à satisfaire aux exigences réglementaires régissant la continuité des activités et la conservation des données.
Les deux mesures principales des plans de reprise après sinistre sont l'objectif de temps de récupération (RTO) et l'objectif de point de récupération (RPO). Chaque système exécuté par une entreprise peut avoir des exigences RTO et RPO différentes en fonction des contrats de niveau de service entre le service informatique et les unités opérationnelles concernées.
Pour chaque application ou service, le RTO est le temps d'arrêt maximal autorisé après une panne imprévue, tandis que le RPO mesure la quantité maximale de perte de données qu'une entreprise est prête à tolérer. Des seuils plus faibles sont préférables, mais cela a généralement un coût. Les organisations informatiques peuvent définir un RTO et un RPO pour chaque système qu'elles exécutent afin d'équilibrer les coûts avec la criticité.
Les plans de reprise après sinistre comprennent des évaluations approfondies des risques potentiels d'événements catastrophiques, des dommages aux opérations qu'ils pourraient causer, de la façon dont les collaborateurs et les parties prenantes externes peuvent être affectés, et des pertes financières ou des amendes réglementaires qui pourraient en résulter.
Dans le cadre de l'élaboration d'un plan de reprise après sinistre, les entreprises doivent identifier les sponsors exécutifs et les équipes affectées, répertorier les actifs physiques et informatiques qui pourraient être endommagés lors d'une catastrophe et examiner les impacts potentiels sur les clients, les fournisseurs, les partenaires et les autres parties prenantes.
Les services informatiques doivent décider quels workloads peuvent être restaurés à partir de sauvegardes, qui nécessitent des données réelles combinées à des services exécutés à une capacité inférieure et quels workloads nécessitent une capacité totale. Dans certains cas, les systèmes actifs en panne basculent automatiquement sur les systèmes de secours, ce qui entraîne un temps d'arrêt minimal sans aucune perte de données. Dans d'autres cas, la permutation sera manuelle. Les équipes informatiques voudront sélectionner des sites de sauvegarde et élaborer un plan qui leur permettra de redémarrer rapidement les applications. Le cloud est d'une grande aide ici. Les entreprises doivent également rechercher les dépendances informatiques susceptibles d'entraver le redémarrage des opérations, dans les cas où une application hors ligne empêche de remettre une autre en ligne.
En plus de ces aspects techniques, la direction et les branches d'activité devraient avoir des plans de communication et d'intervention d'urgence en place, ainsi que des dispositions pour former les collaborateurs au plan de reprise après sinistre, le tester et le répéter via des tests ou des revues de processus, et l'améliorer continuellement.
Chaque plan de reprise après sinistre devrait inclure une évaluation des risques d'événements susceptibles d'interrompre les opérations commerciales, une analyse d'impact des applications susceptibles d'être touchées et une estimation des pertes financières qui en résultent. L'analyse de l'impact sur l'entreprise doit inclure des RTO et des RPO pour chaque application. Les entreprises peuvent alors décider de leurs plans de reprise après sinistre et choisir où il est logique de négocier des coûts plus élevés pour des délais de récupération plus courts et des objectifs de points de récupération.
Les approches de la sauvegarde et de la récupération s'inscrivent dans le spectre des coûts de performance et comprennent les éléments suivants :
Il ne suffit pas de créer un inventaire informatique, de déterminer les niveaux d'application et de mapper les dépendances. Pour que la reprise après sinistre fonctionne au niveau attendu par l'entreprise, chaque technologie, des systèmes d'exploitation aux applications, doit être redondante. Le succès de la reprise après sinistre dépend également de tests réguliers, qu'il s'agisse d'exercices dans lesquels les parties prenantes passent en revue verbalement les différentes étapes, ou d'une présentation physique des mesures que les services informatiques prendront et des tests des composants système utilisés uniquement en cas de catastrophe.
Les réglementations en matière de reporting financier et de protection des données ont également un impact sur les plans de reprise après sinistre. Par exemple, le Sarbanes-Oxley Act, une réglementation américaine sur l'information financière des entreprises, définit les exigences de conservation des données. L'US Health Insurance Portability and Accountability Act (HIPAA) exige des plans d'urgence pour les informations de santé électroniques lors d'une catastrophe, et le Règlement général sur la protection des données (RGPD) de l'Union européenne exige la disponibilité des données personnelles des citoyens lors d'une catastrophe.
La reprise après sinistre en tant que service (DRaaS) est un service cloud qui permet aux entreprises d'exécuter des applications dans un cloud public ou hybride, avec un plan de reprise après sinistre adopté dans les installations des fournisseurs de cloud au lieu d'un data center on-premises. Les offres de DRaaS dans le cloud permettent aux entreprises de transférer à distance les charges de calcul, de base de données et d'application entre les régions cloud et d'automatiser les étapes nécessaires à la récupération des systèmes métier sans les restructurer ni utiliser de logiciel de gestion spécialisé. Il est essentiel que la solution DRaaS d'un fournisseur de cloud soit conçue pour une haute disponibilité dans la région de secours afin de garantir que le service soit accessible et fonctionnel lors d'un événement catastrophique.
Les entreprises peuvent utiliser la reprise après sinistre dans le cloud pour planifier la récupération de données après une catastrophe naturelle qui détruit l'infrastructure ou après un cyberincident, comme une attaque par ransomware, où l'accès aux ressources du réseau local est coupé. Étant donné que les données peuvent être stockées dans un cloud régional, la stratégie peut être mise en conformité avec les réglementations en matière de protection des données telles que le RGPD. DRaaS peut également être une bonne solution lorsque les budgets sont serrés, car les coûts peuvent être inférieurs à ceux de la configuration de sites de récupération redondants.
L'élaboration d'un plan de reprise après sinistre devrait commencer par une évaluation des risques d'événements catastrophiques potentiels et de leur impact sur les systèmes informatiques et les processus opérationnels. Ensuite, les équipes informatiques et les différentes branches d'activités, soutenues par la direction, devraient classer les ressources et les systèmes par degré d'importance et affecter des stratégies de reprise après sinistre pour protéger chacune d'elles, en tenant compte des RTO et RPO souhaités et du budget disponible. Les plans de reprise après sinistre s'inscrivent dans le cadre de plans de continuité des activités plus larges visant à réduire le délai entre un sinistre, une cyberattaque ou une panne causée par une erreur technique et la récupération. Ils doivent être continuellement testés et mis à jour.
La reprise après sinistre traditionnelle repose sur des serveurs et des périphériques de stockage redondants situés dans un data center appartenant à l'entreprise ou sur la sauvegarde des données d'entreprise et des instances d'application vers des data centers distants. Il est donc peu probable qu'un problème dans une zone géographique endommage les copies distantes. En revanche, les stratégies de reprise après sinistre cloud permettent aux entreprises d'économiser sur les coûts initiaux en stockant des copies plus petites ou de secours des instances d'application dans un cloud public, en les augmentant en ajoutant des ressources informatiques lorsqu'elles doivent être activées en cas d'urgence. Les entreprises peuvent également distribuer des applications stratégiques dans plusieurs régions cloud.
Un workflow de reprise après sinistre contient un aperçu des étapes et des séquences nécessaires au redémarrage des systèmes, à la récupération des données et à la communication en cas de crise. Les runbooks de reprise après sinistre abordent plus en détail les processus de récupération et la documentation associée. Ils fournissent des listes de contrôle faciles à suivre pour transférer les opérations numériques vers la sécurité en cas d'urgence, et ils peuvent faciliter les tests ou le basculement en cas d'urgence. Les workflows et les runbooks montrent aux entreprises comment préparer une récupération par étapes, et ils identifient les systèmes critiques et les contrats de niveau de service.
Les flux de travail de reprise après sinistre comprennent les évaluations des risques, les comités impliqués dans un plan, ainsi que le soutien à la gestion, les stratégies de récupération et les procédures de test. Les runbooks peuvent contenir des checklists détaillées pour différents serveurs, bases de données et équipements réseau afin que le personnel puisse effectuer des étapes de récupération sous la pression du temps.
Une opération de reprise après sinistre est le processus d'exécution de chaque étape ou tâche prédéterminée dans un plan de reprise après sinistre qui est nécessaire pour rétablir l'infrastructure, la base de données et les applications dans un état pleinement opérationnel. Deux termes, le basculement et la commutation, sont utilisés pour décrire la transition d'une pile d'applications vers un autre emplacement.
Le basculement permet de passer rapidement à un système de sauvegarde en cas de crise inattendue, notamment de panne de courant et de panne d'équipement. Il est utilisé lorsque des applications, des bases de données et des machines virtuelles sont en panne et que des ressources telles que le stockage, les données et les systèmes d'exploitation sont dans un état instable.
La permutation est la transition ordonnée vers un système secondaire pendant le temps d'arrêt planifié pour la maintenance. Elle permet l'arrêt des applications, des bases de données et des machines virtuelles ou des serveurs. Dans ce cas, les régions principales et de secours fonctionnent normalement, et le personnel des opérations informatiques déplace les systèmes d'une région à l'autre à des fins de maintenance ou de mise à niveau.
La flexibilité du cloud computing permet aux entreprises de mettre en œuvre des stratégies de reprise après sinistre qui répondent à leurs besoins sans trop étendre leurs budgets. Les arrangements de cloud hybride, dans lesquels certaines ressources informatiques sont exécutées on-premises et d'autres dans un cloud public, peuvent réduire le coût de la reprise après sinistre. Les architectures cloud, y compris les microservices, permettent aux composants logiciels de s'exécuter sur des serveurs virtuels distribués, ce qui les rend moins vulnérables à de nombreux types de sinistre.
Les solutions de reprise après sinistre transrégionales protègent les entreprises contre les pannes, telles que celles causées par les ouragans, qui empêcheraient l'accès aux systèmes hébergés dans un seul data center. Les services peuvent être exécutés dans des domaines de disponibilité isolés, géographiquement distincts et tolérant les pannes en dehors de la zone d'impact. Une pile d'applications complète pour un système donné, y compris les machines virtuelles, les bases de données et les applications, peut être transférée vers une autre région cloud à un autre emplacement.
Le cloud hybride est une architecture populaire qui permet aux entreprises de transférer une partie des workloads de leurs data centers vers une infrastructure cloud. Il peut également être utile pour la reprise après sinistre. L'adoption d'une architecture hybride nécessite généralement l'exécution de workloads sur des serveurs virtuels afin que le matériel sous-jacent au sein du data center cloud puisse facilement changer sans affecter les opérations.
Une fois les workloads virtualisés, elles peuvent être redémarrées dans un environnement cloud lorsque les data centers principaux deviennent indisponibles. Les data centers cloud peuvent être des alternatives économiques aux tableaux de data centers géographiquement dispersés.
Les solutions de reprise après sinistre multicloud protègent les applications et les données en répartissant les composants des applications sur les infrastructures cloud de deux ou plusieurs fournisseurs. Cette stratégie peut convenir aux entreprises qui utilisent plusieurs fournisseurs de cloud, ce qui leur permet de définir des objectifs de temps de récupération et de points pour différentes applications tout en gérant les coûts et en prenant des décisions sur la dispersion géographique. Un processus de reprise après sinistre multicloud peut également dériver de la façon dont les services et les applications ont été développés.
Les services d'orchestration et de gestion de la reprise après sinistre peuvent fournir une reprise après sinistre complète pour toutes les couches d'une pile d'applications, y compris l'infrastructure, les bases de données et le middleware. La DRaaS réduit les erreurs humaines et le temps de récupération en exécutant rapidement des workflows de reprise après sinistre pour restaurer les piles d'applications dans différentes régions.
Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery permet aux clients de gérer la transition de l'infrastructure, des bases de données et des applications entre les régions OCI dans le monde entier. Les clients peuvent utiliser Full Stack DR sans concevoir ou redéployer leur infrastructure, les bases de données ou les applications existantes, tout en éliminant le besoin de serveurs de stockage ou de gestion spécialisés.
Créez, testez et déployez vos applications sur Oracle Cloud, gratuitement.
Pourquoi la reprise après sinistre est-elle importante pour les entreprises ?
Les pannes non planifiées de l'entreprise sont coûteuses. Plus des deux tiers d'entre eux ont coûté plus de 100 000 USD, selon le groupe de conseil en informatique Uptime Institute, tandis qu'un quart des pannes informatiques imprévues ont coûté plus de 1 million USD.
Quels sont les composants clés d'un plan de reprise après sinistre ?
Un plan de reprise après sinistre inclut la stratégie d'une entreprise pour sélectionner des sites de sauvegarde ou déployer des workloads de calcul dans un cloud public de manière à permettre un redémarrage rapide des opérations. Les entreprises doivent également classer leurs applications stratégiques par ordre d'importance et importantes et lier les dépendances entre elles afin de déterminer ce qui pourrait faire obstacle à la remise en ligne des logiciels.
En quoi la reprise après sinistre diffère-t-elle de la sauvegarde des données ?
La sauvegarde des données sur un serveur ou un site distant est un aspect de la reprise après sinistre, mais les plans de reprise après sinistre modernes couvrent bien plus. Les entreprises doivent envisager des stratégies technologiques qui équilibrent la réplication des données et la disponibilité des services pour maîtriser les coûts tout en leur permettant de redémarrer les applications à partir d'une petite instance de secours.
Quel est l'impact du cloud computing sur la reprise après sinistre ?
Les technologies cloud peuvent fournir des garanties lors d'un sinistre en séparant les régions cloud en domaines de disponibilité isolés les uns des autres et tolérant les pannes. Les entreprises peuvent répliquer des systèmes pour une haute disponibilité et une reprise après sinistre à l'aide des installations et des utilitaires souvent fournis par le fournisseur de cloud.