Aaron Ricadela | Responsable de la stratégie de contenu | 26 avril 2024
Les entreprises doivent continuer à fonctionner en temps de crise. L'un des principaux défis consiste à surmonter les pannes du système informatique et à s'en remettre, car elles peuvent mettre un terme aux ventes, aux opérations, à la production et au transport. Que les pannes informatiques soient causées par des actions humaines, des bogues logiciels, des conditions météorologiques extrêmes ou des catastrophes naturelles, les entreprises ont besoin de stratégies opérationnelles et techniques bien planifiées pour traverser une crise avec des processus clés intacts, puis récupérer rapidement et reprendre un travail normal.
Les événements imprévus et perturbateurs qui entravent les opérations commerciales critiques peuvent nuire à la réputation de la marque et entraîner des pertes financières et des blâmes réglementaires. C'est pourquoi les entreprises ont longtemps maintenu des plans de continuité complets et des systèmes de sauvegarde. Désormais, la prolifération du cloud computing et des architectures d'application plus récentes inspirées d'Internet modifient la façon dont les entreprises planifient leurs opérations en cas de pannes, conçoivent des systèmes de reprise après sinistre pour extraire les données critiques et allouent des budgets pour améliorer la résilience.
Bien que les plans qui utilisent des data centers physiques géographiquement éloignés comme base pour la reprise après sinistre soient courants, nous allons nous concentrer sur les nouvelles stratégies qui impliquent l'utilisation de services cloud.
L'exécution de certaines applications dans un data center et un service d'infrastructure cloud peut être un moyen simple et abordable d'améliorer la résilience en distribuant géographiquement des systèmes d'application. Les coûts peuvent être réduits en exécutant des instances plus petites ou de secours dans le cloud et en les augmentant uniquement si nécessaire.
Comme nous le verrons, l'une des décisions les plus difficiles consistera à décider comment conserver des copies constamment mises à jour des banques de données critiques, de sorte que la perte d'une copie n'interrompt que temporairement les opérations. Par exemple, un système qui permet aux clients de gérer leurs comptes n'est utile que si le client peut voir ses achats et en créer de nouveaux. Si un sinistre interrompt cet accès, l'application n'est pas utile. Les stratégies de réplication de base de données sont souvent un facteur clé dans la création d'une stratégie résiliente.
Les plans de continuité des activités fournissent aux dirigeants d'une entreprise des feuilles de route pour assurer le bon fonctionnement des opérations lorsqu'un sinistre ou une défaillance informatique perturbe le flux normal du travail et met hors ligne les applications sur lesquelles ils s'appuient. Les plans détaillent les stratégies liées aux collaborateurs, processus et technologie dont une entreprise a besoin pour continuer à travailler efficacement pendant une catastrophe. Les raisons les plus courantes d'interruptions des opérations normales sont les erreurs techniques humaines et les bogues logiciels qui causent des pannes, selon les experts. Les catastrophes naturelles, et de plus en plus, les problèmes système causés par des data centers surchauffés en raison de conditions météorologiques extrêmes peuvent entraîner des interruptions d'activité. Le terrorisme, les cybercriminels et la guerre peuvent également être des causes.
Les plans de continuité des activités, tout en incluant la reprise après sinistre des applications logicielles et des données, vont plus loin, englobant la communication avec le personnel, garantissant aux travailleurs un accès physique aux ordinateurs et aux appareils mobiles, et nécessitant des changements dans les supply chains et d'autres considérations opérationnelles.
En plus de planifier le modèle collaborateurs, processus et technologie nécessaire au maintien des opérations en cas de perturbation, les entreprises ont besoin d'un plan concret pour récupérer l'accès aux systèmes, données et applications critiques. La reprise après sinistre décrit les plans techniques détaillés créés par les entreprises pour remettre les workloads en service dans leur ordre d'importance, les budgets alloués à cette fin et les plans de test de la stratégie.
L'objectif est de minimiser les temps d'arrêt et les pertes de données tout en équilibrant les coûts pour protéger chaque workload de calcul. C'est là que les technologies cloud peuvent être utiles.
Lorsque le calcul était principalement effectué sur des systèmes client-serveur dans des data centers appartenant à l'entreprise ou loués, les budgets informatiques pouvaient doubler ou tripler pour chaque application nécessitant son propre ensemble de licences, des serveurs en double, du stockage, de la mise en réseau et du refroidissement, le tout fonctionnant dans des installations à une distance appropriée du data center de production de l'entreprise. Le cloud computing a modifié les calculs, permettant aux entreprises de déployer des applications stratégiques dans plusieurs régions cloud ou data centers. Les technologies cloud permettent également aux services informatiques de modifier rapidement la taille des ressources de serveur ou des instances, et d'ajouter plus de capacité si nécessaire à l'aide d'outils de gestion à distance.
Les entreprises doivent faire des choix critiques sur deux mesures clés de reprise après sinistre : à quelle vitesse avons-nous besoin d'une récupération suite à une panne et qu'est-ce qu'une perte de données acceptable ?
La durée maximale d'interruption admissible (RTO, recovery time objective) mesure la durée pendant laquelle une entreprise est prête à attendre la restauration du service. La perte de données maximale admissible (RPO, recovery point objective) détermine la quantité maximale de données qu'une entreprise est prête à perdre en cas de sinistre. Plus les seuils sont bas, mieux c'est, mais plus un plan de reprise après sinistre coûtera cher à implémenter. Chaque exécution informatique du système aura ses propres RTO et RPO. Un système de transaction de vente aura un court délai d'interruption et peu de pertes de données, tandis qu'un système de dépenses des collaborateurs pourrait raisonnablement être récupéré quelques jours après un sinistre.
La continuité des activités et la reprise après sinistre font référence aux technologies, politiques et procédures mises en place par une entreprise pour s'assurer qu'elle peut continuer à fonctionner en cas de sinistre ou d'autre interruption imprévue. La BCDR consiste à identifier les risques potentiels de disponibilité et à élaborer des stratégies pour récupérer et reprendre les opérations normales le plus rapidement possible.
Les stratégies de continuité des activités et de reprise après sinistre sont devenues plus importantes pour un plus grand nombre d'entreprises, car de plus en plus de transactions avec les clients, les fournisseurs et les autres partenaires sont effectuées en ligne et les volumes de données ont augmenté. De plus, davantage de systèmes sont devenus interdépendants. Ce portail client qui permet aux clients de voir les commandes passées et d'en créer de nouvelles peut nécessiter des connexions avec des systèmes de gestion des stocks, d'exécution et de gestion de la production. Comme ils sont tous requis, chacun héritera des exigences RTO et RPO les plus courts du groupe.
Bien que la continuité des activités soit importante pour les entreprises de tous les secteurs, des plans BCDR efficaces peuvent être particulièrement essentiels pour les entreprises de certains secteurs. Par exemple, les entreprises de secteurs hautement réglementés, notamment les banques, l'énergie et les soins de santé, ont des exigences rigoureuses en matière de continuité des activités et ne peuvent souvent pas tolérer le temps nécessaire à la récupération des données à partir de copies de sauvegarde. Et certains sous-secteurs, tels que le trading sur les marchés financiers, ne peuvent pas se permettre de perdre même quelques minutes de données.
Les entreprises devraient commencer leur planification BCDR avec une analyse d'impact qui détaille les catastrophes possibles et les types de pertes qui pourraient en résulter. Le plan devrait inclure des erreurs de configuration techniques, des catastrophes naturelles, des actes de terrorisme et des incidents de cybersécurité tels que des attaques de ransomware. Étant donné que les volumes de données sont aujourd'hui beaucoup plus élevés que dans les dernières années, les chefs d'entreprise doivent hiérarchiser les processus et les applications logicielles associées, en déterminant celles qui sont critiques et en plaçant les autres dans des groupes d'importance classés, appelés niveaux, où des normes RTO et RPO plus souples peuvent s'appliquer.
L'identification des domaines les plus critiques d'une entreprise et l'estimation du temps d'arrêt que chacun d'entre eux pourrait tolérer aideront à créer un plan pour maintenir ces fonctions en activité, y compris les sauvegardes de données, les installations informatiques « pilot light » qui peuvent aider à démarrer des opérations informatiques plus larges, et les installations technologiques dont les collaborateurs auraient besoin pour travailler à partir de chez eux. Les systèmes d'environnements de veille (« pilot light ») peuvent être considérés comme des systèmes de secours à chaud (« warm standby »), et tant qu'ils peuvent atteindre les banques de données critiques, ces systèmes basés sur le cloud peuvent être opérationnels en quelques minutes après un sinistre.
Les technologies de cloud computing sont des outils importants qui peuvent aider les entreprises à mettre en œuvre des plans de continuité des activités et de reprise après sinistre sans dépasser leurs budgets.
Les configurations informatiques hybrides, dans lesquelles certaines ressources informatiques sont exécutées dans le cloud public et d'autres dans des data centers on premises, ont réduit le coût de la reprise après sinistre. Les workloads cloud construits avec des microservices (collections de petits composants logiciels exécutés sur des serveurs virtuels distribués travaillant en tandem pour fournir des applications aux utilisateurs) permettent aux entreprises de créer des déploiements informatiques dits « pilot light », c'est-à-dire des données en direct et à jour avec des services inactifs qui peuvent être utilisés pour redémarrer un système dans un data center cloud. Les environnements cloud hybrides exigent des entreprises qu'elles identifient, cataloguent et gèrent les dépendances d'application qui empêcheraient un programme logiciel de redémarrer s'il est hors ligne.
Certaines entreprises travaillent à la migration de toutes leurs applications vers le cloud, dans le but de fermer éventuellement leurs data centers. Plusieurs motivations sont généralement à l'œuvre ici, notamment la volonté d'intégrer plus facilement des applications internes à d'autres systèmes cloud, une gestion plus simple des systèmes et des applications, une meilleure évolutivité, disponibilité et évolutivité des applications et une BCDR supérieure. Les avantages de la continuité des activités comprennent la possibilité de conserver des systèmes d'environnements de veille dans les data centers cloud situés dans des régions cloud géographiquement disparates, moins de préoccupations concernant l'accessibilité des collaborateurs et des clients en cas de catastrophe, et une conception d'application fondamentalement plus résistante à toute épreuve avec peu ou pas de points de défaillance uniques. Pour bénéficier de tous ces avantages, il ne suffit pas de déplacer une application existante pour l'exécuter dans un data center cloud. Elle nécessite de modifier l'architecture et de recoder l'application.
Le processus est connu sous le nom de refactorisation, et la meilleure architecture pour cet effort est celle des services cloud. La refactorisation peut être longue et coûteuse. Cependant, les applications qui en résultent sont plus résilientes, polyvalentes et évolutives, tous les résultats profitant à votre stratégie BCDR. L'application sera également plus facile à modifier pour fournir de nouvelles fonctionnalités. Par exemple, l'ajout de fonctionnalités d'analyse et d'IA devient un processus plus facile à gérer car il ne s'agit que de nouveaux services Web à utiliser dans l'application.
Les entreprises doivent hiérarchiser leurs workloads en fonction de la disponibilité, du RTO et du RPO nécessaires lors de la planification d'une approche de reprise après sinistre adaptée à leur budget. La restauration des systèmes à partir d'une copie de sauvegarde peut être le chemin le moins coûteux, bien que la récupération de jeux de données volumineux prenne beaucoup de temps et que les sauvegardes hors ligne aient un RPO long. Néanmoins, les sauvegardes hors ligne sont importantes, en particulier pour les données critiques, et peuvent être la seule option viable pour récupérer d'un incident de ransomware. Les déploiements d'environnements de veille peuvent rétablir le statut de fonctionnement des systèmes en quelques minutes au lieu de plusieurs heures, mais leur maintenance est plus coûteuse.
Les méthodes de secours à chaud, qui combinent des données actives et à jour avec des répliques d'applications basées sur le cloud qui peuvent gérer les demandes tout en s'exécutant à une capacité inférieure, ont des RPO mesurés en secondes et des RTO en minutes. Une approche dite de basculement actif/actif utilisant plusieurs sites actifs fonctionnant à pleine capacité peut fournir une durée de récupération et une perte de données quasiment égales à zéro, mais est la plus coûteuse.
Les compromis de reprise après sinistre
Les entreprises doivent prendre des décisions concernant le temps de récupération, la perte de données et les coûts lors de la planification d'une stratégie de reprise après sinistre
Méthode de reprise après sinistre | RPO | RTO | Coût |
---|---|---|---|
Sauvegarde et restauration | Heures | Heures | $ |
Environnement de veille | Quelques minutes | Quelques minutes | $$ |
Secours à chaud | Secondes | Quelques minutes | $$$ |
Active/active | Presque zéro | Potentiellement nul | $$$$ |
Source : Oracle
Les plans de continuité des activités aident à s'assurer qu'une entreprise peut continuer à exploiter et à fournir ses produits ou services en cas de crise. La continuité des activités implique de mettre en place le modèle collaborateurs, processus et technologie pour faire face à un scénario de catastrophe.
La reprise après sinistre est l'aspect de la continuité des activités qui consiste à remettre en service les opérations informatiques rapidement et avec une perte de données minimale. Il comprend des plans techniques pour redémarrer les workloads de calcul et une approche hiérarchisée de la récupération en fonction de l'importance et des dépendances des applications.
Points à retenir
La planification de la continuité des activités devrait commencer par une évaluation des risques potentiels. Les entreprises doivent ensuite mesurer l'impact attendu de ces risques sur les processus et identifier les membres de l'équipe qui assumeront des rôles définis pour les atténuer. Les plans doivent également comprendre comment l'entreprise gérera la communication avec ses collaborateurs, tiendra compte du service client et des imprévus liés aux ventes, et ajustera les supply chains. Et ils ne devraient dépendre d'aucune personne pour remettre les systèmes en ligne.
Les entreprises doivent créer un inventaire de leurs ressources matérielles et logicielles qui documente les dépendances entre elles. Les composants des systèmes qui ne fonctionneront que lors de catastrophes nécessitent des tests particulièrement minutieux, car ils ne sont généralement pas utilisés et sont sujets à une défaillance.
Les programmes BCDR les plus performants cartographient les dépendances, déterminent les niveaux d'application, évaluent les risques, font l'objet de tests réguliers et se caractérisent par des équipes qualifiées et un sponsor exécutif visible, selon une étude de PwC.
Il est important pour les entreprises de faire la différence entre la haute disponibilité et la reprise après sinistre lors de la planification de leurs approches de cloud computing. Les clouds publics qui incluent des zones dites de disponibilité à quelques kilomètres l'une de l'autre, voire dans le même complexe de bâtiments, peuvent aider à garantir que, en cas de panne dans un data center, les workloads des clients continueront à s'exécuter dans les autres data centers de la zone. Bien que cette approche offre une plus grande disponibilité, elle ne couvre pas les catastrophes avec un rayon plus large, telles que les événements météorologiques majeurs, les pannes de courant régionales et les canicules.
Les événements perturbateurs, les catastrophes naturelles ou les pannes informatiques imprévues peuvent entraver les ventes et les opérations, rendre les bureaux inutilisables, mettre hors ligne les data centers ou détruire les usines et les équipements. Des pertes financières s'ensuivent souvent. Un plan de continuité des activités et de reprise après sinistre peut permettre aux entreprises de réagir rapidement en cas de crise, de limiter les pertes, de répondre aux exigences de conformité et de continuer à servir les clients.
Les pannes informatiques graves qui causent des ravages sur les opérations peuvent causer des dommages financiers de l'ordre de 100 000 USD par heure, selon les estimations. Southwest Airlines, par exemple, a immobilisé près de 2 000 vols en avril 2023 à la suite d'un problème de pare-feu, laissant les passagers bloqués dans les terminaux ou sur les tarmacs. De plus, les pannes non planifiées deviennent plus coûteuses : une enquête de 2022 menée auprès de 830 entreprises (PDF) par le groupe consultatif informatique Uptime Institute a révélé qu'un quart des pannes non planifiées coûtaient aux entreprises plus de 1 million de dollars. Parmi les entreprises interrogées, 29 % avaient des revenus inférieurs à 1 million USD, 28 % gagnaient entre 1 million USD et 9,99 millions USD, et le reste 10 millions USD ou plus.
Les plans de continuité des activités comprennent des évaluations complètes des risques potentiels et des interruptions des opérations qu'ils causeraient, de la façon dont le personnel interne et les fournisseurs pourraient être affectés, ainsi que des pertes financières et des amendes réglementaires qui pourraient en résulter. Ils détaillent également le personnel, les processus et les étapes techniques nécessaires à la remise en ligne et à la récupération des données manquantes. La formation et les tests sont également essentiels.
Un plan BCDR solide comprend les éléments suivants :
L'élaboration d'un plan BCDR comporte plusieurs étapes, à commencer par la constitution d'une équipe d'intervenants clés. En suivant ce processus, vous pouvez élaborer un plan BCDR complet qui vous aidera à protéger votre entreprise et à minimiser les perturbations en cas d'urgence.
Du côté informatique, portez une attention particulière aux composants de test des systèmes qui ne seront utilisés que lors de catastrophes.
Télécharger le plan gratuit de continuité des activités et de reprise après sinistre (DOC)
Les domaines de la continuité des activités et de la reprise après sinistre recherchent de nouvelles technologies pour automatiser le travail et améliorer la précision. À l'avant-garde se trouve l'IA générative, qui peut passer en revue les normes et les documents sur les bonnes pratiques afin de créer un point de départ pour un plan BCDR. La technologie peut établir des liens entre les processus métier et les ressources qui les sous-tendent, ce qui permet de créer une analyse de l'impact sur l'entreprise.
Les outils d'IA peuvent ensuite faire gagner du temps aux responsables de la continuité des activités en trouvant des informations détaillées dans l'analyse d'impact qui peuvent éclairer le plan de récupération.
L'IA générative dans le développement et les opérations informatiques peut également analyser les pics d'utilisation et les modifications anormales de l'accès aux données que le personnel pourrait manquer et qui pourraient indiquer une panne en attente. Il peut également aider à identifier les dépendances logicielles et être utilisé pour modifier l'architecture des systèmes afin d'avoir moins de points de défaillance uniques.
Le cloud computing avec la technologie Oracle offre plusieurs garanties contre les temps d'arrêt de calcul dus à un sinistre. Oracle Cloud Infrastructure (OCI) utilise une approche unique et particulièrement résiliente qui sépare chacune de ses régions cloud mondiales, qui fournissent des services dans des zones géographiques, en domaines de disponibilité, isolés les uns des autres. Les domaines de disponibilité d'une même région disposent chacun de leurs propres systèmes d'alimentation et de refroidissement. Il est donc peu probable qu'une panne survenant dans un domaine de la région entraîne une panne du travail informatique d'un autre.
Les domaines de disponibilité sont connectés les uns aux autres par un réseau à faible latence et à bande passante élevée, ce qui permet aux clients de créer des systèmes qui peuvent être répliqués dans les domaines de disponibilité à des fins de haute disponibilité et de reprise après sinistre. Le réseau connecte également les environnements cloud à l'informatique on-premise pour les environnements cloud hybrides.
Chaque domaine de disponibilité OCI inclut à son tour trois domaines de pannes afin que les instances de calcul ne résident pas sur le même hardware au sein d'un domaine de disponibilité. Cette architecture permet également de se protéger contre les pannes imprévues. La stratégie d'Oracle consiste à déployer au moins deux régions cloud dans des pays où elle exploite un cloud public pour répondre aux exigences de résidence des données des clients.
En outre, Oracle Database inclut la technologie Real Application Clusters (RAC) pour la redondance intégrée, que les workloads soient exécutés sur OCI ou Microsoft Azure. Un produit distinct, Oracle Active Data Guard, une copie de secours distante en temps réel des données pour une disponibilité et une reprise après sinistre plus élevées d'Oracle Database. Pour les clients ayant les besoins de reprise après sinistre les plus exigeants et les plus sophistiqués, Oracle Cloud Infrastructure GoldenGate peut répliquer des données au niveau des blocs, offrant ainsi des temps de récupération rapides à partir des points de récupération.
Un plan complet de continuité des activités et de reprise après sinistre peut aider à minimiser les temps d'arrêt, les pertes financières et les dommages à la réputation. Il offre également un sentiment de sécurité aux collaborateurs, aux clients et aux parties prenantes, sachant que l'entreprise est prête à gérer des situations inattendues, à se conformer aux exigences réglementaires et à protéger les données et les actifs critiques. La tranquillité d'esprit et la résilience qu'offre un plan BCDR en valent la peine pour les entreprises de toutes tailles.
Un cloud distribué offre la possibilité de choisir où et comment les services sont fournis pour répondre à vos besoins, y compris BCDR. Découvrez pourquoi Oracle a été nommé leader dans le Magic Quadrant™ 2023 de Gartner® pour les infrastructures hybrides distribuées. Obtenez le rapport gratuit dès maintenant.
Qu'incluez-vous dans un plan BCDR ?
Un plan de continuité des activités et de reprise après sinistre devrait comprendre une évaluation des risques d'erreurs et d'événements susceptibles d'interrompre les opérations normales, une analyse d'impact des actifs et des systèmes informatiques affectés, une estimation des pertes financières potentielles et des dispositions visant à maintenir les personnes et les processus en fonctionnement pendant une crise. Les plans BCDR comprennent également des descriptions techniques détaillées de la façon dont une entreprise remettra les applications clés en ligne et s'assurera que les collaborateurs ont accès aux données tout en minimisant ses pertes. La formation du personnel est également un élément important.
Que signifie le PCA ?
PCA signifie plan de continuité des activités. Il comprend une stratégie détaillée et un catalogue des processus et des systèmes qui permettent à une entreprise de maintenir ses opérations en cas de perturbation imprévue. Un PCA inclut des dispositions pour la gestion du modèle collaborateurs, processus et technologie pendant une crise, dans le but de revenir au travail le plus rapidement possible.