La reprise après sinistre (DR) est l'une des facettes des plans globaux de continuité des activités élaborés et maintenus par les différents secteurs d'activité d'une entreprise. Un plan efficace de reprise après sinistre atténue l'impact des pannes imprévues - ou même planifiées - des systèmes essentiels à la mission et à l'activité d'une entreprise sur sa capacité à fonctionner et à continuer à générer des revenus.
Pour ce faire, un plan de DR fournit aux entreprises une structure flexible qui leur permet de fonctionner de manière unifiée et collaborative pour restaurer, réaménager et revitaliser leurs systèmes et construire une infrastructure plus résiliente.
Combien de temps une entreprise pourrait-elle continuer à fonctionner si elle perdait son système de paie juste avant le calcul de la paie et le financement des comptes ? Quelles pénalités une entreprise encourrait-elle en raison du retard de paiement des impôts fédéraux, étatiques et locaux ? Quelles seraient les conséquences pour l'entreprise de ne pas payer ses collaborateurs à temps - et combien de temps les travailleurs continueraient-ils à travailler ?
Faire ou ne pas faire une reprise après sinistre ? Ce n'est plus la question. La vraie question est de savoir quel est le coût réel de la perte en un instant de minutes, de jours ou de semaines de données importantes et de la confiance construite au fil des ans.
La reprise après sinistre ne peut plus être envisagée uniquement lorsque le budget est suffisant, car les entreprises d'aujourd'hui doivent réagir rapidement aux événements perturbateurs et rester opérationnelles. Plutôt que d'être dissuadées par le coût de la mise en œuvre d'un plan de résilience, les entreprises doivent aller plus loin et évaluer le coût réel de l'absence totale de plan. Par exemple, examinez les contrats de niveau de service (SLA) qui ne pourraient pas être respectés ou les pénalités et la perte de revenus qui résulteraient d'une panne. Si l'on compare le coût de la mise en œuvre de la reprise après sinistre aux pénalités, à la perte de revenus et à la perte de confiance des clients, le choix est clair.
Que la panne soit due à une catastrophe naturelle, à des erreurs de l'opérateur informatique ou du fournisseur de services, à la corruption de données ou à des attaques par ransomware, une entreprise doit être en mesure de se prémunir contre les perturbations de ses opérations commerciales qui entraînent des pertes catastrophiques, le remplacement par des concurrents opportunistes et la perte de réputation et de bonne volonté.
Si ces conséquences semblent dramatiques, elles reflètent les expériences récentes de nombreuses entreprises bien connues qui n'ont pas réussi à se rétablir en temps voulu et ont perdu de grandes quantités de données transactionnelles essentielles, d'informations client et de confiance.
Une grande variété de scénarios et de causes profondes peuvent perturber les opérations commerciales.
La reprise après sinistre en tant que service (DRaaS) dans le cloud offre aux entreprises des options inégalées en matière de flexibilité opérationnelle. Les entreprises utilisent plus souvent des solutions de reprise après sinistre pour des pannes planifiées que pour se remettre d'événements catastrophiques.
Les deux principaux objectifs de la reprise après sinistre sont de remettre les systèmes affectés dans un état opérationnel aussi rapidement que possible et de le faire avec le moins de pertes de données possible après un événement catastrophique ou une panne planifiée. Les mesures de ces deux objectifs clés sont universellement connues sous le nom d'objectif de temps de récupération (RTO) et d'objectif de point de récupération (RPO) respectivement.
Chaque système de gestion aura des exigences différentes pour ces deux mesures, en fonction du contrat de niveau de service entre les opérations informatiques et les propriétaires de l'entreprise.
L'objectif de temps de récupération est le temps nécessaire pour remettre un système de gestion dans un état pleinement opérationnel après des pannes planifiées ou non planifiées.
Un objectif de point de récupération est la quantité maximale de données qui peut être perdue avant de causer des dommages préjudiciables à un système de gestion donné. Le RPO est généralement mesuré en temps à partir du delta de la dernière sauvegarde de données, de la dernière réplication ou du dernier instantané.
Traditionnellement, la haute disponibilité (HA) protège contre les points de défaillance uniques, tandis que la reprise après sinistre protège contre les points de défaillance multiples. Dans le cloud computing, la protection contre les points de défaillance uniques au niveau de l'infrastructure physique, notamment l'alimentation, le refroidissement, le stockage, les réseaux et les serveurs physiques, est complètement abstraite dans l'architecture globale grâce aux domaines de disponibilité et de défaillance.
Dans ce cas, la haute disponibilité est évolutive et hautement résiliente à la perte de données ou à la perte de performance de traitement. Presque tous les fournisseurs de services cloud destinés aux entreprises intègrent la haute disponibilité dans leur offre.
Les solutions de reprise après sinistre à haute disponibilité qui assurent une protection des bases de données sans perte de données et sans temps d'arrêt deviennent coûteuses lorsque des technologies complexes de mappage et de réplication des données sont utilisées. Ces solutions n'offrent pas de protection contre les ransomwares, qui est assurée par une sauvegarde complète avec un objectif de point de récupération ponctuel et un stockage immuable.
Les solutions HA traditionnelles fonctionnent bien en conjonction avec une solution CDR (Cloud DR) à faible coût. La technologie CDR complémentaire offre une couche supplémentaire de protection pour les bases de données qui ne doivent subir aucune perte de données, aucune interruption de service et qui ont besoin d'une protection contre les ransomwares avec un retour en arrière incrémentiel à long terme.
La reprise après sinistre sur site est une solution peu flexible et coûteuse en raison du coût élevé de la duplication de l'infrastructure informatique dans un site source et dans un datacenter cible fixe. Elle ne peut pas fonctionner sur le WAN ou migrer des serveurs entre des environnements disparates, et nécessite donc un circuit dédié entre les datacenters source et cible pour fonctionner comme un seul environnement LAN interconnecté. La reprise après sinistre traditionnelle ne permet pas non plus de migrer les serveurs entre des environnements hétérogènes disparates, tels qu'un environnement sur site et une plateforme cloud ou entre deux plates-formes cloud différentes.
DRaaS utilise un patchwork de solutions de sauvegarde fournies par les fournisseurs et d'outils de migration open source pour créer un environnement étroitement contrôlé et très spécifique. L'utilisateur final peut uniquement récupérer les charges de travail dans l'environnement d'hébergement traditionnel du fournisseur DRaaS à partir de son environnement VMware sur site. Ces solutions fournies par les fournisseurs peuvent être coûteuses et limitées dans la gamme des charges de travail qu'elles peuvent protéger et dans les environnements informatiques qu'elles peuvent prendre en charge.
Oracle fait généralement référence à un workflow de reprise après sinistre comme à un plan de reprise après sinistre. Un plan de reprise après sinistre (ou runbook) est une liste d'étapes ou de tâches prédéterminées qui doivent être accomplies pour transférer l'instance de calcul, la plate-forme, la base de données et les applications vers une région de reprise prédéterminée dans le cloud. Il s'agit de toutes les tâches ou étapes individuelles qui sont exécutées par un humain ou une sorte d'automatisation au cours d'une opération de reprise après sinistre, telle qu'une commutation ou un basculement. Les termes "plan de reprise après sinistre", "runbook de reprise après sinistre" et "workflow de reprise après sinistre" sont interchangeables.
Une opération de reprise après sinistre est le processus d'exécution de chaque étape ou tâche prédéterminée dans un plan de reprise après sinistre qui est nécessaire pour rétablir l'infrastructure, la base de données et les applications dans un état pleinement opérationnel. Deux termes différents sont utilisés pour décrire la transition d'une pile d'applications vers un autre emplacement : le basculement et la commutation.
Un basculement implique une panne non planifiée où les applications, les bases de données et les machines virtuelles sont tombées en panne et où toutes les ressources, y compris le stockage, les données et les systèmes d'exploitation invités, sont dans un état incohérent. Dans ce cas, la région cloud principale est supposée être complètement inaccessible et indisponible, ce qui indique qu'une véritable opération de reprise après sinistre doit être déclenchée.
Par conséquent, toutes les tâches de reprise après sinistre d'un plan de reprise après sinistre ne peuvent être exécutées que dans la région cloud de secours. Il est essentiel que la solution DRaaS d'un fournisseur de cloud soit conçue pour une haute disponibilité dans la région de secours afin de garantir qu'elle soit accessible et fonctionnelle en cas de catastrophe.
La commutation implique un temps d'arrêt planifié qui comprend une fermeture ordonnée des applications, des bases de données et des machines ou serveurs virtuels. Dans ce cas, les régions principale et de secours fonctionnent normalement, et le personnel des opérations informatiques se concentre probablement sur le "déplacement" d'un ou plusieurs systèmes d'une région à l'autre à des fins de maintenance ou de mise à niveau.
Les entreprises innovantes peuvent tirer parti d'un ou de plusieurs des modèles de déploiement cloud suivants pour diverses raisons, notamment le coût, les performances et les exigences en matière de continuité des activités. Une stratégie solide de déploiement cloud devient de plus en plus prévalente à mesure que les entreprises continuent à transférer leurs opérations vers le cloud.
Les solutions de reprise après sinistre transrégionales protègent les entreprises contre les pannes complètes qui auraient un impact sur l'accès aux systèmes de gestion hébergés dans l'infrastructure cloud d'un fournisseur cloud unique. Comme son nom l'indique, une pile d'applications complète pour un système de gestion donné, y compris les machines virtuelles, les bases de données et les applications, peut être transférée à la demande vers une région cloud entièrement différente dans un autre lieu géographique.
Les solutions DRaaS doivent être capables de transférer un système de gestion entier, tel qu'un portail de ressources humaines, un portail de services financiers ou une application de gestion des ressources d'entreprise, vers une région cloud entièrement différente. Les solutions DRaaS doivent être en mesure de répondre aux objectifs de temps et de points de récupération requis par les contrats de niveau de service pour chaque application individuelle.
Les solutions de reprise après sinistre interrégionales telles que Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery protègent des applications d'entreprise entières contre la perte catastrophique de l'accès à l'ensemble d'une région cloud, y compris la perte de tous les domaines de disponibilité dans cette région.
La reprise après sinistre dans un cloud hybride est une solution très populaire qui permet aux entreprises de transférer des charges de travail et des machines virtuelles de leurs propres datacenters vers une infrastructure cloud. Un cloud hybride est souvent utilisé comme solution de reprise après sinistre pour protéger les données et la viabilité des systèmes de gestion essentiels d'une entreprise.
Pour les clients Oracle, le cloud hybride est une confédération lâche entre OCI et les serveurs physiques, les appliances Oracle cloud ou d'autres systèmes dans le datacenter physique d'une entreprise. Les appliances Oracle Cloud, comme Oracle Private Cloud Appliance X9-2 et Oracle Exadata Cloud@Customer, sont d'excellents exemples de systèmes sur site qui s'intègrent parfaitement à OCI.
Certains produits des partenaires Oracle, tels que Rackware, peuvent être utilisés pour réaliser la reprise après sinistre entre l'infrastructure sur site et OCI. Rackware est disponible sur Oracle Cloud Marketplace.
Les solutions de reprise après sinistre multicloud protègent les applications et les données en répartissant les différents composants d'une pile d'applications sur les infrastructures cloud de deux ou plusieurs fournisseurs cloud. Le partenariat d'Oracle avec Microsoft Azure est un bon exemple de relation multicloud.
La reprise après sinistre en tant que service doit pouvoir prendre en charge la reprise après sinistre interrégionale, la reprise après sinistre cloud hybride et la reprise après sinistre multicloud. OCI peut actuellement fournir des DRaaS pour les reprises après sinistre interrégionales et les reprises après sinistre cloud hybride.
Les solutions viables de reprise après sinistre impliquant des bases de données doivent toujours inclure les moyens d'assurer la cohérence des données. Le point auquel une base de données peut être récupérée jusqu'à la cohérence totale des données, y compris les transactions en cours, définit l'objectif du point de récupération.
La cohérence des données est beaucoup moins problématique pour les bases de données sans serveur ou les bases de données de fichiers plats, mais la récupération de bases de données relationnelles sophistiquées, telles que Oracle Database ou MySQL, dans un état de cohérence des données à un moment donné est très complexe, mais toujours cruciale.
Lors de l'utilisation de MySQL Database Service dans OCI, un système de base de données MySQL est un conteneur logique pour une ou plusieurs instances MySQL. Il fournit une interface qui permet de gérer des tâches telles que l'approvisionnement, les sauvegardes automatiques et la récupération ponctuelle.
Les technologies de journalisation binaire et de réplication native de MySQL permettent une récupération ponctuelle, une haute disponibilité et une reprise après sinistre. La réplication de groupe MySQL est généralement utilisée pour créer des clusters locaux tolérants aux pannes pour la haute disponibilité, tandis que la réplication asynchrone MySQL est généralement utilisée pour la reprise après sinistre géo-distribuée.
Un système de base de données dont la haute disponibilité est activée possède trois instances MySQL placées dans différents domaines de disponibilité ou domaines de défaillance. Le système de base de données garantit que si une instance tombe en panne, une autre prend le relais, sans perte de données et avec un temps d'arrêt minimal. Pour la reprise après sinistre dans différentes régions, il est également possible de créer des canaux de réplication entrants entre deux systèmes de base de données.
Utilisez les liens suivants pour en savoir plus sur la reprise après sinistre pour MySQL dans le cloud.
Oracle Maximum Availability Architecture (MAA) fournit les meilleures pratiques en matière d'architecture, de configuration et de cycle de vie pour les bases de données Oracle, permettant des niveaux de service de haute disponibilité pour les bases de données résidant dans des configurations sur site, dans le cloud ou hybrides.
Utilisez les liens suivants pour en savoir plus sur l'architecture Oracle Maximum Availability pour la reprise après sinistre dans le cloud.
L'architecture de déploiement décrit la manière dont les divers composants, tels que les ordinateurs, les plates-formes/bases de données et les applications, sont déployés entre les régions cloud afin de créer un moyen résilient de récupérer après la défaillance totale d'un datacenter. L'architecture de déploiement décrit l'endroit où tout se trouve pendant le fonctionnement normal d'une suite d'applications et ce qui doit être récupéré dans la région de secours pour que tout fonctionne à nouveau.
Oracle estime que les solutions DRaaS doivent avoir la flexibilité d'incorporer toute combinaison d'architectures de déploiement de reprise après sinistre afin de répondre aux exigences de niveau de service de chaque système de gestion unique. Les fournisseurs de services cloud devraient offrir à leurs clients la liberté de choisir des solutions "tout ce qui précède" pour respecter les contrats de niveau de service pour la grande variété de systèmes de gestion que les entreprises prennent généralement en charge.
De nombreux termes sont utilisés pour décrire les stratégies de reprise après sinistre et les architectures de déploiement. Cependant, les différentes approches et les différents modèles décrivant la manière de déployer l'infrastructure, la plate-forme et les applications pour la reprise après sinistre se répartissent en deux grandes catégories stratégiques : la reprise après sinistre active/active et la reprise après sinistre active/de secours.
Le tableau suivant décompose les termes communs utilisés pour décrire les différentes architectures de déploiement qui relèvent des deux grandes stratégies de reprise après sinistre.
Stratégie | Architecture de déploiement | Objectif de point de récupération | Objectif de temps de récupération |
---|---|---|---|
Active/secours | Secours à froid | Heures | Heures |
Active/secours | Lampe témoin | Quelques minutes | Heures |
Active/secours | Secours chaude | Secondes | Heures |
Active/secours | Secours à chaud | Secondes | Quelques minutes |
Active/active | Active/active | Près de zéro | Près de zéro |
Cette section tente de démystifier certaines des variations des approches actives/actives et actives/de secours de la reprise après sinistre. Les deux stratégies de reprise après sinistre ont leur place dans l'arsenal d'armes disponibles pour assurer la continuité des opérations.
Il existe de nombreuses variantes d'architectures de déploiement actif/secours. Les déploiements actifs/de secours, parfois appelés déploiements actifs/passifs, sont souvent caractérisés comme des déploiements de lampe témoin, à froid, à chaud et de secours à chaud.
Les scénarios de lampe témoin, de secours à froid, de secours à chaud et de secours à chaud représentent tous une forme du même thème où 100 % d'une pile d'applications fonctionne dans la région principale tandis que moins de 100 % du même système de gestion s'exécute activement dans la région de secours.
La série suivante de diagrammes conceptuels de très haut niveau a pour but d'illustrer certaines différences fondamentales entre les architectures de déploiement courantes et n'est pas conçue comme une architecture de référence ; elle ne décrit pas comment mettre en œuvre la reprise après sinistre pour une pile d'applications.
Dans ce scénario, les machines virtuelles (VM), la base de données et les applications n'existent que dans la région principale actuelle. Les groupes de volumes de stockage de fichiers et de blocs contenant le disque de démarrage et tout autre disque virtuel de chaque VM sont répliqués dans la région de secours.
Lors d'une opération de reprise après sinistre, telle qu'une commutation ou un basculement, le stockage répliqué contenant les mêmes VM est activé dans la région de secours, et les mêmes VM sont relancées à l'endroit où elles ont été arrêtées ou se sont écrasées. Les machines virtuelles sont identiques aux machines virtuelles exécutées précédemment dans la région active.
Cette architecture de déploiement présente plusieurs avantages, notamment une réduction des coûts de déploiement, des frais de maintenance et des coûts d'exploitation. Cette solution peut toutefois ne pas être la meilleure pour les applications qui reposent sur des bases de données relationnelles pour le back-end, car la seule façon de garantir la cohérence des données est d'effectuer des sauvegardes à froid périodiques. Cette approche fonctionne bien pour les applications qui peuvent tolérer des pannes occasionnelles courtes et complètes.
La plupart des services informatiques résolvent ce problème en arrêtant périodiquement la base de données, en prenant un instantané du stockage en bloc, puis en reprenant les opérations normales. Cela définit l'objectif du point de récupération puisque vous ne pouvez restaurer qu'au moment où la sauvegarde a été effectuée
Le temps de récupération est légèrement plus long et le risque de perte de données est beaucoup plus élevé, mais c'est une solution viable pour la bonne charge de travail. Par exemple, il peut s'agir d'une excellente solution pour les applications qui reposent sur une base de données de type fichier plat, une base de données sans serveur ou aucune base de données, ou pour les clients qui souhaitent simplement rendre un ensemble de machines virtuelles mobiles entre les régions pour une plus grande flexibilité.
Les deux scénarios suivants décrivent le déroulement des opérations de reprise après sinistre pour les déploiements de secours à froid.
Dans le cas d'une commutation, les tâches suivantes sont effectuées dans les régions principale et de secours :
Dans le cas d'un basculement, les tâches suivantes ne sont exécutées que dans la région de secours :
Dans ce scénario, les machines virtuelles existent à la fois dans la région principale et dans la région de secours, mais elles sont complètement indépendantes les unes des autres et ont leurs propres noms d'hôtes uniques et leurs adresses IP préaffectées. Les VM de la région de secours existent et peuvent être arrêtées ou en cours d'exécution selon les préférences du client.
Les bases de données doivent fonctionner à la fois sur la région principale et sur la région de secours.
Pour les bases de données Oracle, nous recommandons d'utiliser Oracle Data Guard pour répliquer la base de données principale et la base de données de secours. Reportez-vous à notre architecture de référence Gold MAA pour plus de détails.
Pour les bases de données non-Oracle, les technologies de réplication natives respectives seront utilisées pour maintenir la synchronisation des bases de données entre les régions principale et de secours.
Les applications existent également dans la région cloud de secours, mais ne sont pas exécutées ou accessibles.
Les deux scénarios suivants décrivent comment le flux de processus pour les opérations de reprise après sinistre pour les déploiements de secours à chaud pourrait se dérouler.
Dans le cas d'une commutation, les tâches suivantes sont effectuées dans les régions principale et de secours :
Dans le cas d'un basculement, les tâches suivantes ne sont exécutées que dans la région de secours :
Dans ce scénario, les machines virtuelles existent et fonctionnent à la fois sur le site principal et sur le site de secours, avec leurs propres noms d'hôtes uniques et leurs adresses IP préaffectées.
Les bases de données doivent fonctionner à la fois sur la région principale et sur la région de secours.
Pour les bases de données Oracle, nous recommandons d'utiliser Oracle Data Guard pour répliquer la base de données principale et la base de données de secours. Reportez-vous à notre architecture de référence Gold MAA pour plus de détails.
Pour les bases de données non-Oracle, les technologies de réplication natives respectives seront utilisées pour maintenir la synchronisation des bases de données entre les régions principale et de secours.
Les applications sont exécutées dans la région cloud de secours, mais ne sont pas accessibles sur le réseau public.
Les deux scénarios suivants décrivent comment le flux de processus pour les opérations de reprise après sinistre pour les déploiements de secours à chaud pourrait se dérouler.
Dans le cas d'une commutation, les tâches suivantes sont effectuées dans les régions principale et de secours :
Dans le cas d'un basculement, les tâches suivantes ne sont exécutées que dans la région de secours :
Dans ce scénario, l'ensemble de la pile d'applications est entièrement fonctionnelle et gère une charge de travail à la fois sur le site principal et sur le site de secours.
Les bases de données doivent fonctionner à la fois sur la région principale et sur la région de secours.
Pour les bases de données Oracle, nous recommandons d'utiliser Oracle GoldenGate pour avoir une configuration active/active des applications. En dehors de cela, nous recommandons d'avoir des bases de données de secours locales dans chaque région en utilisant Oracle Data Guard pour obtenir un RTO et un RPO proches de zéro. Consultez notre architecture de référence MAA platine pour plus de détails.
Pour les bases de données non-Oracle, la réplication native et les technologies actives/actives respectives seront utilisées pour maintenir la synchronisation de la base de données entre les régions principale et de secours.
Les applications sont en cours d'exécution et accessibles sur le réseau public de la région cloud de secours et ont une charge de travail en cours d'exécution.
Les équipes d'Oracle ont déployé des efforts considérables pour intégrer la haute disponibilité dans leurs produits - y compris la grande majorité des bases de données et des applications d'entreprise d'Oracle - et conçoivent souvent les meilleures pratiques et les architectures de déploiement pour assurer la reprise après sinistre dans les environnements traditionnels sur site et dans le cloud. Chaque ligne de produits élabore une approche de reprise après sinistre pour ses applications individuelles, qui comprend des étapes étroitement liées pour récupérer tous les composants nécessaires à la prise en charge de l'application.
La reprise après sinistre basée sur le cloud en tant que service permet de regrouper toutes les étapes peu complexes conçues par les développeurs, les architectes cloud et les architectes de solutions de produits en un workflow unique et transparent qui peut être lancé d'un simple clic. OCI propose une solution DRaaS appelée Full Stack Disaster Recovery qui est flexible, hautement évolutive et hautement extensible.
OCI Full Stack Disaster Recovery gère la transition de l'infrastructure, des bases de données et des applications entre les régions OCI, de n'importe où dans le monde, en un seul clic. Les clients peuvent déployer des environnements de reprise après sinistre sans avoir à reconfigurer ou redéployer l'infrastructure, les bases de données ou les applications existantes, tout en éliminant le besoin de serveurs de gestion ou de conversion spécialisés.