Aaron Ricadela | Senior Writer | 25. Juli 2024
Katastrophen unterschiedlichster Art können kritische Systeme lahmlegen, Büros und Rechenzentren beschädigen oder die für den normalen Geschäftsbetrieb erforderlichen Datenbanken und Anwendungen vorübergehend unbrauchbar machen. Ein Disaster Recovery-Plan ist ein Prozess- und Technologie-Fahrplan für Unternehmen, um ihre wichtigsten Systeme und Anwendungen schnell wiederherzustellen, damit sie ihre Arbeit wieder aufnehmen können, während andere Systeme wiederhergestellt werden.
Disaster Recovery (DR) umfasst die technischen Pläne eines Unternehmens, um seine Rechenlasten nach einem Störfall wieder in Betrieb zu nehmen, sowie die Methoden zum Testen des Notfallplans, bevor eine Katastrophe eintritt. In einem Disaster Recovery-Plan werden Workloads nach Wichtigkeit geordnet. Unternehmen sind bestrebt, Ausfallzeiten und Datenverluste zu minimieren und gleichzeitig die Kosten, die dadurch für jede Workload entstehen, auszugleichen.
Während Disaster Recovery schon lange ein wichtiger Bestandteil des IT-Betriebs ist, senken Cloud-Computing und für das Internet entwickelte Softwarearchitekturen die Kosten und den Arbeitsaufwand für die Umsetzung umfassender Disaster Recovery-Pläne.
Disaster Recovery beschreibt die Richtlinien, Technologien und das Budget, die Unternehmen einsetzen, um wichtige IT-Systeme nach unerwarteten Ausfällen, die durch Bedienungsfehler, Fehlverhalten, Softwarefehler, Naturkatastrophen oder andere Unglücke verursacht wurden, wieder in Betrieb zu nehmen. Bevor es zu einer Störung kommt, müssen Unternehmen ermitteln, welche unternehmenskritischen Anwendungen unmittelbar nach einem Notfall wiederhergestellt werden müssen, und andere Anwendungen nach Wichtigkeit in Gruppen einteilen, die als „Tiers“ bezeichnet werden. Dann müssen sie entscheiden, wie viel Ausfallzeit und Datenverlust das Unternehmen für jede Anwendung verkraften kann, und die IT-Strategien entsprechend planen.
Disaster Recovery ist wichtig, da ungeplante Ausfallzeiten, die durch Störfälle verursacht werden, zu erheblichen finanziellen Verlusten führen können – Schätzungen der Branche zufolge in der Größenordnung von 100.000 US-Dollar pro Stunde. Längere Ausfallzeiten können außerdem dem Ruf einer Marke schaden und zu behördlichen Verwarnungen oder Strafen führen. In einigen stark regulierten Branchen, darunter Finanzdienstleistungen, Energie und Gesundheitswesen, müssen Unternehmen Daten und Rechenvorgänge schneller wiederherstellen, als dies mit herkömmlichen Sicherungskopien möglich ist.
Ungeplante Ausfallzeiten können darüber hinaus in Bereichen wie dem Rettungsdienst oder dem Gesundheitswesen Leben kosten. Bei einer Katastrophe – wie einem Hurrikan, einem Tornado oder einem Erdbeben – sind alle Dienste gefährdet. Können die Informationen dorthin fließen, wo sie benötigt werden, um Leben zu retten?
Es gibt zwei entscheidende Kennzahlen für die Wiederherstellung nach einer Katastrophe: die Wiederherstellungszeit (Recovery Time Objective, RTO), die die maximale Zeitdauer misst, die ein System offline bleiben kann, und den Wiederherstellungspunkt (Recovery Point Objective, RPO), der angibt, wie viele Daten ein Unternehmen verlieren kann und der mit der Häufigkeit von Sicherungen oder Replikationen verbunden ist. Für beide sind niedrigere Schwellenwerte besser, aber teurer. IT-Organisationen legen häufig eine RTO und einen RPO für jedes von ihnen betriebene System fest, um Kosten und Kritikalität in Einklang zu bringen.
DR ist zwar ein etablierter Praxisbereich, doch die verstärkte Nutzung von Cloud-Services in Kombination mit sogenannten „Pilotlicht“-Bereitstellungen, bei denen Live-Daten mit Standby-Diensten verwendet werden, um ein System in einem Cloud-Rechenzentrum neu zu starten, hilft Planern dabei, hervorragende RTO- und RPO-Metriken zu geringeren Kosten zu erzielen. Das liegt daran, dass Cloud-Anbieter in jeder Infrastrukturebene in Redundanz investieren, was automatisierte und halbautomatisierte Failover- und Wiederherstellungsprozesse ermöglicht. Diese Investitionen bleiben ihren Kunden dann erspart. Darüber hinaus kann durch Pilotlicht-Bereitstellung die Wiederherstellung von Services auf wenige Minuten reduziert werden.
Weitere Informationen zu cloudbasierten DR-Bereitstellungen folgen.
IT-Systeme können durch vielerlei Arten von Katastrophen beeinträchtigt werden, darunter Cyberangriffe, Hardwareausfälle, Naturkatastrophen sowie Ausfälle, die durch menschliches Versagen verursacht werden. Einige davon können Sie allerdings vorhersehen. Zum Beispiel können alle Organisationen Ziel von Cyberangriffen sein. Manche Unternehmen sind in Regionen ansässig, in denen Naturkatastrophen wie Hurrikane, Erdbeben und Überschwemmungen häufiger auftreten. Menschliches Versagen ist jedoch eine Konstante.
Die Herausforderung besteht darin, bereit zu sein, zu reagieren, wenn etwas schief geht.
Ungeplante Ausfälle sind unerwartete Unterbrechungen in einem System oder Service, die zu Ausfallzeiten und Störungen des normalen Betriebs führen. Solche Ausfälle können aufgrund der zuvor besprochenen Faktoren auftreten und schwerwiegende Folgen für Unternehmen haben, darunter Umsatzeinbußen, Rufschädigung, sinkende Kundenzufriedenheit und sogar Todesfälle. Notfallpläne sind unerlässlich, um die Auswirkungen ungeplanter Ausfälle zu minimieren und eine schnelle Wiederherstellung der Services zu gewährleisten.
Hochverfügbarkeitstechnologien, die Daten zwischen Knoten in einem Cluster oder in Cluster-Servern replizieren, sodass sie bei einem Ausfall auf einen anderen Server umschalten und die Workloads weiterlaufen lassen können, können äußerst hohe IT-Servicegrade gewährleisten. Solche Technologien zielen darauf ab, einzelne Fehlerquellen zu beseitigen, und werden in der Regel durch Servicevereinbarungen unterstützt, die prozentuale Verfügbarkeitsgarantien bieten. Beim Cloud-Computing schützt hohe Verfügbarkeit die physische Infrastruktur, einschließlich Stromversorgung, Kühlung, Speicher, Netzwerke und Server. Eine Software zum Load Balancing auf Anwendungsebene trägt ebenfalls dazu bei, eine hohe Verfügbarkeit zu gewährleisten.
Disaster Recovery hingegen schützt vor mehreren Fehlerquellen und zielt darauf ab, kritische Workloads nach einer extremen Störung, z. B. durch ein Erdbeben oder einen Hurrikan, der eine Anlage zum Erliegen bringt, wieder in einen betriebsfähigen Zustand zu versetzen. DR-Standorte sind in der Regel geografisch voneinander getrennt.
Sowohl High Availability- als auch DR-Technologien sollten Teil eines umfassenden Betriebskontinuitätsplans sein.
Das Hauptziel eines Disaster Recovery-Plans besteht darin, sicherzustellen, dass die Geschäftseinheiten während einer Krise weiterarbeiten können. DR-Pläne umfassen Prozesse für den schnellen Neustart von Rechenservices und die Begrenzung von Daten- und Geldverlusten. Sie zielen außerdem darauf ab, die regulatorischen Anforderungen an die Geschäftskontinuität und die Datenaufbewahrung zu erfüllen.
Die beiden wichtigsten Kennzahlen für Disaster Recovery-Pläne sind die Recovery Time Objective (RTO) und der Recovery Point Objective (RPO). Jedes System, das ein Unternehmen betreibt, kann je nach Servicevereinbarungen zwischen der IT-Abteilung und den jeweiligen Geschäftsbereichen unterschiedliche RTO- und RPO-Anforderungen haben.
Für jede Anwendung oder jeden Dienst ist die RTO die maximal zulässige Ausfallzeit nach einem ungeplanten Ausfall, während der RPO die maximale Menge an Datenverlust misst, die ein Unternehmen zu tolerieren bereit ist. Niedrigere/kleinere Schwellenwerte sind besser, aber in der Regel teurer. IT-Organisationen können für jedes von ihnen betriebene System eine RTO und einen RPO festlegen, um Kosten und Kritikalität in Einklang zu bringen.
DR-Pläne umfassen gründliche Bewertungen der potenziellen Risiken von Katastrophen, der Schäden, die sie möglicherweise an den Betriebsabläufen verursachen, der möglichen Auswirkungen auf Mitarbeiter und externe Interessengruppen sowie der finanziellen Verluste oder behördlichen Bußgelder, die dadurch entstehen könnten.
Im Rahmen der Entwicklung eines DR-Plans müssen Unternehmen Fürsprecher aus der Führungsebene und betroffene Teams ermitteln, physische und IT-Ressourcen katalogisieren, die bei einer Katastrophe beschädigt werden könnten, und die potenziellen Auswirkungen auf Kunden, Lieferanten, Partner und andere Interessengruppen berücksichtigen.
IT-Abteilungen müssen entscheiden, welche Workloads aus Backups wiederhergestellt werden können, welche Live-Daten in Kombination mit Services mit geringerer Kapazität erfordern und welche Workloads die volle Kapazität benötigen. In einigen Fällen schalten aktive Systeme, die ausgefallen sind, automatisch auf Standby-Systeme um. So kommt es nur zu minimalen Ausfallzeiten und zu keinem Datenverlust. In anderen Fällen erfolgt die Umstellung manuell. IT-Teams sollten Backup-Standorte auswählen und einen Plan erstellen, der es ihnen ermöglicht, Anwendungen schnell neu zu starten. Die Cloud ist dabei eine große Hilfe. Unternehmen müssen außerdem nach IT-Abhängigkeiten suchen, die die Wiederaufnahme des Betriebs behindern könnten – Fälle, in denen eine Offline-Anwendung die Wiederherstellung einer anderen verhindert.
Zusätzlich zu diesen technischen Aspekten sollten die Geschäftsführung und die Geschäftsbereiche über Notfallkommunikations- und Reaktionspläne sowie über Vorkehrungen für die Schulung der Mitarbeiter zum DR-Plan, für Tests und Übungen mittels Tabletop-Übungen oder Durchläufen und für dessen kontinuierliche Verbesserung verfügen.
Jeder DR-Plan sollte eine Risikobewertung von Ereignissen, die den Geschäftsbetrieb unterbrechen könnten, eine Analyse der Auswirkungen auf die betroffenen Anwendungen und eine Schätzung der daraus resultierenden finanziellen Verluste enthalten. Die Analyse der betrieblichen Auswirkungen sollte RTOs und RPOs für jede Anwendung enthalten. Unternehmen können dann über ihre Wiederherstellungspläne entscheiden und festlegen, wo es sinnvoll ist, höhere Kosten gegen kürzere Recovery-Zeiten und RPOs einzutauschen.
Die Ansätze zur Sicherung und Wiederherstellung fallen in ein Leistungs-Kosten-Spektrum und umfassen Folgendes:
Es reicht nicht aus, ein IT-Inventar zu erstellen, Anwendungsebenen zu bestimmen und Abhängigkeiten abzubilden. Damit DR auf dem Niveau funktioniert, das das Unternehmen erwartet, muss jede Technologie, von Betriebssystemen bis hin zu Anwendungen, redundant sein. Der Erfolg von DR hängt zudem von regelmäßigen Tests ab, sei es in Form von Tabletop-Übungen, bei denen die Beteiligten die Schritte mündlich durchgehen, oder in Form eines physischen Durchlaufs der Maßnahmen, die die IT-Abteilungen ergreifen werden, und des Testens der Systemkomponenten, die nur bei Katastrophen zum Einsatz kommen.
Finanzreporting und Datenschutzbestimmungen wirken sich ebenfalls auf DR-Pläne aus. Zum Beispiel legt der Sarbanes-Oxley Act, eine US-amerikanische Verordnung zum Finanzreporting von Unternehmen, Anforderungen an die Datenspeicherung fest. Der US-amerikanische Health Insurance Portability and Accountability Act (HIPAA) verlangt Eventualfallpläne für elektronische Gesundheitsinformationen im Katastrophenfall, und die Datenschutz-Grundverordnung (DSGVO) der Europäischen Union schreibt die Verfügbarkeit der personenbezogenen Daten von Bürgern im Katastrophenfall vor.
Disaster Recovery as a Service (DRaaS) ist ein Cloud-Service, mit dem Unternehmen Anwendungen in einer Public Cloud oder Hybrid-Cloud ausführen können, wobei ein DR-Plan in den Einrichtungen der Cloud-Anbieter anstelle eines On-Premises-Rechenzentrums umgesetzt wird. Cloudbasierte DRaaS-Angebote ermöglichen es Unternehmen, Rechen-, Datenbank- und Anwendungslasten zwischen Cloud-Regionen aus der Ferne zu verschieben und die für die Wiederherstellung von Geschäftssystemen erforderlichen Schritte zu automatisieren, ohne diese neu zu strukturieren oder spezielle Verwaltungssoftware zu verwenden. Die DRaaS-Lösung eines Cloud-Anbieters muss unbedingt für eine hohe Verfügbarkeit in der Standby-Region ausgelegt sein, um sicherzustellen, dass der Dienst im Katastrophenfall zugänglich und funktionsfähig ist.
Unternehmen können DR in der Cloud nutzen, um die Wiederherstellung von Daten nach einer Naturkatastrophe, die die Infrastruktur zerstört, oder nach einem Cyber-Vorfall, wie z. B. einem Ransomware-Angriff, bei dem der Zugang zu lokalen Netzwerkressourcen unterbrochen wird, zu planen. Da die Daten in einer regionalen Cloud gespeichert werden können, kann die Strategie mit Datenschutzbestimmungen wie der DSGVO in Einklang gebracht werden. DRaaS kann außerdem eine gute Lösung sein, wenn das Budget knapp ist, da die Kosten niedriger sein können als die Kosten für die Einrichtung redundanter Wiederherstellungsstandorte.
Die Entwicklung eines Disaster Recovery-Plans sollte mit einer Risikobewertung potenzieller Katastrophenereignisse und ihrer Auswirkungen auf IT-Systeme und Geschäftsprozesse beginnen. Anschließend sollten IT- und Abteilungsteams mit Unterstützung der Geschäftsführung die Anlagen und Systeme nach ihrer Wichtigkeit einstufen und DR-Strategien zuweisen, um sie unter Berücksichtigung der gewünschten RTOs und RPOs und des verfügbaren Budgets zu schützen. DR-Pläne sind Teil umfassenderer Pläne zur Aufrechterhaltung des Geschäftsbetriebs, die die Zeit von einer Katastrophe, einem Cyberangriff oder einem durch einen technischen Fehler verursachten Ausfall bis zur Wiederherstellung überbrücken sollen. Sie müssen kontinuierlich getestet und aktualisiert werden.
Traditionelle DR stützt sich auf redundante Server und Speichergeräte, die sich in einem firmeneigenen Rechenzentrum befinden, oder auf die Sicherung von Geschäftsdaten und Anwendungsinstanzen in externen Rechenzentren, sodass ein Problem in einem Gebiet wahrscheinlich keine Schäden an weit entfernten Kopien verursacht. Cloudbasierte DR-Strategien hingegen ermöglichen es Unternehmen, Vorlaufkosten zu sparen, indem sie kleinere oder Standby-Kopien von Anwendungsinstanzen in einer Public Cloud speichern und diese durch Hinzufügen von Rechenressourcen skalieren, wenn sie im Notfall eingesetzt werden müssen. Unternehmen können zudem geschäftskritische Anwendungen über mehrere Cloud-Regionen verteilen.
Ein Disaster Recovery-Workflow enthält eine Übersicht über die Schritte und Abläufe, die erforderlich sind, um Systeme neu zu starten, Daten wiederherzustellen und während einer Krise zu kommunizieren. DR-Runbooks enthalten ausführlichere Informationen zu Wiederherstellungsprozessen und der zugehörigen Dokumentation. Sie bieten leicht verständliche Checklisten für die sichere Verlagerung digitaler Vorgänge in Notfällen und können Tests oder Failover in Notfällen erleichtern. Workflows und Runbooks zeigen Unternehmen, wie sie eine Wiederherstellung in Phasen durchführen können, und sie identifizieren kritische Systeme und Servicevereinbarungen.
DR-Workflows umfassen Risikobewertungen, die an einem Plan beteiligten Ausschüsse sowie Managementunterstützung, Wiederherstellungsstrategien und Testverfahren. Runbooks können detaillierte Checklisten für verschiedene Datenbanken, Server und Netzwerkgeräte enthalten, damit Mitarbeiter Wiederherstellungsschritte unter Zeitdruck ausführen können.
Eine Disaster Recovery-Operation ist der Prozess der Ausführung jedes vorab festgelegten Schritts oder jeder Aufgabe in einem DR-Plan, der erforderlich ist, um die Infrastruktur, Datenbanken und Anwendungen einer Organisation in einen voll funktionsfähigen Zustand zu versetzen. Zwei Begriffe, Failover und Switchover, werden verwendet, um den Übergang eines Anwendungsstacks an einen anderen Standort zu beschreiben.
Ein Failover ermöglicht einen schnellen Wechsel zu einem Backup-System bei unerwarteten Krisen, einschließlich Stromausfällen und Geräteausfällen. Er wird eingesetzt, wenn Anwendungen, Datenbanken und virtuelle Maschinen abgestürzt sind und Ressourcen wie Speicher, Daten und Betriebssysteme in einem instabilen Zustand sind.
Ein Switchover ist der ordnungsgemäße Übergang zu einem sekundären System während einer geplanten Ausfallzeit für Wartungsarbeiten. Er ermöglicht das Herunterfahren von Anwendungen, Datenbanken und virtuellen Maschinen oder Servern. In einem solchen Fall funktionieren sowohl die primären als auch die Standby-Regionen normal. Die IT-Mitarbeiter verlagern Systeme von einer Region in eine andere, um Wartungsarbeiten durchzuführen oder fortlaufende Upgrades abzuschließen.
Die Flexibilität von Cloud-Computing ermöglicht es Unternehmen, DR-Strategien umzusetzen, die ihren Anforderungen entsprechen, ohne ihr Budget zu überlasten. Hybrid Cloud-Lösungen, bei denen einige Computerressourcen On-Premises und andere in einer Public Cloud ausgeführt werden, können die Disaster Recovery-Kosten senken. Cloud-Architekturen, einschließlich Mikroservices, ermöglichen die Ausführung von Softwarekomponenten auf verteilten virtuellen Servern, wodurch sie weniger anfällig für viele Arten von Katastrophen sind.
Regionsübergreifende Lösungen zur Wiederherstellung nach Katastrophen schützen Organisationen vor Ausfällen, welche den Zugriff auf Systeme unterbrechen würden, die in nur einem Rechenzentrum gehostet werden – beispielsweise durch Hurrikane verursacht. Services können in fehlertoleranten, geografisch getrennten und isolierten Availability-Domains außerhalb der Wirkungszone ausgeführt werden. Ein gesamter Anwendungsstack für ein bestimmtes System, einschließlich virtueller Maschinen, Datenbanken und Anwendungen, kann in eine andere Cloud-Region an einem anderen Standort verlagert werden.
Die Hybrid Cloud ist eine beliebte Architektur, die es Unternehmen ermöglicht, einige Workloads von ihren eigenen Rechenzentren auf die Cloud-Infrastruktur zu verlagern. Sie kann zudem bei Disaster Recovery hilfreich sein. Die Einführung einer hybriden Architektur erfordert in der Regel die Ausführung von Workloads auf virtuellen Servern, sodass die zugrunde liegende Hardware im Cloud-Rechenzentrum problemlos geändert werden kann, ohne den Betrieb zu beeinträchtigen.
Sobald die Workloads virtualisiert sind, können sie in einer Cloud-Umgebung neu gestartet werden, wenn die primären Rechenzentren nicht mehr verfügbar sind. Cloud-Rechenzentren können eine wirtschaftliche Alternative zu einer Reihe geografisch verteilter Rechenzentren darstellen.
Multicloud-DR-Lösungen schützen Anwendungen und Daten, indem sie die Anwendungskomponenten auf die Cloud-Infrastrukturen von zwei oder mehr Anbietern verteilen. Diese Strategie eignet sich für Unternehmen, die mehr als einen Cloud-Anbieter nutzen. Sie können die Wiederherstellungszeit und die Zielvorgaben für verschiedene Anwendungen festlegen, wobei sie gleichzeitig die Kosten verwalten und Entscheidungen über die geografische Verteilung treffen können. Ein Multicloud-DR-Prozess könnte ebenfalls davon abhängen, wie Services und Anwendungen entwickelt wurden.
Orchestrierungs- und Verwaltungsservices für Disaster Recovery können eine umfassende DR für alle Schichten eines Anwendungsstacks bereitstellen, einschließlich Infrastruktur, Datenbanken und Middleware. DRaaS reduziert menschliche Fehler und minimiert die Wiederherstellungszeit durch die schnelle Ausführung von Disaster Recovery-Workflows zur Wiederherstellung von Anwendungsstacks in verschiedenen Regionen.
Mit Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery können Kunden den Übergang von Infrastruktur, Datenbanken und Anwendungen zwischen OCI-Regionen weltweit verwalten. Kunden können Full Stack DR nutzen, ohne vorhandene Infrastrukturen, Datenbanken oder Anwendungen neu zu gestalten oder zu implementieren, und gleichzeitig den Bedarf an speziellen Speicher- oder Verwaltungsservern eliminieren.
Erstellen, testen und implementieren Sie Anwendungen in Oracle Cloud – und das kostenlos.
Warum ist Disaster Recovery für Unternehmen wichtig?
Ungeplante Betriebsausfälle sind kostspielig. Mehr als zwei Drittel davon kosten laut der IT-Beratungsgruppe Uptime Institute über 100.000 USD, während ein Viertel der ungeplanten IT-Ausfälle mehr als 1 Million USD kosten.
Was sind die Hauptkomponenten eines Disaster Recovery-Plans?
Ein Disaster Recovery-Plan umfasst die Strategie eines Unternehmens zur Auswahl von Backup-Standorten oder zur Bereitstellung von Rechenlasten in einer Public Cloud, um den Betrieb schnell wieder aufnehmen zu können. Organisationen müssen außerdem ihre geschäftskritischen und wichtigen Geschäftsanwendungen einstufen und Abhängigkeiten zwischen ihnen abbilden, die einer Wiederherstellung der Software im Wege stehen könnten.
Wie unterscheidet sich die Disaster Recovery von der Datensicherung?
Die Sicherung von Daten auf einem Remote-Server oder einem dezentralen Ort ist zwar ein Aspekt der Disaster Recovery, aber moderne Disaster Recovery-Pläne beinhalten noch viel mehr. Unternehmen müssen Technologiestrategien in Betracht ziehen, die ein Gleichgewicht zwischen Datenreplikation und Dienstverfügbarkeit herstellen. So können sie die Kosten im Zaum halten, während sie Anwendungen von einer kleinen Standby-Instanz aus neu starten.
Wie wirkt sich Cloud-Computing auf Disaster Recovery aus?
Cloud-Technologien können im Katastrophenfall Schutz bieten, indem Cloud-Regionen in voneinander isolierte und fehlertolerante Availability-Domains unterteilt werden. Unternehmen können Systeme für High Availability und Disaster Recovery mithilfe der Einrichtungen und Dienstprogramme replizieren, die häufig vom Cloud-Anbieter bereitgestellt werden.