Noodherstel (DR, disaster recovery) is één aspect van de overkoepelende bedrijfscontinuïteitsplannen die door de verschillende bedrijfsonderdelen binnen een organisatie worden opgesteld en onderhouden. Een effectief plan voor noodherstel vermindert de impact die niet-geplande of zelfs geplande uitval van cruciale bedrijfssystemen heeft op het vermogen van een onderneming om te functioneren en omzet te blijven genereren.
Hiertoe biedt een herstelplan organisaties een flexibele structuur waarmee ze op uniforme wijze, gezamenlijk hun systemen opnieuw kunnen ontwikkelen, herstellen en revitaliseren en een veerkrachtigere infrastructuur kunnen opbouwen.
Hoelang kan een bedrijf nog functioneren als het salarisadministratiesysteem uitvalt vlak voordat de salarissen worden berekend en de rekeningen worden gefinancierd? Welke sancties zou een bedrijf opgelegd krijgen wanneer de betaling van landelijke, provinciale en lokale belastingen vertraging oploopt? Welke consequenties zou het bedrijf ondervinden als gevolg van het niet op tijd betalen van werknemers en hoelang zouden werknemers nog in dienst willen blijven?
Wel of geen noodherstel? Dat is niet langer de vraag. De werkelijke vraag is: hoeveel kost het om minuten, dagen of weken aan belangrijke data en het in jaren opgebouwde vertrouwen in één klap te verliezen?
Noodherstel mag niet langer een bijzaak zijn of iets dat alleen wordt overwogen als er voldoende budget is, omdat vandaag de dag van organisaties wordt verwacht dat ze direct reageren op verstorende gebeurtenissen en operationeel blijven. In plaats van zich te laten afschrikken door de kosten van de implementatie van een herstelplan, moeten organisaties zich meer verdiepen in de werkelijke kosten van het ontbreken van een plan. Doe bijvoorbeeld onderzoek naar de Service Level Agreements (SLA's) die niet kunnen worden nagekomen of de sancties en het omzetverlies die het gevolg zijn van een uitval. Vergelijk de kosten van de implementatie van noodherstel met die van sancties, omzetverlies en verloren vertrouwen van de klant en de keuze is duidelijk.
Of de uitval nu wordt veroorzaakt door een natuurramp, fouten van de IT-operator of -serviceprovider, datacorruptie of ransomware-aanvallen, een organisatie moet zich kunnen beschermen tegen verstoringen van de bedrijfsvoering die leiden tot catastrofale verliezen, vervanging door opportunistische concurrenten en verlies van reputatie en goodwill.
Hoewel deze gevolgen zeer dramatisch klinken, weerspiegelen ze wel de recente ervaringen van veel bekende organisaties die er niet in slaagden hun problemen tijdig te herstellen en grote hoeveelheden kritieke transactiedata, klantgegevens en vertrouwen verloren zagen gaan.
Er zijn tal van scenario's en oorzaken die de bedrijfsvoering kunnen verstoren.
Disaster Recovery as a Service (DRaaS) in de cloud biedt bedrijven ongeëvenaarde mogelijkheden voor operationele flexibiliteit. Organisaties gebruiken oplossingen voor noodherstel vaker voor geplande uitval dan om te herstellen van catastrofale gebeurtenissen.
De twee belangrijkste doelen van noodherstel zijn: getroffen systemen zo snel mogelijk weer operationeel maken en ervoor zorgen dat er zo weinig mogelijk data verloren gaan na een catastrofale gebeurtenis of geplande uitval. De meetwaarden voor deze twee hoofddoelen zijn algemeen bekend als respectievelijk de doelstelling voor de hersteltijd (RTO, Recovery Time Objective) en de doelstelling voor het herstelpunt (RPO, Recovery Point Objective).
Elk bedrijfssysteem stelt andere eisen aan deze twee meetwaarden, afhankelijk van de Service Level Agreement tussen de IT-afdeling en de bedrijfseigenaren.
De doelstelling voor de hersteltijd (RTO, Recovery Time Objective) is de tijd die nodig is om een bedrijfssysteem weer volledig operationeel te maken na geplande of niet-geplande uitval.
Een doelstelling voor het herstelpunt (RPO, Recovery Point Objective) is de maximale hoeveelheid data die verloren mag gaan voordat een bedrijfssysteem schade oploopt. De RPO wordt gewoonlijk gemeten in tijd vanaf het moment dat de laatste back-up, replicatie of momentopname is gemaakt.
Hoge beschikbaarheid beschermt gewoonlijk tegen individuele storingspunten, terwijl noodherstel bescherming biedt tegen meerdere storingspunten. Bij cloud computing is de bescherming tegen individuele storingspunten op de fysieke infrastructuurlaag, waaronder stroom, koeling, opslag, netwerken en fysieke servers, volledig geïntegreerd in de algemene architectuur door middel van beschikbaarheids- en foutdomeinen.
Hoge beschikbaarheid is in dit geval schaalbaar en in hoge mate bestand tegen dataverlies of verlies van verwerkingsprestaties. Bijna elke provider van cloudoplossingen voor bedrijven bouwt hoge beschikbaarheid in zijn aanbod in.
Oplossingen voor noodherstel met hoge beschikbaarheid die bescherming bieden tegen dataverlies en uitvaltijd voor databases zijn duur wanneer er gebruik wordt gemaakt van complexe technologie voor datatoewijzing en datareplicatie. Deze oplossingen bieden geen bescherming tegen ransomware. Dergelijke bescherming wordt verkregen via een uitgebreide back-up met een momentopname van een doelstelling voor het herstelpunt en een onveranderbare opslag.
Traditionele oplossingen voor hoge beschikbaarheid werken goed in combinatie met een goedkope cloudoplossing voor noodherstel. De aanvullende technologie voor noodherstel in de cloud biedt een extra beschermingslaag voor databases waarvoor hoge beschikbaarheid zonder dataverlies en uitvaltijd is vereist en waarbij bescherming tegen ransomware nodig is met incrementeel herstel voor de lange termijn.
On-premises noodherstel is een niet-flexibele en dure oplossing vanwege de hoge kosten voor het dupliceren van IT-infrastructuur op een bronlocatie en een vaste locatie van het datacenter. Bij deze optie is een verbinding met het WAN niet mogelijk en er kunnen geen servers worden gemigreerd tussen ongelijksoortige omgevingen. Er is daarom een dedicated circuit nodig tussen de bron- en doeldatacenters om dit systeem te laten werken als één verbonden LAN-omgeving. Bij de traditionele noodherstelmethode is het ook niet mogelijk om servers te migreren tussen ongelijksoortige heterogene omgevingen, zoals een on-premises omgeving en een cloudplatform of twee verschillende cloudplatforms.
Bij DRaaS wordt een mengelmoes van door leveranciers verstrekte back-upoplossingen en open source-migratietools gebruikt om een streng gecontroleerde en zeer specifieke omgeving te realiseren. De eindgebruiker kan alleen workloads in de oorspronkelijke hostingomgeving van de DRaaS-provider herstellen vanuit zijn eigen on-premises VMware-omgeving. Deze door leveranciers verstrekte oplossingen kunnen prijzig zijn en zijn mogelijk beperkt in de reeks workloads die ze kunnen beschermen en de compute-omgevingen waarvoor ze ondersteuning bieden.
Oracle noemt een noodherstelworkflow meestal een noodherstelplan. Een noodherstelplan – ook wel 'runbook' genoemd – is een lijst van vooraf bepaalde stappen of taken die moeten worden uitgevoerd om de compute-instance, het platform, de database en de applicaties over te zetten naar een vooraf bepaald herstelgebied in de cloud. Dit omvat alle taken of afzonderlijke stappen die worden uitgevoerd door een persoon of een vorm van automatisering tijdens een noodhersteloperatie zoals een overschakeling of failover. De termen noodherstelplan, runbook voor noodherstel en noodherstelworkflow zijn onderling verwisselbaar.
Een noodhersteloperatie is het proces van het uitvoeren van elke vooraf bepaalde stap of taak in een noodherstelplan die nodig is om de infrastructuur, database en applicaties te herstellen naar een volledig operationele toestand. Er worden twee verschillende termen gebruikt om de overgang van een applicatiestack naar een andere locatie te beschrijven: failover en overschakeling.
Een failover is een niet-geplande uitval waarbij applicaties, databases en virtuele machines zijn gecrasht en alle resources, inclusief opslag, data en gastbesturingssystemen, in een inconsistente toestand verkeren. In dit geval wordt aangenomen dat de primaire cloudregio volledig ontoegankelijk en in het geheel niet beschikbaar is, wat betekent dat een echte noodhersteloperatie moet worden geactiveerd.
Daarom kunnen alle noodhersteltaken in een noodherstelplan alleen worden uitgevoerd in de regio van de stand-bycloud. Het is van cruciaal belang dat de DRaaS-oplossing van een cloudprovider is ontworpen voor hoge beschikbaarheid in de stand-byregio, zodat deze toegankelijk is en werkt wanneer zich een ramp voordoet.
Overschakeling is een geplande uitvaltijd waarbij applicaties, databases en virtuele machines of servers gecontroleerd worden afgesloten. In dit geval werken zowel de primaire als de stand-byregio normaal en zijn de IT-medewerkers waarschijnlijk gericht op het "verplaatsen" van een of meer systemen van de ene regio naar de andere voor onderhoud of het voltooien van doorlopende upgrades.
Moderne bedrijven kunnen om tal van redenen profiteren van een of meer van de volgende cloudimplementatiemodellen, zoals kosten, prestaties en bedrijfscontinuïteitseisen. Een robuuste cloudimplementatiestrategie komt steeds vaker voor nu bedrijven hun activiteiten steeds meer naar de cloud verplaatsen.
Interregionale oplossingen voor noodherstel beschermen organisaties tegen volledige uitval die gevolgen zou hebben voor de toegang tot bedrijfssystemen die in de cloudinfrastructuur van één cloudprovider worden gehost. Zoals de naam al aangeeft, kan een volledige applicatiestack voor een bepaald bedrijfssysteem, inclusief virtuele machines, databases en applicaties, op verzoek worden overgezet naar een geheel andere cloudregio op een andere geografische locatie.
DRaaS-oplossingen moeten in staat zijn een volledig bedrijfssysteem, zoals een portaal voor human resources of financiële services of een applicatie voor enterprise resource management, naar een andere cloudregio over te zetten. DRaaS moet kunnen voldoen aan de doelstellingen voor de hersteltijd en de herstelpunten die in de Service Level Agreements voor elke afzonderlijke applicatie zijn vastgelegd.
Interregionale oplossingen voor noodherstel, zoals Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery, beschermen volledige bedrijfsapplicaties tegen het catastrofale verlies van toegang tot een volledige cloudregio, inclusief het verlies van alle beschikbaarheidsdomeinen in die regio.
Noodherstel in de hybride cloud is een uiterst populaire oplossing waarmee ondernemingen workloads en virtuele machines vanuit hun eigen datacenters kunnen overzetten naar een cloudinfrastructuur. Een hybride cloud wordt vaak gebruikt als noodhersteloplossing om de data en de levensvatbaarheid van de kritieke bedrijfssystemen van een bedrijf te beschermen.
Voor klanten van Oracle is hybride cloud een vrije samenvoeging van OCI en fysieke servers, Oracle cloudappliances of andere systemen in het fysieke datacenter van een bedrijf. Oracle cloudappliances zoals Oracle Private Cloud Appliance X9-2 en Oracle Exadata Cloud@Customer zijn uitstekende voorbeelden van on-premises systemen die goed kunnen worden geïntegreerd met OCI.
Sommige producten van Oracle partners, zoals Rackware, kunnen worden gebruikt voor het realiseren van noodherstel tussen on-premises infrastructuur en OCI. Rackware is beschikbaar via Oracle Cloud Marketplace.
Multicloud-oplossingen voor noodherstel beschermen applicaties en data door de verschillende onderdelen van een applicatiestack te verspreiden over de cloudinfrastructuren van twee of meer cloudproviders. De samenwerking tussen Oracle en Microsoft Azure is een goed voorbeeld van een multicloudrelatie.
Disaster Recovery as a Service moet geschikt zijn voor interregionaal noodherstel, noodherstel in de hybride cloud en noodherstel in meerdere clouds. OCI kan op dit moment DRaaS leveren voor interregionaal noodherstel en noodherstel in de hybride cloud.
Levensvatbare oplossingen voor noodherstel waarbij databases een rol spelen, moeten altijd mogelijkheden bevatten om de dataconsistentie te waarborgen. Het punt waarop een database kan worden hersteld naar volledige dataconsistentie, inclusief actieve transacties, bepaalt de doelstelling voor het herstelpunt.
Dataconsistentie is niet zo'n groot probleem voor serverloze databases of databases met platte bestanden, maar het herstellen van geavanceerde relationele databases, zoals Oracle Database of MySQL, naar een dataconsistente toestand voor een bepaald punt in de tijd is zeer complex, maar desondanks van cruciaal belang.
Wanneer u MySQL Database Service in OCI gebruikt, is een MySQL databasesysteem een logische container voor een of meer MySQL instances. Het systeem biedt een interface waarmee taken zoals inrichting, automatische back-ups en herstel naar een bepaald tijdstip kunnen worden beheerd.
Het binaire logbestand en de native replicatietechnologieën van MySQL maken herstel naar een bepaald tijdstip, hoge beschikbaarheid en noodherstel mogelijk. MySQL Group Replication wordt gewoonlijk gebruikt om lokale fouttolerante clusters voor hoge beschikbaarheid te maken, terwijl asynchrone MySQL-replicatie gewoonlijk wordt gebruikt voor geografisch gedistribueerd noodherstel.
Een databasesysteem met hoge beschikbaarheid heeft drie MySQL instances in verschillende beschikbaarheidsdomeinen of foutdomeinen. Het databasesysteem garandeert dat bij uitval van één instance een andere het overneemt, zonder dataverlies en met minimale uitvaltijd. Voor noodherstel in verschillende regio's kunnen ook inkomende replicatiekanalen tussen twee databasesystemen worden gemaakt.
Gebruik onderstaande koppelingen voor meer informatie over noodherstel voor MySQL in de cloud.
Oracle Maximum Availability Architecture (MAA) biedt best practices voor de architectuur, configuratie en levenscyclus van Oracle databases en maakt hierdoor service met hoge beschikbaarheid mogelijk voor databases in on-premises, cloud- of hybride configuraties.
Gebruik onderstaande koppelingen voor meer informatie over Oracle Maximum Availability Architecture voor noodherstel in de cloud.
In implementatiearchitecturen wordt beschreven hoe verschillende componenten zoals computing, platform/database en applicaties worden geïmplementeerd tussen cloudregio's om te zorgen voor een veerkrachtig herstel na totale uitval van een datacenter. Een implementatiearchitectuur bevat een beschrijving van waar alles zich bevindt wanneer een applicatiesuite op de normale manier werkt en wat er in de stand-byregio moet worden hersteld om alles weer aan de gang te krijgen.
Bij Oracle vinden we dat DRaaS-oplossingen flexibel genoeg moeten zijn om elke gewenste combinatie van implementatiearchitecturen voor noodherstel op te nemen, zodat aan de individuele vereisten van het serviceniveau voor elk uniek bedrijfssysteem kan worden voldaan. Cloudproviders moeten hun klanten de vrijheid bieden om 'alle bovenstaande' oplossingen te kiezen om te voldoen aan SLA's voor de grote verscheidenheid aan bedrijfssystemen die door organisaties worden gebruikt.
Noodherstelstrategieën en implementatiearchitecturen worden op veel verschillende manieren aangeduid. De verschillende methoden en patronen om te beschrijven hoe de infrastructuur, het platform en de applicaties voor noodherstel moeten worden geïmplementeerd, kunnen echter in twee grote strategische categorieën worden ingedeeld: actief/actief en actief/stand-by noodherstel.
Onderstaande tabel geeft een overzicht van de gangbare termen voor het beschrijven van de verschillende implementatiearchitecturen die onder deze twee algemene noodherstelstrategieën vallen.
Strategie | Implementatiearchitectuur | RPO | RTO |
---|---|---|---|
Actief/stand-by | Cold stand-by | Uren | Uren |
Actief/stand-by | Pilot light | Minuten | Uren |
Actief/stand-by | Warm stand-by | Seconden | Uren |
Actief/stand-by | Hot stand-by | Seconden | Minuten |
Actief/actief | Actief/actief | Bijna nul | Bijna nul |
In dit gedeelte proberen we enkele variaties van actieve/actieve en actieve/stand-by methoden van noodherstel te verduidelijken. Beide noodherstelstrategieën maken deel uit van het arsenaal van beschikbare wapens om bedrijfscontinuïteit te bereiken.
De architectuur van actieve/stand-by implementaties kent vele variaties. Actieve/stand-by implementaties, soms actieve/passieve implementaties genoemd, worden vaak omschreven als pilot light, cold, warm en hot stand-by implementaties.
De scenario's pilot light, cold stand-by, warm stand-by en hot stand-by zijn allemaal varianten van hetzelfde thema, waarbij 100% van een applicatiestack in de primaire regio draait, terwijl minder dan 100% van hetzelfde bedrijfssysteem actief draait in de stand-byregio.
Onderstaande reeks van veralgemeniseerde conceptuele diagrammen is bedoeld om enkele fundamentele verschillen tussen gangbare implementatiearchitecturen te illustreren en is niet bedoeld als referentiearchitectuur. In deze diagrammen staat niet beschreven hoe noodherstel voor een applicatiestack moet worden geïmplementeerd.
In dit scenario zijn de virtuele machines (VM's), de database en applicaties alleen aanwezig in de huidige primaire regio. De volumegroepen voor bestands- en blokopslag waarin de opstartschijf en andere virtuele schijven voor elke VM zijn opgeslagen, worden gerepliceerd naar de stand-byregio.
Tijdens een noodhersteloperatie, zoals een overschakeling of failover, wordt de gerepliceerde opslag met dezelfde VM's geactiveerd in de stand-byregio en worden exact dezelfde VM's opnieuw gestart op het punt waar ze waren gestopt of gecrasht. De VM's zijn precies dezelfde virtuele machines die voorheen in de actieve regio actief waren.
Deze implementatiearchitectuur heeft verschillende voordelen, zoals lagere implementatiekosten, minder onderhoudsoverhead en lagere bedrijfskosten. Het is wellicht echter niet de beste oplossing voor applicaties die afhankelijk zijn van relationele databases voor de backend, aangezien het uitvoeren van periodieke koude back-ups de enige manier is om de dataconsistentie te waarborgen. Deze aanpak werkt prima voor applicaties die incidenteel korte, volledige uitval kunnen hebben.
De meeste IT-afdelingen lossen dit probleem op door de database periodiek af te sluiten, een momentopname van de blokopslag te maken en vervolgens de normale werkzaamheden te hervatten. Hiermee wordt ook de doelstelling voor het herstelpunt bepaald, aangezien u slechts kunt herstellen tot het tijdstip waarop de back-up werd voltooid.
Deze architectuur heeft een iets langere hersteltijd en er is een veel groter risico op dataverlies, maar het is een bruikbare oplossing als de workload hiervoor geschikt is. Het kan bijvoorbeeld een uitstekende oplossing zijn voor applicaties die afhankelijk zijn van een database met platte bestanden, een serverloze database of helemaal geen database, of voor klanten die gewoon een aantal virtuele machines tussen verschillende regio's mobiel willen maken voor meer flexibiliteit.
In de onderstaande twee scenario's wordt geschetst hoe de processtroom voor noodhersteloperaties voor 'cold stand-by' implementaties zou kunnen verlopen.
In het geval van een overschakeling worden de volgende taken uitgevoerd in zowel de primaire als de stand-byregio:
In het geval van een failover worden de volgende taken alleen in de stand-byregio uitgevoerd:
In dit scenario bevinden virtuele machines zich zowel in de primaire als in de stand-byregio, maar zijn ze volledig onafhankelijk van elkaar en hebben ze hun eigen unieke hostnamen en vooraf toegewezen IP-adressen. De stand-byregio heeft eigen VM's die kunnen worden stopgezet of kunnen draaien, al naar gelang de voorkeur van de klant.
Databases moeten zowel in de primaire als in de stand-byregio draaien.
Voor Oracle databases raden we aan om Oracle Data Guard te gebruiken voor het repliceren van de primaire database en de stand-bydatabase. Raadpleeg onze Gold MAA referentiearchitectuur voor meer informatie.
Voor andere databases dan die van Oracle worden de respectievelijke native replicatietechnologieën gebruikt om de databases voortdurend te blijven synchroniseren tussen de primaire en de stand-byregio.
Er zijn ook applicaties aanwezig in de regio van de stand-bycloud, maar deze zijn ofwel niet actief ofwel niet toegankelijk.
In de onderstaande twee scenario's wordt geschetst hoe de processtroom voor noodhersteloperaties voor 'warm stand-by' implementaties zou kunnen verlopen.
In het geval van een overschakeling worden de volgende taken uitgevoerd in zowel de primaire als de stand-byregio:
In het geval van een failover worden de volgende taken alleen in de stand-byregio uitgevoerd:
In dit scenario staan en draaien virtuele machines in zowel de primaire als de stand-byregio met hun eigen unieke hostnamen en vooraf toegewezen IP-adressen.
Databases moeten zowel in de primaire als in de stand-byregio draaien.
Voor Oracle databases raden we aan om Oracle Data Guard te gebruiken voor het repliceren van de primaire database en de stand-bydatabase. Raadpleeg onze Gold MAA referentiearchitectuur voor meer informatie.
Voor andere databases dan die van Oracle worden de respectievelijke native replicatietechnologieën gebruikt om de databases voortdurend te blijven synchroniseren tussen de primaire en de stand-byregio.
Applicaties draaien in de regio van de stand-bycloud, maar zijn niet beschikbaar via het openbare netwerk.
In de onderstaande twee scenario's wordt geschetst hoe de processtroom voor noodhersteloperaties voor 'hot stand-by' implementaties zou kunnen verlopen.
In het geval van een overschakeling worden de volgende taken uitgevoerd in zowel de primaire als de stand-byregio:
In het geval van een failover worden de volgende taken alleen in de stand-byregio uitgevoerd:
In dit scenario is de gehele applicatiestack volledig functioneel en wordt een workload verwerkt in zowel de primaire als de stand-byregio.
Databases moeten zowel in de primaire als in de stand-byregio draaien.
Voor Oracle databases raden we aan om Oracle GoldenGate te gebruiken voor actieve/actieve applicatieconfiguratie. Daarnaast raden we aan om in elke regio lokale stand-bydatabases te hebben met behulp van Oracle Data Guard, zodat uw RTO en RPO bijna nul is. Raadpleeg onze Platinum MAA referentiearchitectuur voor meer informatie.
Voor andere databases dan die van Oracle worden de respectievelijke native replicatie- en actief/actief-technologieën gebruikt om de databases voortdurend te blijven synchroniseren tussen de primaire en de stand-byregio.
Applicaties draaien op en zijn beschikbaar via het openbare netwerk in de regio van de stand-bycloud en hebben een actieve workload.
Oracle-teams hebben veel moeite gedaan om producten met hoge beschikbaarheid te ontwerpen, waaronder de overgrote meerderheid van de databases en applicaties van Oracle voor bedrijven. Ze bedenken vaak best practices en implementatiearchitecturen voor het realiseren van noodherstel in zowel traditionele on-premises omgevingen als in de cloud. Voor elke productlijn wordt een noodherstelmethode voor de afzonderlijke applicaties ontwikkeld, met losjes gekoppelde stappen om alle onderdelen te herstellen die nodig zijn om de applicatie te ondersteunen.
Met Disaster Recovery as a Service in de cloud kunnen alle losjes gekoppelde stappen die door ontwikkelaars, cloud-architecten en architecten van productoplossingen zijn bedacht, worden samengebracht in één naadloze workflow die met één klik kan worden gestart. OCI biedt met Full Stack Disaster Recovery een DRaaS-oplossing die flexibel, zeer schaalbaar en uitstekend uit te breiden is.
In OCI Full Stack Disaster Recovery beheert u met één klik het overzetten van infrastructuur, databases en applicaties tussen OCI-regio's, waar ook ter wereld. Klanten kunnen noodherstelomgevingen implementeren zonder de bestaande infrastructuur, databases of applicaties opnieuw te ontwerpen of opnieuw te implementeren, terwijl er geen speciale beheer- of conversieservers nodig zijn.