Aaron Ricadela | Content Strategist | 26 aprile 2024
Le aziende devono continuare a operare durante i periodi di crisi. Parte centrale della sfida è superare il crash del sistema informatico che può mettere un freno alle vendite, alle operazioni, alla produzione e ai trasporti. Che le interruzioni IT siano causate da azioni umane, bug dei software, condizioni meteorologiche estreme o disastri naturali, le organizzazioni hanno bisogno di strategie operative e tecniche ben pianificate per superare una crisi con processi chiave intatti, e quindi recuperare e riprendere rapidamente il normale lavoro.
Eventi non pianificati e dannosi che ostacolano le operazioni aziendali critiche possono danneggiare la reputazione del brand e portare a perdite finanziarie e richiami normativi. Ecco perché le organizzazioni hanno a lungo mantenuto piani di continuity completi e sistemi di backup. Ora, la proliferazione del cloud computing e delle architetture applicative più recenti ispirate a Internet stanno cambiando il modo in cui le organizzazioni pianificano di operare durante le interruzioni, progettano sistemi di disaster recovery per il recupero di dati critici e allocano i budget per una maggiore resilienza.
Anche se i piani che prevedono data center fisici geograficamente distanti come base per il disaster recovery siano comuni, qui ci concentreremo su strategie più recenti che prevedono l'utilizzo dei servizi cloud.
L'esecuzione di alcune applicazioni in un data center e in un servizio di infrastruttura cloud può essere un modo semplice e conveniente per migliorare la resilienza attraverso la distribuzione geografica dei sistemi applicativi. I costi possono essere ridotti ulteriormente eseguendo istanze più piccole o in standby nel cloud e ridimensionandole solo quando necessario.
Come vedremo, una delle decisioni più difficili consisterà nel decidere come mantenere costantemente aggiornate le copie dei data store critici, in modo che la perdita di una copia interrompa solo temporaneamente le operazioni. Ad esempio, un sistema che consente ai clienti di gestire i propri account è utile solo se il cliente può vedere i propri acquisti e crearne di nuovi. Se un disastro interrompe l'accesso, l'applicazione non è utile. Le strategie di replica del database sono spesso un fattore importante nella creazione di una strategia resiliente.
I piani di business continuity forniscono ai leader di un'organizzazione tabelle di marcia per mantenere in funzione le operazioni quando un disastro o un guasto IT interrompe il normale flusso di lavoro e porta offline le applicazioni a cui si affidano. I piani descrivono nel dettaglio le persone, i processi e le strategie tecnologiche di cui un'organizzazione ha bisogno per continuare a lavorare in modo efficace durante una catastrofe. Secondo gli esperti, i motivi più comuni per le interruzioni delle normali operazioni sono errori tecnici umani e bug dei software che causano crash. I disastri naturali e, sempre più frequentemente, i problemi di sistema causati da data center surriscaldati a causa di condizioni meteorologiche estreme possono portare a interruzioni del business. Anche terrorismo, criminali informatici e guerra possono esserne cause.
I piani di business continuity, sebbene includano anche il disaster recovery di applicazioni software e dati, hanno una portata più ampia, comprendendo la comunicazione del personale, garantendo ai lavoratori l'accesso fisico a computer e dispositivi mobili, le modifiche necessarie alle supply chain e altre considerazioni operative.
Oltre alla pianificazione delle persone, dei processi e della tecnologia necessari per mantenere in funzione le operations durante un'interruzione, le aziende hanno bisogno di un piano concreto per recuperare l'accesso a sistemi, dati e applicazioni di importanza critica. Con disaster recovery si intendono i piani tecnici dettagliati che le aziende mettono a punto per rendere operativi i carichi di lavoro secondo l'ordine di importanza, i budget allocati per farlo e i piani per testare la strategia.
L'obiettivo è ridurre al minimo i tempi di inattività e la perdita di dati, bilanciano al contempo i costi per proteggere ogni carico di lavoro di calcolo. Ecco dove le tecnologie cloud possono esserti d'aiuto.
Quando il computing avveniva principalmente su sistemi client-server in data center di proprietà dell'azienda o in affitto, i budget IT potevano raddoppiare o triplicare per ogni applicazione che aveva bisogno del proprio set di licenze, server duplicati, storage, rete e raffreddamento, il tutto in esecuzione in strutture a una distanza appropriata dal data center di produzione dell'azienda. Il cloud computing ha rivoluzionato i processi, consentendo alle aziende di implementare applicazioni mission-critical in più cloud region o data center. Le tecnologie cloud permettono inoltre ai dipartimenti IT di modificare rapidamente le dimensioni delle risorse o delle istanze del server e di aggiungere più capacità in base alle esigenze utilizzando gli strumenti di gestione remota.
Le aziende devono prendere scelte fondamentali su due metriche chiave di disaster recovery: quanto velocemente bisogna recuperare da un guasto? E qual è una quantità accettabile di perdita di dati?
Il recovery time objective (RTO) misura quanto a lungo un'azienda è disposta ad attendere il ripristino del servizio e il recovery point objective (RPO) determina la quantità massima di dati che un'azienda è disposta a perdere in un disastro. Più basse sono le soglie, meglio è, ma il costo di implementazione di un piano di disaster recovery sarà inversamente proporzionale. Ogni sistema eseguito dall'IT avrà il proprio RTO e RPO. Un sistema di transazioni di vendita avrà tempistiche e punti di ripristino brevi, mentre un sistema di spese dei dipendenti potrebbe ragionevolmente essere ripristinato pochi giorni dopo un disastro.
Con business continuity and disaster recovery si intendono le tecnologie, le policy e le procedure messe in atto da un'organizzazione per garantire che possa continuare a funzionare in caso di disastro o altra interruzione non pianificata. Il BCDR prevede l'identificazione dei potenziali rischi per i tempi di attività e lo sviluppo di strategie per il recupero e il ripristino delle normali operazioni più rapidi possibili.
Le strategie di business continuity e disaster recovery sono diventate più importanti per una fascia più ampia di aziende man mano che un numero sempre crescente di transazioni con clienti, fornitori e altri partner vengono eseguite online e i volumi di dati aumentano. Inoltre, più sistemi sono diventati interdipendenti. Il portale clienti che consente ai clienti di visualizzare gli ordini passati e di crearne di nuovi potrebbe richiedere connessioni con i sistemi di gestione del magazzino, evasione e gestione della produzione. Poiché sono tutti necessari, ognuno erediterà i requisiti RTO e RPO più brevi del gruppo.
Sebbene la business continuity sia importante per le aziende di ogni settore, piani di BCDR efficaci possono essere particolarmente importanti per le organizzazioni di determinati settori. Ad esempio, le aziende in settori altamente regolamentati, tra cui banking, energia e sanità, hanno requisiti rigorosi di business continuity e spesso non possono tollerare il tempo necessario per il recupero dei dati dai backup. E alcuni sottosettori, come il trading sui mercati finanziari, non possono permettersi di perdere nemmeno pochi minuti di dati.
Le aziende dovrebbero avviare la loro pianificazione BCDR con un'analisi dell'impatto che descriva in dettaglio quali disastri possono verificarsi e i tipi di perdite che potrebbero derivarne. Il piano dovrebbe includere errori di configurazione tecnica, disastri naturali, atti di terrorismo e incidenti di sicurezza informatica come gli attacchi ransomware. Poiché i volumi di dati oggi sono molto più elevati rispetto ai decenni passati, i leader aziendali devono dare la priorità ai processi e alle applicazioni software associate, determinare quali sono mission-critical e collocare gli altri in gruppi di importanza classificati, chiamati livelli, in cui possono essere applicati standard RTO e RPO più indulgenti.
Identificare le aree più critiche di un'azienda e stimare la quantità di tempo di inattività che ciascuna potrebbe tollerare aiuterà a creare un piano per mantenere operative tali funzioni, inclusi i backup dei dati, le rate IT "pilot light" che possono aiutare ad avviare operazioni di calcolo più ampie e le configurazioni tecnologiche di cui i dipendenti avrebbero bisogno per lavorare da casa. I sistemi pilot light possono essere considerati sistemi di warm standby e, fin quando possono raggiungere archivi di dati fondamentali, questi sistemi basati su cloud possono rientrare in funzione pochi minuti dopo un disastro.
Le tecnologie cloud sono importanti strumenti che possono aiutare le aziende a implementare piani di business continuity e disaster recovery senza andare oltre i loro budget.
Le configurazioni IT ibride, in cui alcune risorse di calcolo vengono eseguite nel cloud pubblico e alcune nei data center on-premise, hanno ridotto i costi del disaster recovery. Carichi di lavoro cloud basati su microservizi, raccolte di piccoli componenti software in esecuzione su server virtuali distribuiti che lavorano in tandem per fornire applicazioni agli utenti, consentono alle aziende di creare le cosiddette implementazioni IT "pilot light", ovvero dati in tempo reale e aggiornati con servizi inattivi che possono essere utilizzati per riavviare un sistema in un data center cloud. Gli ambienti cloud ibridi richiedono alle aziende di identificare, catalogare e gestire le dipendenze delle applicazioni che impedirebbero il riavvio di un programma software se un altro programma su cui si basa è offline.
Alcune aziende stanno lavorando per spostare tutte le loro applicazioni nel cloud, con l'obiettivo di chiudere i loro data center. Diversi driver generalmente sono a lavoro, tra cui il desiderio di integrare le applicazioni in-house più facilmente con altri sistemi basati su cloud, una gestione più semplice del sistema e delle applicazioni, scalabilità, disponibilità e aggiornabilità migliori delle applicazioni e un BCDR superiore. Fra i vantaggi della business continuity ci sono la possibilità di gestire sistemi pilot light in data center cloud in region cloud diverse, il minor numero di preoccupazioni circa l'accessibilità dei dipendenti e dei clienti in caso di disastro e una progettazione delle applicazioni a prova di proiettile con nessun punto debole (o ben pochi). Tuttavia, per ottenere tutti questi vantaggi non è sufficiente spostare un'applicazione esistente in un data center cloud. Bisogna riprogettare e ricodificare l'applicazione.
Il processo è noto come refactoring e la migliore architettura per questo impegno sono i servizi cloud. Il refactoring può essere laborioso e costoso. Tuttavia, le applicazioni che ne risultano sono più resilienti, versatili e scalabili, tutti risultati che vanno a vantaggio della strategia di BCDR. L'applicazione sarà anche più facile da modificare per fornire nuove funzionalità. Ad esempio, aggiungere funzionalità di analytics e intelligenza artificiale diventa un processo più gestibile poiché sono solo nuovi servizi web da utilizzare all'interno dell'applicazione.
Le aziende, quando pianificano un approccio di disaster recovery che si adatti al proprio budget, devono dare la priorità ai propri carichi di lavoro in base alla disponibilità necessaria, all'RTO e all'RPO. Ripristinare i sistemi da un backup potrebbe essere il percorso meno costoso, sebbene il ripristino di set di dati di grandi dimensioni possa richiedere molto tempo e i backup offline avranno un RPO lungo. Tuttavia, i backup offline sono importanti, soprattutto per i dati critici, e possono essere l'unica opzione praticabile per recuperare da un incidente ransomware. Le implementazioni pilot light possono ripristinare lo stato di esecuzione dei sistemi in pochi minuti anziché in ore, ma sono più costose da mantenere.
I metodi di warm standby, che combinano dati in tempo reale e aggiornati con repliche delle applicazioni basate sul cloud in grado di gestire le richieste mentre vengono eseguite a una capacità inferiore, prevedono RPO misurati in secondi e RTO misurati in minuti. Un cosiddetto approccio di failover attivo/attivo che utilizza più siti attivi in esecuzione a piena capacità può fornire tempi e punti di ripristino quasi nulli, ma è il più costoso.
Compromessi del disaster recovery
Le aziende devono prendere decisioni su tempi di ripristino, perdita di dati e costi quando pianificano una strategia di DR
Metodo DR | RPO | RTO | Costo |
---|---|---|---|
Backup e ripristino | Ore | Ore | $ |
Pilot light | Minuti | Minuti | $$ |
Warm standby | Secondi | Minuti | $$$ |
Attivo/attivo | Quasi zero | Potenzialmente zero | $$$$ |
Fonte: Oracle
I piani di business continuity aiutano a garantire che un'azienda possa continuare a operare e fornire i propri prodotti o servizi durante una crisi. La BC si occupa di preparare persone, processi e tecnologia al fine di superare uno evento di disastro.
Il disaster recovery è l'aspetto della business continuity che si occupa di ripristinare ed eseguire le operazioni IT rapidamente e con una perdita minima di dati. Comprende piani tecnici per il riavvio dei carichi di lavoro di calcolo e un approccio su più livelli al ripristino basato sull'importanza e sulle dipendenze delle applicazioni.
Concetti chiave
La pianificazione della business continuity dovrebbe iniziare con una valutazione dei rischi potenziali. Le organizzazioni dovrebbero quindi misurare l'impatto previsto di tali rischi sui processi e identificare i membri del team che si assumeranno ruoli definiti per mitigarli. I piani dovrebbero anche acquisire il modo in cui l'azienda manterrà le comunicazioni dei dipendenti, tenere conto del customer service e delle contingenze di vendita e adattare le supply chain. E per riportare i sistemi online non dovrebbero dipendere da nessuna persona.
Le aziende devono creare un inventario dei loro asset hardware e software che documenti i loro rapporti di dipendenza. I componenti dei sistemi che verranno eseguiti solo durante i disastri hanno bisogno di test particolarmente accurati, poiché non vengono normalmente utilizzati e sono soggetti a guasti.
Secondo una ricerca di PwC, i programmi BCDR di maggior successo mappano le dipendenze, determinano i livelli delle applicazioni, valutano i rischi, vengono sottoposti a test regolari e dispongono di team qualificati e di un executive sponsor in vista.
È importante per le aziende distinguere tra high availability e disaster recovery mentre pianificano i loro approcci di cloud computing. I cloud pubblici che hanno le cosiddette zone di disponibilità a pochi chilometri l'una dall'altra o anche all'interno dello stesso complesso di edifici possono contribuire a garantire che in caso di guasto in un data center i carichi di lavoro dei clienti continuino a essere eseguiti negli altri in zona. Sebbene questo approccio offra una maggiore disponibilità, non offre copertura per i disastri con un raggio più ampio, come eventi meteorologici importanti, blackout regionali e ondate di calore.
Eventi distruttivi, disastri naturali o guasti IT imprevisti possono ostacolare le vendite e le operazioni, rendere gli uffici inutilizzabili, mettere offline i data center o distruggere impianti e attrezzature. A tutto ciò spesso si aggiungono le perdite finanziarie. Un piano di business continuity e disaster recovery può permettere alle organizzazioni di rispondere rapidamente durante una crisi, limitando le perdite, soddisfacendo i requisiti di compliance e continuando a servire i clienti.
I gravi guasti ai computer che creano scompiglio nelle operazioni possono causare danni finanziari per un valore di 100.000 dollari all'ora, secondo le stime. Southwest Airlines, ad esempio, ha lasciato a terra quasi 2.000 voli nell'aprile 2023 dopo un problema al firewall di rete, lasciando i passeggeri bloccati nei terminal o sulle piste. E le interruzioni non pianificate stanno diventando sempre più costose: un'indagine del 2022 su 830 aziende (PDF) del gruppo di consulenza IT Uptime Institute ha rilevato che un quarto delle interruzioni non pianificate costa alle aziende più di 1 milione di dollari. Di quelle intervistate, il 29% aveva ricavi inferiori a 1 milione di dollari, il 28% guadagnava tra 1 e 9,99 milioni di dollari, e il resto ricavava 10 milioni di dollari o più.
I piani di business continuity comprendono valutazioni complete dei rischi potenziali e delle interruzioni delle operazioni che potrebbero causare, del modo in cui il personale interno e i fornitori potrebbero venire impattati e delle perdite finanziarie e delle multe normative che potrebbero derivare. Inoltre, descrivono nel dettaglio il personale, i processi e i passaggi tecnici necessari per tornare online e operativi e recuperare eventuali dati mancanti. Anche formazione e test sono essenziali.
Un solido piano di BCDR dovrebbe prevedere quanto segue:
La costruzione di un piano di BCDR comporta diversi passaggi: il primo è assemblare un team di stakeholder chiave. Seguendo questo processo, puoi creare un piano di BCDR completo che ti aiuterà a proteggere la tua attività e a ridurre al minimo le interruzioni in caso di emergenza.
Per quanto riguarda l'IT, presta particolare attenzione ai componenti di test dei sistemi che verranno utilizzati solo durante i disastri.
Scarica il piano gratuito di business continuity e disaster recovery (DOC)
I settori della business continuity e del disaster recovery stanno cercando nuove tecnologie per automatizzare il lavoro e migliorare la precisione. In prima linea c'è l'intelligenza artificiale generativa, che può esaminare standard e documenti sulle best practice per creare un punto di partenza per un piano di BCDR. La tecnologia può creare connessioni tra i processi di business e le risorse alla base, contribuendo a creare l'analisi dell'impatto aziendale.
Gli strumenti AI possono quindi far risparmiare intere ore ai manager della business continuity trovando informazioni dettagliate per l'analisi dell'impatto da utilizzare nel piano di ripristino.
L'intelligenza artificiale generativa nello sviluppo e nelle operations IT può anche analizzare picchi di utilizzo e cambiamenti anomali nell'accesso ai dati che il personale potrebbe non notare e che potrebbero indicare un guasto imminente. Può anche aiutare a identificare le dipendenze software ed essere utilizzato per riprogettare i sistemi in modo da avere meno punti di errore.
Il cloud computing con tecnologia Oracle offre diverse garanzie contro i tempi di inattività del calcolo a seguito di un disastro. Oracle Cloud Infrastructure (OCI) utilizza un approccio unico e particolarmente resiliente che separa ciascuna delle sue cloud region globali, le quali forniscono servizi in varie aree geografiche, in domini di disponibilità isolati l'uno dall'altro. I domini di disponibilità nella stessa region hanno ciascuno i propri sistemi di alimentazione e raffreddamento, quindi è improbabile che un guasto in un dominio nella region ostacoli il lavoro di calcolo in un altro.
I domini di disponibilità sono connessi tra loro da una rete a bassa latenza e larghezza di banda elevata, e permettono ai clienti di creare sistemi che possono essere replicati tra i domini di disponibilità per l'high availability e il disaster recovery. La rete connette anche gli ambienti cloud al computing on-premise per ambienti cloud ibridi.
Ogni dominio disponibile di OCI, a sua volta, include tre domini di fault affinché le istanze di calcolo non risiedano nello stesso hardware all'interno di un dominio disponibile. Questa architettura aiuta anche a proteggere da interruzioni non pianificate. La strategia di Oracle è quella di implementare due o più cloud region nei paesi in cui gestisce un cloud pubblico per soddisfare i requisiti di residenza dei dati dei clienti.
Inoltre, Oracle Database include la tecnologia Real Application Clusters (RAC) per la ridondanza integrata, indipendentemente dal fatto che i carichi di lavoro siano in esecuzione su OCI o Microsoft Azure. Un prodotto separato, Oracle Active Data Guard, crea una copia in standby remoto in tempo reale dei dati per favorire una disponibilità più elevata e il disaster recovery di Oracle Database. Destinato ai clienti con le esigenze di DR più complesse e sofisticate, Oracle Cloud Infrastructure GoldenGate può replicare i dati a livello di blocco, fornendo tempi di recupero rapidi dai punti di ripristino.
Un piano completo di business continuity e disaster recovery può aiutare a ridurre al minimo i tempi di inattività, le perdite finanziarie e i danni alla reputazione. Fornisce inoltre un senso di sicurezza a dipendenti, clienti e stakeholder, sapendo che l'organizzazione è pronta a gestire situazioni impreviste, rispettare i requisiti normativi e proteggere dati e asset di importanza critica. La tranquillità e la resilienza che derivano da un piano di BCDR rendono questa scelta ottima per le aziende di tutte le dimensioni.
Un cloud distribuito offre la flessibilità necessaria per scegliere dove e come vengono forniti i servizi per soddisfare le tue esigenze, incluso il BCDR. Scopri perché Oracle è stata indicata come leader nel Gartner® Magic Quadrant™ 2023 per le infrastrutture ibride distribuite Scarica gratuitamente il report
Cosa bisogna includere in un piano di BCDR?
Un piano di business continuity e disaster recovery dovrebbe includere una valutazione del rischio dei potenziali errori e degli eventi che potrebbero interrompere le normali operazioni, un'analisi dell'impatto sugli asset e sui sistemi informatici potenzialmente interessati, una stima delle potenziali perdite finanziarie e disposizioni per mantenere operativi persone e processi durante una crisi. I piani di BCDR includono anche descrizioni tecniche dettagliate su come un'azienda riporterà le applicazioni chiave online e si assicurerà che i dipendenti abbiano accesso ai dati riducendo contestualmente al minimo le perdite. Anche la formazione del personale è una componente importante.
Per cosa sta BCP?
BCP è l'acronimo di business continuity plan, che include una strategia dettagliata e un catalogo dei processi e dei sistemi che consentono a un'azienda di mantenere attive le proprie operazioni durante un'interruzione imprevista. Un business continuity plan include disposizioni per la gestione di persone, processi e tecnologia durante una crisi, con l'obiettivo di tornare al normale lavoro il più rapidamente possibile.