ディザスタ・リカバリとは初心者向けガイド

Aaron Ricadela | シニア・ライター | 2024年7月25日

さまざまな災害によって、重要なシステムがオフラインになったり、オフィスやデータセンターが被害を受けたり、通常の業務運営に必要なデータベースやアプリケーションが一時的に使用できなくなることがあります。ディザスタ・リカバリ計画とは、ビジネスが最も重要なシステムやアプリケーションを迅速に復旧させ、他のシステムの復旧作業を行いながら業務を再開できるようにするためのプロセスおよびテクノロジーのロードマップです。

ディザスタ・リカバリの概要

ディザスタ・リカバリ(DR)とは、混乱を招く事象が発生した後にコンピューティングの作業負荷をオンラインに戻すための企業の技術的計画、および災害が発生する前にその計画をテストする方法を指します。ディザスタ・リカバリ計画では、ワークロードの重要度に応じてランク付けされます。企業は各ワークロードごとの復旧コストを考慮しつつ、コンピューティングのダウンタイムとデータ損失を最小限に抑える必要があります。

ディザスタ・リカバリは長年にわたりIT運用における重要な要素でしたが、インターネット用に設計されたクラウド・コンピューティングやソフトウェア・アーキテクチャにより、包括的なディザスタ・リカバリ計画の導入にかかるコストと作業が軽減されています。

定義と概要

ディザスタ・リカバリとは、オペレーターのミス、不正行為、ソフトウェアのバグ、自然災害、その他の災害による予期せぬダウンタイムの後、重要なITシステムをオンラインに復旧させるために企業が投じる方針、テクノロジー、予算を指します。障害が発生する前に、企業は災害後に即座に復旧させる必要のあるミッションクリティカルなアプリケーションを特定し、その他のアプリケーションを重要度に応じてグループ化し、ランク付けする必要があります。そして、各アプリケーションについて、どの程度のダウンタイムとデータ損失を許容できるかを判断し、それに応じてIT戦略を計画する必要があります。

ディザスタ・リカバリの重要性

ディザスタ・リカバリが重要なのは、予期せぬ出来事によって計画外ダウンタイムが発生すると、業界の推定では1時間あたり10万ドル単位の莫大な金銭的損失につながる可能性があるからです。長時間のダウンタイムはブランドの評判を傷つけ、規制当局による叱責や罰則につながる可能性もあります。金融、エネルギー、ヘルスケアなど、規制の厳しい業界では、企業は従来のバックアップ・データ・コピーとは比較できないほど迅速にデータとコンピューティング業務を復旧させる必要があります。

救急サービスやヘルスケアなどの分野では、予期せぬダウンタイムが人命を脅かすこともあります。ハリケーン、竜巻、地震などの大惨事が発生した場合、すべてのサービスが危険にさらされます。人命救助に必要な情報が、必要な場所に届くでしょうか?

ディザスタ・リカバリの基本概念

ディザスタ・リカバリには、2つの重要な指標があります。1つは目標復旧時間 (RTO) で、システムがオフラインでいられる最大時間を測定します。もう1つは目標復旧時点 (RPO) で、企業が失うことができるデータの量を測定するもので、バックアップまたはレプリケーションの頻度に関係します。いずれも、閾値は短いほど望ましいですが、その分コストは高くなります。IT組織は、運用する各システムに対してRTOとRPOを設定し、コストと重要性のバランスを取るのが一般的です。

ディザスタ・リカバリは確立された実践分野ですが、クラウドサービスの利用拡大と、クラウドデータセンター内のシステムを再起動するためにスタンバイサービスとライブの最新データを使用する、いわゆる「パイロットライト」導入の組み合わせにより、少ない費用で優れたRTOおよびRPO指標を実現できるようになっています。なぜなら、クラウド・プロバイダーがインフラストラクチャの各レイヤーで冗長性への投資を行っているため、自動化および半自動化されたフェイルオーバーとリカバリープロセスが可能になるからです。これらの投資は、顧客が行う必要がなくなりました。さらに、パイロットライトの導入により、サービスを再開して稼働させるまでに必要な時間を数分に短縮することも可能です。

クラウドベースのDR展開の詳細は、後ほど説明します。

災害の種類

サイバー攻撃、ハードウェアの故障、自然災害、ヒューマンエラーによる停電など、多くの種類の災害がITシステムに影響を及ぼす可能性があります。一部は予測可能です。例えば、サイバー攻撃はあらゆる組織が標的となり得ます。また、ハリケーン、地震、洪水などの自然災害が起こりやすい地域に拠点を置いている企業もあります。ヒューマンエラーは常に起こり得ます。

大切なのは、何か問題が起こった際に迅速に対応できる体制を整えておくことです。

計画外の停止とは、システムまたはサービスの予期せぬ中断の事を指し、ダウンタイムを引き起こし、通常の運用に支障をきたします。このような停止は、先ほど挙げた要因によって発生し、収益の損失、評判の低下、顧客満足度の低下、さらには人命の損失など、企業にとって深刻な結果をもたらす可能性があります。予期せぬ停止の影響を最小限に抑え、サービスの迅速な復旧を確実にするためには、復旧計画を事前に用意しておくことが不可欠です。

ディザスタ・リカバリと高可用性の違い

高可用性テクノロジーは、クラスタ内のノード間でデータを複製したり、クラスタサーバーを互いにフェイルオーバーできるように連携させたりすることで、負荷を分散させ、高いITサービスレベルを維持します。これらのテクノロジーは、単一障害点を排除することを目的としており、一般的に稼働率を保証するサービスレベル契約に基づいています。クラウド・コンピューティングでは、高可用性は、電源、冷却、ストレージ、ネットワーク、サーバーなどの物理インフラストラクチャを保護します。アプリケーション・レベルのロード・バランサ・ソフトウェアも、高いレベルの稼働率を確保するのに役立ちます。

一方、ディザスタ・リカバリは、複数の障害ポイントから保護し、地震やハリケーンによる施設の機能停止など、深刻な混乱が生じた場合に重要なワークロードを稼働状態に復元することを目的としています。DRは通常、地理的に離れた場所に設置されます。

包括的な事業継続計画には、高可用性テクノロジーとDRテクノロジーの両方が含まれている必要があります。

ディザスタ・リカバリの目標

ディザスタ・リカバリ計画の主な目標は、危機的状況下でも事業部門が業務を継続できるようにすることです。DR計画には、コンピューティング・サービスを迅速に再開し、データ損失と金銭的損失を最小限に抑えるためのプロセスが含まれます。また、ビジネス継続性とデータ保持に関する規制要件を満たすことも目的としています。

目標復旧時間(RTO)と目標復旧時点(RPO)

ディザスタ・リカバリ計画の主な評価基準は、目標復旧時間(RTO)と目標復旧時点(RPO)の2つです。各システムのRTOとRPOの要件は、ITと事業部門間のサービス・レベル契約に応じて異なる場合があります。

各アプリケーションまたはサービスにおいて、RTOは予期せぬ停止が発生した後の許容可能な最大ダウンタイムであり、RPOは企業が許容する最大データ損失量を測定します。より短い閾値が望ましいですが、その分コストは高くなる傾向にあります。IT組織は、運用する各システムに対してRTOとRPOを設定し、コストと重要性のバランスを取るのが一般的です。

ディザスタ・リカバリ計画の策定

DR計画では、壊滅的な事象の潜在的なリスク、それによって引き起こされる可能性のある業務への損害、従業員や外部の利害関係者が受ける可能性のある影響、その結果として発生する可能性のある財務上の損失や規制による罰金などを、徹底的に評価する必要があります。

DR計画を策定するにあたり、企業は、エグゼクティブ・スポンサーや影響を受けるチームを特定し、災害時に被害を受ける可能性のある物理的およびIT資産のリストを作成し、顧客、サプライヤー、パートナー、その他の利害関係者への潜在的な影響を考慮する必要があります。

IT 部門は、バックアップから復元できるワークロード、ライブデータと低容量で実行中のサービスを組み合わせる必要があるワークロード、フル容量を必要とするワークロードを決定する必要があります。場合によっては、ダウンした稼働中のシステムが自動的にスタンバイシステムに切り替わり、ダウンタイムを最小限に抑え、データ損失をゼロに抑えることができます。また、切り替えが手動で行われる場合もあります。ITチームはアプリケーションを迅速に再起動できるようなバックアップサイトを選択し、計画を立てる必要があります。この点において、クラウドは大きな助けとなります。また、業務再開を妨げる可能性のあるIT依存関係についても検討する必要があります。オフラインのアプリケーションが原因で、別のアプリケーションをオンラインに戻せないケースです。

これらの技術的な側面に加え、エグゼクティブ・リーダーシップと各事業部門は、緊急時の連絡および対応計画を策定し、DR計画に関する従業員研修、机上演習やウォークスルーなどによるテストやリハーサル、そして継続的な改善策を講じる必要があります。

リスク・アセスメントとリカバリ目標

すべてのDR計画には、業務を中断させる可能性のある事象のリスク評価、影響を受ける可能性のあるアプリケーションの影響分析、およびその結果生じる可能性のある金銭的損失の見積もりを盛り込む必要があります。ビジネス影響分析には、各アプリケーションのRTOとRPOを含めます。これにより、企業はリカバリ計画を決定し、より高いコストを支払ってでもリカバリ時間およびリカバリ目標を短縮することが必要な領域を特定できます。

バックアップとリカバリ戦略

バックアップとリカバリのアプローチは、パフォーマンスとコストのスペクトラムに沿って分類され、以下を含みます。

  • オフラインバックアップ:RPOは高くなりますが、ランサムウェア攻撃時には唯一の選択肢となる場合があります。
  • パイロットライト展開:システムを数時間ではなく数分で稼働状態に復元できますが、単純なバックアップコピーよりもコストが高く、維持が難しい場合があります。
  • ウォーム・スタンバイ方式:ライブデータをクラウド上のアプリケーションのコピーと組み合わせ、低容量で実行します。
  • アクティブ/アクティブ フェイルオーバー アプローチ:複数のライブサイトがフル容量で実行され、復旧時間と復旧時点の目標がゼロに近づきます。最もコストのかかるDR戦略ですが、最新のソフトウェア・アーキテクチャとデータ管理戦略によりコストを管理できるだけでなく、スケーラビリティの向上などのその他のメリットが得られる場合もあります。

計画、テスト、コンプライアンス

ITインベントリの作成、アプリケーション層の決定、依存関係のマッピングだけでは十分とは言えません。ビジネスが期待するレベルでDRが機能するためには、オペレーティングシステムからアプリケーションに至るまで、すべてのテクノロジーに冗長性を持たせる必要があります。また、DRの成功は、利害関係者が口頭で手順を確認する机上訓練や、IT部門が講じる対策の実際のウォークスルー、災害時にのみ使用されるシステムコンポーネントのテストなど、定期的なテストにも依存します。

財務報告およびデータ保護に関する規制も、DR計画に影響を与えます。例えば、米国の企業財務報告規制であるサーベンス・オクスリー法(SOX法)では、データ保持要件が定められています。US Health Insurance Portability and Accountability Act (HIPAA) では、災害時の電子医療情報に関する緊急時対応計画が義務付けられており、European Union’s General Data Protection Regulation (GDPR) では、災害時の市民の個人データの可用性が義務付けられています。

DRaaSのメリットとユースケース

ディザスタ・リカバリ・アズ・ア・サービス(DRaaS)は、企業がオンプレミスのデータセンターではなく、クラウドプロバイダーの施設でDR計画を実施し、パブリッククラウドまたはハイブリッド・クラウドでアプリケーションを実行できるクラウドサービスです。クラウドベースのDRaaSサービスを使用すると、企業はリモートでコンピューティング、データベース、アプリケーションのロードをクラウドリージョン間で移行し、ビジネスシステムを再設計したり、特殊な管理ソフトウェアを使用したりせずに復旧に必要な手順を自動化できます。クラウドプロバイダーのDRaaSソリューションは、スタンバイ・リージョンで高い可用性を実現するように設計されていることが重要です。これにより、大惨事が発生した場合でも、サービスへのアクセスと機能が確保されます。

企業は、インフラストラクチャを破壊する自然災害や、ランサムウェア攻撃のようなサイバーインシデントによりローカル・ネットワーク・リソースへのアクセスが遮断された場合のデータ復旧計画に、クラウドのDRを活用できます。データは地域内のクラウドに保存できるため、この戦略はGDPRのようなデータ保護規制に準拠させることができます。また、DRaaSは、冗長リカバリサイトを設置するよりも低コストなため、予算が限られている場合にも有効なソリューションとなります。

ディザスタ・リカバリ・ソリューションの導入

ディザスタ・リカバリ計画の策定は、まず、潜在的な大惨事のリスク評価と、それらがITシステムやビジネスプロセスに与える影響の評価から始めます。次に、ITチームと業務チームは、管理者の支援のもと、資産とシステムの順位付けを行い、各資産とシステムを保護するための DR 戦略を割り当てます。その際には、希望するRTOとRPO、および利用可能な予算を考慮する必要があります。DR計画は、災害、サイバー攻撃、技術的エラーによる停止から復旧までの時間を短縮するための、より広範な事業継続計画の一部で、継続的にテストと更新を行う必要があります。

従来型とクラウドベースのDRの違い

従来型のDRは、自社所有のデータセンターに設置された冗長サーバーやストレージデバイスを使用するか、あるいはビジネスデータやアプリケーションのインスタンスを遠隔地のデータセンターにバックアップすることで、ある特定の地域で問題が発生しても、遠く離れたコピーに被害が及ぶ可能性を低くしています。これに対し、クラウドベースのDR戦略では、小規模またはスタンバイのアプリケーション・インスタンスのコピーをパブリック・クラウドに保存することで初期費用を節約できます。これらのコピーは、緊急時にアクティブ化する必要が生じた際にコンピューティング・リソースを追加して拡張できます。また、企業は複数のクラウド・リージョンにわたってミッションクリティカルなアプリケーションを分散させることもできます。

DRのワークフロー、ランブック、および計画

DRワークフローは、危機的状況においてシステムを再起動し、データを復旧し、コミュニケーションを行うために必要な手順と順序の概要を記載したものです。DRランブックには、リカバリプロセスと関連ドキュメントの詳細が記載されています。緊急時にデジタル業務を安全な場所に移行するためのわかりやすいチェックリストを提供し、緊急時のテストやフェイルオーバーを容易にします。ワークフローとランブックは、段階的なリカバリ方法を企業に示し、重要なシステムとサービスレベル契約を特定します。

DRワークフローには、リスク評価、計画に関与する委員会、管理サポート、リカバリ戦略、テスト手順が含まれます。ランブックには、さまざまなデータベース、サーバー、ネットワーク機器の詳細なチェックリストが含まれる場合があります。これにより、スタッフは時間的圧力の下でリカバリを実行できます。

DR操作:フェイルオーバーとスイッチオーバー

ディザス・タリカバリ操作とは、組織のインフラ、データベース、アプリケーションを完全に稼働可能な状態に復旧するために、DR計画に定められた各ステップやタスクを実行するプロセスです。フェイルオーバーとスイッチオーバーという2つの用語は、アプリケーション・スタックが別の場所に移行されることを指します。

フェイルオーバーは、停電や機器の故障などの予期せぬ危機の際にバックアップシステムに迅速に移行するために使用されます。アプリケーション、データベース、仮想マシンがクラッシュし、ストレージ、データ、オペレーティング・システムなどのリソースが不安定な状態にある場合に実行されます。

スイッチオーバーは、メンテナンスのための計画的ダウンタイム中に、セカンダリシステムに秩序だった移行を行うために使用されます。これにより、アプリケーション、データベース、仮想マシンやサーバーをシャットダウンすることができます。この場合、プライマリ・リージョンとスタンバイ・リージョンの両方が通常通り稼働し、IT運用スタッフがメンテナンスやローリング・アップグレードの完了のためにシステムを一方のリージョンから他方に移動させます。

クラウドベースのディザスタ・リカバリの種類

クラウド・コンピューティングの柔軟性により、企業は予算を超過することなく、自社の要件に適したDR戦略を実施することができます。一部のコンピューティング・リソースをオンプレミスで、一部をパブリック・クラウドで実行するハイブリッド・クラウド構成は、ディザスタ・リカバリのコスト削減に役立ちます。マイクロサービスなどのクラウド・アーキテクチャでは、ソフトウェア・コンポーネントが分散仮想サーバーで実行されるため、多くの種類の災害の影響を受けにくくなります。

リージョン間DRソリューション

リージョン間ディザスタ・リカバリ・ソリューションは、ハリケーンなど、1つのデータセンターでホストされているシステムへのアクセスを遮断するような停電から企業を守ります。サービスは、影響を受けるリージョン外の、地理的に離れた耐障害性の高い独立した可用性ドメインで実行できます。仮想マシン、データベース、アプリケーションを含む特定のシステムのアプリケーションスタック全体を、別の場所にあるクラウド・リージョンに移行することも可能です。

ハイブリッド・クラウドDRソリューション

ハイブリッド・クラウドは、企業が自社のデータセンターの一部のワークロードをクラウド・インフラストラクチャに移行できる、人気の高いアーキテクチャです。これはディザスタ・リカバリにも役立ちます。ハイブリッド・アーキテクチャを採用するには、一般的に、クラウド・データセンター内の基盤となるハードウェアを簡単に変更できるように、仮想サーバー上でワークロードを実行する必要があります。

ワークロードがいったん仮想化されれば、プライマリ・データセンターが利用できなくなった場合でも、クラウド環境で再起動できます。クラウド・データセンターは、地理的に分散したデータセンターに代わる経済的な選択肢となり得ます。

マルチクラウドDRソリューション

マルチクラウドDRソリューションは、アプリケーションのコンポーネントを2つ以上のプロバイダーのクラウド・インフラストラクチャに分散させることで、アプリケーションとデータを保護します。この戦略は、複数のクラウドプロバイダーを利用する企業に適しており、コスト管理や地理的分散に関する意思決定を行いながら、異なるアプリケーションの目標復旧時間(RTO)と目標復旧時点(RPO)を設定することができます。マルチクラウドDRプロセスは、サービスやアプリケーションの開発方法によって派生する場合もあります。

DRaaSによるディザスタ・リカバリ・タスクの自動化

ディザスタ・リカバリ・オーケストレーションおよび管理サービスは、インフラストラクチャ、データベース、ミドルウェアなど、アプリケーションス・タックのすべてのレイヤーに対して包括的なDRを提供します。DRaaSは、異なるリージョンのアプリケーション・スタックを復元するためのディザスタ・リカバリのワークフローを迅速に実行することで、ヒューマンエラーを減らし、リカバリ時間を最小限に抑えます。

Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recoveryは、お客様が世界中のOCIリージョン間でインフラストラクチャ、データベース、アプリケーションの移行を管理できるようにします。お客様は、既存のインフラストラクチャ、データベース、アプリケーションを再設計したり再導入したりすることなく、Full Stack DRをご利用いただけます。また、専用ストレージや管理サーバーも不要です。

Oracle Cloud Free Tier

Oracle Cloudでアプリケーションを無料で構築、テスト、デプロイしましょう。

ディザスタ・リカバリに関するよくある質問

なぜ企業にとってディザスタ・リカバリが重要なのでしょうか?

予期せぬ企業活動の停止は、高額な費用を伴います。ITアドバイザリー・グループであるUptime Instituteの調査によると、ITの計画外停止の3分の2以上は10万ドル以上の費用がかかり、4分の1は100万ドル以上の費用がかかっています。

ディザスタ・リカバリの重要な要素は何ですか?

ディザスタ・リカバリ計画には、バックアップサイトを選択したり、パブリック・クラウドでコンピューティング・ワークロードを導入したりして、迅速に運用を再開できるようにするための企業の戦略が含まれます。また、組織は、ミッションクリティカルおよび重要な業務アプリケーションの優先順位を付け、ソフトウェアをオンラインで復旧する際に障害となる可能性のある相互依存関係を明らかにする必要があります。

ディザスタ・リカバリとデータバックアップの違いは何ですか?

データをリモートサーバーやサイトにバックアップすることはディザスタ・リカバリの1つの側面ですが、最新のDR計画ではさらに多くがカバーされます。企業は、コストを抑制しながら、小規模なスタンバイ・インスタンスからアプリケーションを再起動できるように、データの複製とサービス可用性のバランスを取るテクノロジー戦略を検討する必要があります。

クラウド・コンピューティングはディザスタ・リカバリにどのように役立ちますか?

クラウドテクノロジーは、互いに分離され、フォルトトレラントな可用性ドメインにクラウドリージョンを分けることで、災害時の保護機能を提供します。企業は、クラウド・ベンダーが提供する施設やユーティリティを使用して、システムのレプリケーションを行い、高可用性とディザスタ・リカバリを実現できます。