什么是灾难恢复?新手入门指南

Aaron Ricadela | 高级撰稿人 | 2024 年 7 月 25 日

各种各样的灾难都可能导致关键系统离线、损坏办公室和数据中心或暂时无法使用那些日常运营所需的数据库和应用。灾难恢复计划是企业的流程和技术路线图,旨在快速恢复重要的系统和应用,以便在恢复其他系统的同时可以照常工作。

灾难恢复的简介

灾难恢复 (DR) 涵盖了企业在发生中断事件后使其计算工作负载重新上线的技术计划,以及在灾难发生前测试应对计划的方法。在灾难恢复计划中,工作负载按重要性进行排序。企业的目标是尽可能减少计算停机时间和丢失的数据,同时平衡每个工作负载的成本。

长期以来,虽然灾难恢复一直是 IT 的运营重点之一,但专为互联网而设计的云计算和软件架构正在降低实施全面灾难恢复计划的成本和工作量。

定义和概述

灾难恢复描述了企业在由于操作员错误、渎职、软件错误、自然灾害或其他灾难导致意外停机后,为使重要 IT 系统重新上线而采取的政策、技术和预算。在发生中断之前,企业需要确定哪些关键任务应用必须在灾难发生后立即恢复,并将其他应用按重要性进行排序,这也称为层级。然后,他们需要决定企业可以承受多少停机时间和数据丢失,并据此制定 IT 战略。

灾难恢复的重要性

灾难恢复至关重要,破坏性事件造成的计划外停机可能导致巨大的财务损失 — 根据行业估计,这种损失可高达每小时 10 万美元。停机时间过长也会损害品牌的声誉,导致企业受到监管部门的谴责或处罚。对于某些受到高度监管的行业,包括金融服务、能源和医疗卫生行业,企业需要比传统备份数据副本更快地恢复数据和计算操作。

在紧急服务和医疗卫生等领域,计划外停机也会导致生命消逝。一旦飓风、龙卷风或地震等发生灾难性事件,所有服务都会处于危险之中。那么,信息是否能够流向挽救生命所需的地方呢?

灾难恢复的基本概念

灾难恢复有两个关键指标:一是恢复时间目标 (RTO),主要衡量系统可以保持离线的最长时间;二是恢复点目标 (RPO),主要衡量企业可以承受失去多少数据,这与备份或复制的频率相关。对于这两个指标而言,阈值越短越好,但成本也会更高。IT 部门通常会为所运行的每个系统设置 RTO 和 RPO,以便在成本和重要性之间取得平衡。

灾难恢复是一个成熟的实践领域,但更多会结合使用云技术服务以及所谓的“pilot light”部署,这些试点灯使用实时更新的数据与备用服务来重启云数据中心中的系统,可以帮助计划员以更低的成本达到出色的 RTO 和 RPO 指标。这是因为云技术提供商在每个基础设施层都投入了冗余资源,以支持自动化和半自动化故障转移和恢复流程。这些是客户不再需要进行的投资。此外,pilot light 部署可以将服务恢复运行所需的时间缩短至几分钟。

了解有关基于云技术的灾难恢复部署的更多信息。

灾难类型

许多类型的灾难都会影响 IT 系统,其中包括网络攻击、硬件故障、自然灾害和人为错误导致的中断。有些灾难是我们可以预料的。例如,所有企业都可能会成为网络攻击的目标。某些企业所处地区更容易发生自然灾害,比如飓风、地震和洪水等。人为错误也是常有的。

有鉴于此,企业的主要任务是做好准备,从而在问题发生时及时采取行动。

计划外中断指的是系统或服务因意外中断而导致停机,影响正常操作。这些中断事件可能由上述因素导致,并且可能对企业带来严重的后果,包括收入损失、声誉受损、客户满意度下降,甚至是生命损失。因此,企业必须制定恢复计划,从而尽量减少计划外停机的影响,并确保服务能够快速恢复。

灾难恢复与高可用性的区别

高可用性技术可以在集群或集群服务器中的节点之间复制数据,以便这些节点可以相互进行故障转移并使工作负载可以持续运行,确保能够维持高水平的 IT 服务。这些技术致力于消除单点故障,并且通常由保证正常运行时间百分比的服务水平协议支持。在云计算中,高可用性可保护物理基础设施,包括电源、冷却、存储、网络和服务器。应用级负载平衡软件还有助于确保长时间正常运行。

另一方面,灾难恢复可以防止出现多个故障点,并旨在在极端中断(例如地震或飓风导致设施瘫痪)后将关键工作负载恢复到运行状态。这些灾难恢复站点通常在地理位置上相隔较远。

高可用性和灾难恢复技术都应该纳入全面业务连续性计划。

灾难恢复的目标

灾难恢复计划的主要目标是确保业务单位能够在发生危机时继续运营。灾难恢复计划包含了快速重新启动计算服务并限制数据和金钱损失的流程。这些计划也旨在满足管理业务连续性和数据保留的监管要求。

恢复时间目标 (RTO) 和恢复点目标 (RPO)

灾难恢复计划的两个主要指标是恢复时间目标 (RTO) 和恢复点目标 (RPO)。企业运行的每个系统可能具有不同的 RTO 和 RPO 要求,这些要求具体取决于 IT 与相关业务单位之间的服务级别协议。

对于每个应用或服务,RTO 主要衡量发生计划外停机后企业能够承担多长的停机时间,而 RPO 则是衡量企业愿意容忍多少数据丢失。这些指标的阈值越短/越小越好,但通常也会越昂贵。IT 部门可以为所运行的每个系统设置 RTO 和 RPO,以便在成本和重要性之间取得平衡。

制定灾难恢复计划

灾难恢复计划包括彻底评估灾难性事件的潜在风险、灾难可能造成的运营损失、对员工和外部利益相关方的影响以及相关的财务损失或监管罚款。

在制定灾难恢复计划的过程中,企业需要确定执行发起人和受影响的团队;列出灾难期间可能受到伤害的物理和 IT 资产目录;并考虑对客户、供应商、合作伙伴和其他利益相关者的潜在影响。

IT 部门需要决定哪些工作负载可以从备份中恢复,哪些工作负载需要实时数据与以较低容量运行的服务相结合,哪些工作负载需要全部容量。在某些情况下,停机的活动系统会自动切换到备用系统,以尽可能减少停机时间并实现零数据丢失。在其他情况下,切换则是手动进行的。IT 团队需要选择备份站点并制定一个计划,从而快速重新启动应用。在这个过程中,云技术是一个很大的助力。企业还需要寻找可能妨碍重新启动运营的 IT 依赖项,例如哪个离线应用会阻止其它应用重新上线。

除了这些技术方面之外,高管和各个业务部门还应制定紧急沟通和响应计划,为员工提供关于灾难恢复计划的培训,通过桌面模拟或演示来进行测试或演练,并持续改进该计划。

风险评估和恢复目标

每个灾难恢复计划都应该对可能中断业务运营的事件进行风险评估,对可能受影响的应用进行影响分析,以及对由此产生的财务损失进行估算。业务影响分析应包括每个应用的 RTO 和 RPO。据此,企业可以制定恢复计划,以更高的成本换取更短的恢复时间和恢复点目标。

备份和恢复策略

备份和恢复方法属于性能成本范畴,具体包括:

  • 离线备份:RPO 较高,但面对勒索软件攻击,这可能是唯一的选择
  • Pilot light 部署:可以在几分钟内(而不是几小时)将系统恢复到工作状态,但比简单的备份副本更昂贵,也更难维护
  • 温备方法:可将实时数据与以较低容量运行的云技术应用副本相结合
  • 主动/主动故障转移方法:多个实时站点以全部容量运行,恢复时间且恢复点接近于零,这是一种昂贵的灾难恢复策略,尽管现代软件架构和数据管理策略可以帮助控制成本并可能带来其他优势,包括提高可扩展性

计划测试和合规性

仅仅创建 IT 库存、确定应用层和映射依赖关系是不足够的。为了使灾难恢复工作达到企业所期望的水平,从操作系统到应用的所有技术都需要冗余的资源。灾难恢复的成功还取决于定期测试,无论是通过桌面预演,由利益相关方口头介绍步骤,还是由 IT 部门对相关方案进行实体演示,并测试仅在灾难期间使用的系统组件。

财务报告和数据保护法规也会影响灾难恢复计划。例如,美国企业财务报告法规《萨班斯-奥克斯利法案》(SOX) 对数据保留要求有明确规定。《美国健康保险携带和责任法案》(HIPAA) 要求制定灾难发生期间的电子健康信息应急计划,而欧盟的《通用数据保护条例》(GDPR) 则要求在灾难期间提供公民个人数据。

DRaaS 的优势和使用场景

灾难恢复即服务 (DRaaS) 是一种云技术服务,旨在让企业在公有云或混合云中运行应用,并在云技术提供商的设施而不是本地数据中心中实施灾难恢复计划。借助基于云技术的 DRaaS 产品,企业可以在云技术区域之间远程转换计算、数据库和应用负载,并自动执行恢复业务系统所需的步骤,而无需重新设计业务系统架构或使用专门的管理软件。故而云技术提供商的 DRaaS 解决方案必须在备用区域中采用高可用性设计,确保发生灾难性事件时相关服务仍可访问且可正常运行。

面对基础设施因自然灾害或网络事件(例如勒索软件攻击)受损,同时无法访问本地网络资源时,企业可以使用云端灾难恢复计划,在灾后恢复数据。由于数据可以存储在区域性的云端,因此该策略可以满足 GDPR 等数据保护法规要求。当预算紧张时,DRaaS 也不失为一个理想的解决方案,其成本会低于设置冗余恢复站点的成本。

实施灾难恢复解决方案

在制定灾难恢复计划时,首先要对可能发生的灾难性事件及其对 IT 系统和业务流程的影响进行风险评估。然后,在管理层的支持下,IT 和业务部门团队需要根据资产和系统的重要性进行排序,并根据所需的 RTO 和 RPO 以及可用预算,制定灾难恢复策略来保护每个资产和系统。灾难恢复计划属于更广泛的业务连续性计划的一部分,主要用于缩短从技术错误导致的灾难、网络攻击或中断发生到恢复的窗口时间。这些计划需要不断经过测试和更新。

传统灾难恢复与基于云技术的灾难恢复

传统的灾难恢复依赖于企业自有数据中心的冗余服务器和存储设备,或者将业务数据和应用实例备份到远程数据中心,因此发生在某个地理区域的问题不太可能对远处的远程副本造成损害。相比之下,基于云技术的灾难恢复策略允许企业在公共云中存储较小或备用的应用实例副本,然后在需要紧急激活时通过添加计算资源来进行扩展,从而节省前期成本。企业还可以将关键任务应用分散放置在多个云区域中。

灾难恢复工作流、运行手册和计划

灾难恢复工作流概述了在危机发生期间重新启动系统、恢复数据和通信所需的步骤和顺序。灾难恢复运行手册则详细介绍了恢复过程和相关文档。该手册提供了易于遵循的检查清单,可用于在紧急情况下将数字化运营转移到安全的地方并简化测试或故障转移。工作流和运行手册向企业展示了如何进行分阶段恢复,并确定关键系统和服务级别协议。

灾难恢复工作流涵盖了风险评估、参与计划的委员会以及管理支持、恢复策略和测试程序。运行手册则可能包含了针对不同数据库、服务器和网络设备的详细检查表,帮助员工在时间压力下执行恢复步骤。

了解灾难恢复操作:故障转移和切换

灾难恢复操作是指执行灾难恢复计划中每个预定义步骤或任务,将某家企业的基础设施、数据库和应用恢复到完全运行状态的过程。对此,我们通常使用“故障转移”和“故障切换”这两个术语来描述将应用体系迁移到其他位置。

故障转移 可以在意外危机(包括断电和设备故障)发生时快速切换到备份系统。该方案适用于应用、数据库和虚拟机崩溃,以及存储、数据和操作系统等资源处于不稳定状态的时候。

故障切换则是在计划停机维护期间有序过渡到辅助系统。该方案支持关闭应用、数据库和虚拟机或服务器。在这种场景下,主用区域和备用区域都能正常运行,IT 运营人员会将系统从一个区域迁移到另一个区域,以进行维护或执行滚动升级。

基于云技术的灾难恢复类型

借助云计算的灵活性,企业可以实施符合需求的灾难恢复策略,而不会超出预算。对于混合云方案,计算资源有的在本地运行,有的在公有云中运行,有助于降低灾难恢复的成本。而云架构(包括微服务)则在分布式虚拟服务器上运行软件组件,不易遭受多种灾难的影响。

跨区域灾难恢复解决方案

跨区域灾难恢复解决方案可保护企业免受飓风及类似灾难中断的影响,这些中断将导致无法访问仅在一个数据中心内托管的系统。服务可以在容错、地理上独立且隔离的可用性域中运行,并且位于影响区域之外。给定系统的整个应用堆栈(包括虚拟机、数据库和应用)都可以迁移到其他位置的云技术区域。

混合云灾难恢复解决方案

混合云是一种流行的架构,支持企业将部分工作负载从自有数据中心切换到云基础设施。这对灾难恢复也有帮助。采用混合架构时,通常需要在虚拟服务器上运行工作负载,因此可以在不影响运营的情况下轻松更改云数据中心内的底层硬件。

经过虚拟化后的工作负载可在主数据中心不可用时,在云技术环境中重启。云数据中心是可替代地理上分散的数据中心阵列的另一种更经济的方案。

多云灾难恢复解决方案

所谓多云灾难恢复解决方案,指的是通过在两个或更多提供商的云基础设施中托管应用组件来保护应用和数据。这种策略适用于使用多个云技术提供商的企业,让企业能够为不同的应用设置恢复时间和恢复点目标,同时管理成本并制定有关地理分散的决策。多云灾难恢复流程还可以以服务和应用的开发方式为基础。

使用 DRaaS 自动执行灾难恢复任务

灾难恢复编排和管理服务可以为应用堆栈的每一层(包括基础设施、数据库和中间件)提供全面的灾难恢复。DRaaS 可快速执行灾难恢复工作流以恢复不同区域中的应用堆栈,从而减少人为错误并尽可能缩短恢复时间。

Oracle Cloud Infrastructure (OCI) Full Stack Disaster Recovery 可帮助客户管理全球 OCI 区域之间的基础设施、数据库和应用迁移。借助 Full Stack DR,客户无需重新设计或重新部署现有基础设施、数据库或应用,也无需专业存储或管理服务器。

Oracle Cloud 免费套餐

免费在 OCI 上构建、测试和部署应用。

灾难恢复的常见问题解答

灾难恢复为什么对企业而言很重要?

计划外企业停机会产生高昂的成本。根据 IT 咨询机构 Uptime Institute 的数据表明,三分之二以上的计划外 IT 中断的损失超过 10 万美元,而四分之一的成本超过了 100 万美元。

灾难恢复计划的主要组成部分有哪些?

灾难恢复计划包含了企业选择备份站点或在公有云中部署计算工作负载的策略,以确保企业能够快速重启运营。企业还需要对关键任务和重要业务应用进行排序,并列出可能会阻碍软件重新上线的依赖项。

灾难恢复与数据备份有何不同?

将数据备份到远程服务器或站点是灾难恢复的其中一环,现代灾难恢复计划还涵盖了更多其它内容。企业需要采用能够在数据复制和服务可用性之间取得平衡的技术策略,在控制成本的同时,还要能够从小型备用实例重启应用。

云计算如何影响灾难恢复?

云技术可以将云技术区域划分到相互隔离并具有容错能力的可用性域中,在发生灾难时提供保护。企业可以使用云技术供应商提供的设施和设备复制系统,实现高可用性和灾难恢复。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。