Aaron Ricadela | Senior Writer | 2024년 7월 25일
기업은 다양한 유형의 재해로 인해 중요한 시스템이 오프라인 상태로 전환되거나, 사무실 및 데이터센터가 손상되거나, 정상적인 비즈니스 운영에 필요한 데이터베이스와 애플리케이션을 일시적으로 사용할 수 없게 되는 상황이 발생할 가능성을 고려해야 합니다. 재해 복구 계획은 가장 중요한 시스템과 애플리케이션을 백업해 재해 발생시 신속히 다른 시스템을 복구하고 업무를 재개하기 위한 기업의 프로세스 및 기술적 로드맵입니다.
재해 복구(disaster recovery, DR)는 재해 발생 후 컴퓨팅 워크로드를 온라인 상태로 복구하기 위한 기업의 기술 계획, 재해가 발생하기 전 관련 플레이북을 테스트하는 방법을 아우르는 표현입니다. 재해 복구 계획에서 워크로드별 처리 순위는 중요도 순으로 지정됩니다. 기업의 목표는 컴퓨팅 다운타임과 데이터 손실을 최소화하고, 각 워크로드별 비용의 균형을 유지하는 것입니다.
재해 복구는 오랫동안 IT 운영의 중요한 구성 요소였지만, 인터넷용으로 설계된 클라우드 컴퓨팅과 소프트웨어 아키텍처는 포괄적인 재해 복구 계획을 실행하는 데 드는 비용과 작업을 줄여주고 있습니다.
재해 복구는 운영자 오류, 부정행위, 소프트웨어 버그, 자연재해 또는 기타 재난으로 인한 예기치 않은 다운타임 이후 중요한 IT 시스템을 다시 온라인 상태로 전환하기 위해 기업이 투입하는 정책, 기술, 예산을 아우르는 표현입니다. 기업은 실제 장애가 발생하기 전 재해 발생시 즉시 복구해야 하는 미션 크리티컬 애플리케이션을 미리 파악하고, 다른 애플리케이션들도 중요도에 따른 등급을 선정해 두어야 합니다. 이후 각 애플리케이션과 관련해 발생하는 다운타임과 데이터 손실을 어느 정도까지 감수할지 결정하고 그에 따른 IT 전략을 계획해야 합니다.
재해 복구가 중요한 이유는 업계 추산에 의하면 운영 중단을 야기하는 이벤트로 인한 예기치 않은 다운타임은 시간당 10만 달러에 달하는 상당한 금전적 손실을 초래할 수 있기 때문입니다. 또한 다운타임이 길어지면 브랜드 평판이 저하되고, 규제 기관의 질책이나 처벌을 받을 수도 있습니다. 금융 서비스, 에너지, 의료 등 규제가 엄격한 일부 산업에서는 기존의 백업 데이터 복사본을 이용하는 방식보다 빠르게 데이터 및 컴퓨팅 운영을 복원해야 합니다.
응급 서비스나 의료와 같은 분야에서는 예기치 않은 다운타임으로 인해 인명 피해가 발생할 수도 있습니다. 허리케인, 토네이도, 지진과 같은 치명적인 사건이 발생하면 모든 서비스가 위험에 처하게됩니다. 그런 상황에서 생명을 구하기 위해 필요한 곳으로 정보가 흘러갈 수 있을까요?
중요한 재해 복구 지표로는 시스템이 오프라인 상태로 유지될 수 있는 최대 시간을 측정하는 복구 시간 목표(RTO), 비즈니스가 손실을 감내할 수 있는 데이터의 양을 측정하고 백업 또는 복제 작업의 빈도와 관련이 있는 복구 지점 목표(RPO)라는 2가지 메트릭이 있습니다. 두 가지 모두 임계값은 짧을수록 좋지만 더 많은 비용이 발생합니다. 많은 경우 IT 부서는 실행 중인 각 시스템별로 RTO와 RPO를 설정해 비용과 중요도 간의 균형을 맞출 수 있습니다.
DR은 잘 확립된 관행이 존재하는 영역이지만, 클라우드 데이터 센터에서 시스템을 재시작하기 위해 대기 서비스와 최신 라이브 데이터를 함께 사용하는 소위 '파일럿 라이트' 배포와 결합된 클라우드 서비스의 사용이 증가함에 따라 DR 계획 담당자는 보다 적은 비용으로도 우수한 RTO 및 RPO 메트릭을 달성할 수 있게 되었습니다. 이는 클라우드 제공업체가 모든 인프라 계층별 중복성을 확보하기 위한 투자를 단행해 자동화된, 또는 반자동화된 장애 조치 및 복구 프로세스가 가능해졌기 때문입니다. 고객은 이제 더 이상 그와 관련된 투자를 직접 할 필요가 없습니다. 또한 파일럿 라이트 배포를 통해 서비스를 백업하고 실행하는 데 필요한 시간을 단 몇 분 단위로 단축할 수 있게 되었습니다.
클라우드 기반 DR 배포에 대한 자세한 내용은 아래에 이어집니다.
사이버 공격, 하드웨어 장애, 자연 재해, 인적 오류로 인한 가동 중단 등 다양한 유형의 재해가 IT 시스템에 영향을 줄 수 있습니다. 개중 일부는 예상 가능합니다. 예를 들어, 모든 기업은 사이버 공격의 표적이 될 수 있습니다. 허리케인, 지진, 홍수 등 자연재해가 발생할 가능성이 높은 지역에 기반을 둔 기업도 있습니다. 인적 오류는 발생 가능성이 높은 상수로 보아야 합니다.
요는 어떤 문제가 발생하든 대응할 준비가 되어 있어야 한다는 것입니다.
계획되지 않은 운영 중단이란 시스템이나 서비스의 예기치 못한 중단으로 인해 다운타임이 발생하고 정상적인 운영이 중단되는 것을 의미합니다. 이같은 중단은 앞서 설명한 요인들로 인해 발생할 수 있고, 매출 손실, 평판 손상, 고객 만족도 저하, 심지어 인명 손실 등 심각한 비즈니스적 결과를 초래할 수 있습니다. 계획되지 않은 운영 중단의 영향을 최소화하고 신속한 서비스 복구를 보장하기 위해서는 복구 계획을 반드시 수립해야 합니다.
클러스터 또는 클러스터 서버의 노드 간에 데이터를 복제해 대체 시스템을 서로 작동시키고 워크로드를 계속 실행할 수 있도록 만들어 주는 고가용성 기술은 매우 높은 IT 서비스 수준을 보장합니다. 고가용성 기술은 단일 장애 지점을 제거하기 위해 노력하고, 많은 경우 특정한 가동 시간 비율을 보장하는 서비스 수준 계약에 의해 뒷받침됩니다. 클라우드 컴퓨팅 분야에서 고가용성은 전력, 냉각, 스토리지, 네트워크, 서버를 포함한 물리적 인프라 보호를 포괄합니다. 애플리케이션 단위의 로드 밸런싱 소프트웨어도 높은 수준의 가동 시간을 보장하는 데 도움을 줍니다.
반면 재해 복구는 여러 장애 지점으로부터의 보호와 관련된 개념으로서, 지진이나 허리케인으로 인해 시설이 중단되는 등 극심한 장애가 발생했을 때 중요한 워크로드를 운영 상태로 복원하는 것을 목표로 합니다. 일반적으로 DR 사이트들은 지리적으로 서로 멀리 떨어져 있습니다.
고가용성 및 DR 기술 모두 포괄적 비즈니스 연속성 계획에 포함되어야 합니다.
재해 복구 계획의 주요 목표는 위기 상황에서도 각 사업부가 업무를 지속할 수 있도록 보장하는 것입니다. DR 계획에는 컴퓨팅 서비스를 신속하게 재가동하고 데이터 및 비용 손실을 제한하기 위한 프로세스들이 포함됩니다. 또한 비즈니스 연속성 및 데이터 보존에 관한 규제 요건을 충족해야 합니다.
재해 복구 계획의 2가지 주요 메트릭은 복구 시간 목표(RTO)와 복구 지점 목표(RPO)입니다. 하나의 기업이 여러 시스템을 운영하는 경우 IT 부서와 관련 사업부들 간의 서비스 수준 계약에 따라 시스템별로 서로 다른 RTO 및 RPO 요구 사항이 적용될 수 있습니다.
각 애플리케이션 또는 서비스별 RTO는 계획되지 않은 운영 중단 후 허용되는 최대 다운타임을 의미하고, RPO는 비즈니스가 허용 가능한 최대 데이터 손실량을 측정합니다. 임계값은 짧거나 작을수록 좋지만, 일반적으로는 그럴수록 더 많은 비용이 발생합니다 IT 부서는 자사가 운영하는 각 시스템별 RTO와 RPO를 설정해 비용과 중요도의 균형을 맞출 수 있습니다.
DR 계획에는 재해 발생 시의 잠재적 위험, 그로 인해 발생 가능한 운영상의 피해, 직원 및 외부 이해관계자에 대한 잠재적 영향, 결과적으로 발생 가능한 재정적 손실 또는 규제 당국의 벌금에 대한 철저한 평가 등이 포함됩니다.
기업은 DR 계획의 수립 과정에서 해당 계획을 지원해 줄 경영진과 영향받게 될 팀을 파악하고, 재해 발생 시 피해를 입을 수 있는 물리적 자산과 IT 자산을 목록화하고, 고객, 공급업체, 파트너 및 기타 이해관계자에게 미칠 수 있는 잠재적 영향을 고려해야 합니다.
IT 부서는 백업으로부터 복원할 워크로드, 라이브 데이터와 낮은 용량으로 실행되는 서비스를 결합해야 하는 워크로드, 전체 용량이 필요한 워크로드를 결정해야 합니다. 경우에 따라서는 다운된 활성 시스템이 자동으로 대기 시스템으로 전환돼 다운타임이 최소화되고 데이터 손실이 전혀 발생하지 않을 수도 있습니다. 해당하지 않는 경우에는 대기 시스템으로의 수동 전환이 필요합니다. IT 팀은 백업 사이트를 선택하고, 애플리케이션을 신속하게 재시작하기 위한 계획을 수립해야 합니다. 클라우드는 해당 과정에 큰 도움을 줍니다. 또한 기업은 운영 재개를 방해할 수 있는 IT 종속성, 즉 하나의 오프라인 애플리케이션이 다른 애플리케이션을 온라인 상태로 전환하지 못하게 하는 경우를 찾아내야 합니다.
이러한 기술적 측면 외에도 경영진 및 각 사업부는 비상 커뮤니케이션 및 대응 계획을 작성하고, 직원들에게 DR 계획을 교육하고, 테이블탑 테스트 또는 연습을 통한 테스트 및 리허설을 실시하고, DR 계획을 지속적으로 개선하기 위한 조항을 마련해야 합니다.
모든 DR 계획에는 비즈니스 운영을 중단시킬 수 있는 이벤트에 대한 위험 평가, 영향받을 수 있는 애플리케이션에 대한 영향 분석, 그로 인한 재정적 손실 추정치가 포함되어야 합니다. 비즈니스 영향 분석에는 각 애플리케이션에 대한 RTO와 RPO가 포함되어야 합니다. RTO 및 RPO를 설정 완료한 기업은 그에 부합하는 복구 계획을 수립하고, 더 높은 비용과 더 짧은 복구 시간 및 복구 지점 목표 사이에서의 균형을 잡을 수 있습니다.
백업 및 복구에 대한 접근 방식은 성능과 비용 중 어느 쪽을 중시하느냐에 따라 다음과 같이 나뉩니다.
IT 인벤토리를 작성하고, 애플리케이션 계층을 결정하고, 종속성을 매핑하는 것만으로는 충분하지 않습니다. 비즈니스가 필요로 하는 수준의 DR을 구현하기 위해서는 운영 체제부터 애플리케이션에 이르는 모든 기술이 이중화되어야 합니다. 또한 DR의 성공 여부는 정기적인 테스트에 따라 결정됩니다. 이해관계자들이 구두로 단계를 실행하는 테이블탑 테스트, IT 부서가 취할 조치에 대한 실전 테스트, 재해 시에만 사용되는 시스템 구성 요소에 대한 테스트 등 그 방식은 다양합니다.
재무 보고 및 데이터 보호 규정도 DR 계획에 영향을 미칩니다. 예를 들어 미국의 기업 재무 보고 규정인 Sarbanes-Oxley Act에는 데이터 보존 요구 사항이 규정되어 있습니다. 미국 의료보험의 양도 및 책임에 관한 법률(HIPAA)는 재난 시 전자 의료 정보에 대한 비상 계획을 요구하고, EU의 일반 데이터 보호 규정(GDPR)은 재난 발생시 시민의 개인 데이터 가용성을 보장할 것을 의무화하고 있습니다.
서비스형 재해 복구(DRaaS)는 기업이 온프레미스 데이터 센터 대신 클라우드 제공업체의 시설에 기반한 DR 계획을 수립하고 퍼블릭 클라우드 또는 하이브리드 클라우드에서 애플리케이션을 실행할 수 있도록 지원하는 클라우드 서비스입니다. 클라우드 기반 DRaaS 오퍼링을 사용하는 기업은 컴퓨팅, 데이터베이스, 애플리케이션 부하를 클라우드 리전 간에 원격으로 전환하고, 비즈니스 시스템을 재설계하거나 전문 관리 소프트웨어를 사용할 필요 없이 복구 단계를 자동화할 수 있습니다. 클라우드 제공업체의 DRaaS 솔루션은 반드시 대기 리전에서의 고가용성을 확보하고, 재해 발생시의 서비스 액세스 및 정상적 작동을 보장해야 합니다.
기업은 클라우드 기반 DR을 사용해 인프라를 파괴하는 자연재해, 랜섬웨어 공격과 같은 사이버 사고 등으로 인해 로컬 네트워크 리소스에 대한 액세스가 차단되었을 경우에 대한 데이터 복구 계획을 수립할 수 있습니다. 데이터를 지역별 클라우드에 선택적으로 저장 가능하므로 GDPR과 같은 데이터 보호 규정을 준수하는 전략을 수립할 수 있습니다. 중복 복구 사이트를 구축하는 것보다 저렴한 비용으로 이용 가능한 DRaaS는 예산이 빠듯한 경우에도 좋은 솔루션이 될 수 있습니다.
재해 복구 계획 개발 단계는 발생 가능한 재해 이벤트 예측, 각 이벤트가 IT 시스템 및 비즈니스 프로세스에 미치는 영향에 대한 위험 평가로 시작해야 합니다. 이후 IT 부서 및 사업부는 경영진의 지원을 바탕으로 자산 및 시스템별 중요도 순위를 선정하고, 원하는 RTO 및 RPO와 사용 가능한 예산을 고려해 각 시스템을 보호하기 위한 DR 전략을 수립해야 합니다. DR 계획은 재해, 사이버 공격, 기술적 오류 등으로 인한 시스템 중단 발생에서 복구까지 소요되는 시간을 단축하기 위한 광범위한 비즈니스 연속성 계획의 일부입니다. DR 계획은 지속적으로 테스트하고 업데이트해야 합니다.
기존 방식의 DR은 기업 소유의 데이터 센터에 위치한 중복 서버와 스토리지 기기를 사용하거나, 비즈니스 데이터 및 애플리케이션 인스턴스를 다른 장소의 데이터 센터에 백업하므로 한 지역에서 문제가 발생해도 멀리 떨어진 원격 복사본까지 피해가 발생할 가능성이 낮습니다. 반면 클라우드 기반 DR 전략을 사용하면 애플리케이션 인스턴스의 소규모 또는 대기 복사본을 퍼블릭 클라우드에 저장하고, 비상시 활성화해야 할 때 컴퓨팅 리소스를 추가해 확장함으로써 초기 비용을 절감할 수 있습니다. 또한 기업의 미션 크리티컬 애플리케이션을 여러 클라우드 리전에 분산할 수도 있습니다.
재해 복구 워크플로는 위기 시 시스템을 재시작하고, 데이터를 복구하고, 통신하는 데 필요한 단계 및 순서에 대한 개요를 제공합니다. DR 런북(DR runbooks)은 복구 프로세스 및 관련 설명서에 대한 추가 정보를 제공합니다. 비상시 디지털 운영을 안전하게 전환할 수 있는 따라하기 쉬운 체크리스트를 제공하고 비상시 테스트 또는 페일오버를 간단히 수행할 수 있도록 지원합니다. 기업은 워크플로 및 런북을 참고해 단계별 복구 작업을 파악하고 중요한 시스템 및 서비스 수준 계약을 식별할 수 있습니다.
DR 워크플로에는 위험 평가, 계획과 관련된 위원회, 관리 지원, 복구 전략, 테스트 절차 등이 포함되어 있습니다. 런북에는 직원들이 시간에 쫓기는 상황에서도 복구 단계를 수행할 수 있도록 지원하는 다양한 데이터베이스, 서버, 네트워킹 장비별 세부 체크리스트가 포함되어 있습니다.
재해 복구 작업은 기업의 인프라, 데이터베이스, 애플리케이션을 완전히 작동 가능한 상태로 복원하기 위한 DR 계획에 미리 규정되어 있는 각각의 단계 또는 작업을 실행하는 프로세스입니다. 페일오버(failover) 및 스위치오버(switchover)는 애플리케이션 스택의 다른 위치로의 전환을 설명하기 위한 용어입니다.
페일오버는 정전이나 장비 고장 등 예기치 못한 위기 상황에서 백업 시스템으로 신속하게 전환하는 것입니다. 애플리케이션, 데이터베이스, 가상 머신이 다운되고 스토리지, 데이터, 운영 체제 등의 리소스가 불안정한 상태에 있을 때 필요한 작업입니다.
스위치오버는 유지보수를 위해 사전 계획된 작동 중지 시간 동안 보조 시스템으로 순차적으로 전환하는 것입니다. 스위치오버를 통해 애플리케이션, 데이터베이스, 가상 머신 또는 서버를 종료할 수 있습니다. 주 리전과 대기 리전 모두 정상적으로 작동하고, IT 운영 담당자는 유지보수 또는 롤링 업그레이드를 완료하기 위해 한 리전에서 다른 리전으로 시스템을 이동시킬 수 있습니다.
기업은 클라우드 컴퓨팅의 유연성을 활용해 관련 예산을 과도하게 늘리지 않으면서도 요구 사항에 맞는 DR 전략을 구현할 수 있습니다. 일부 컴퓨팅 리소스는 온프레미스에서 실행하고 일부는 퍼블릭 클라우드에서 실행하는 하이브리드 클라우드 환경을 통해 재해 복구 비용을 낮출 수 있습니다. 마이크로서비스를 포함한 클라우드 아키텍처를 사용하면 소프트웨어 구성 요소를 분산된 가상 서버에서 실행할 수 있으므로 여러 유형의 재해에 대한 취약성을 낮출 수 있습니다.
리전 간 재해 복구 솔루션은 허리케인과 같이 특정 데이터 센터에서 호스팅되는 시스템에 대한 액세스를 중단시키는 이벤트로부터 기업을 보호해 줍니다. 이벤트 영향권 밖의 지리적으로 분리된, 내결함성 및 독립적 가용성을 갖춘 도메인에서 서비스를 지속적으로 실행할 있습니다. 가상 머신, 데이터베이스, 애플리케이션 등 특정 시스템의 전체 애플리케이션 스택을 다른 위치의 다른 클라우드 리전으로 전환할 수 있습니다.
하이브리드 클라우드는 기업이 워크로드 일부를 자체 데이터 센터에서 클라우드 인프라로 전환할 수 있는 인기있는 아키텍처입니다. 또한 재해 복구에도 사용할 수 있습니다. 하이브리드 아키텍처를 도입하기 위해서는 가상 서버에서 워크로드를 실행하는 것이 일반적이므로 클라우드 데이터센터 내의 기반 하드웨어를 운영에 영향을 주지 않는 방식으로 간단히 변경할 수 있습니다.
워크로드가 가상화되면 기본 데이터 센터를 사용할 수 없게 되더라도 클라우드 환경에서 다시 시작할 수 있습니다. 클라우드 데이터센터는 지리적으로 분산된 다수의 데이터센터를 대체하기 위한 경제적인 대안이 될 수 있습니다.
멀티클라우드 DR 솔루션은 애플리케이션의 구성 요소를 2개 이상의 공급업체별 클라우드 인프라에 분산해 애플리케이션과 데이터를 보호합니다. 이는 2개 이상의 클라우드 공급업체를 사용 중인 기업에 적합한 전략으로서 다양한 애플리케이션별 복구 시간 및 지점 목표 설정, 비용 관리, 지리적 분산 결정을 지원합니다. 멀티클라우드 DR 프로세스는 서비스 및 애플리케이션의 개발 방식에서 파생될 수도 있습니다.
재해 복구 오케스트레이션 및 관리 서비스는 인프라, 데이터베이스, 미들웨어 등 애플리케이션 스택의 모든 계층을 위한 포괄적 DR을 제공합니다. DRaaS를 사용하면 재해 복구 워크플로를 신속히 실행해 다수의 리전의 애플리케이션 스택을 복원함으로써 인적 오류를 줄이고 복구 시간을 최소화할 수 있습니다.
Oracle Cloud Infrastructure(OCI) Full Stack Disaster Recovery 고객은 세계 각국의 OCI 리전 간의 인프라, 데이터베이스, 애플리케이션 전환을 직접 관리할 수 있습니다. OCI Full Stack Disaster Recovery는 기존의 인프라, 데이터베이스, 애플리케이션을 재설계하거나 재배포할 필요 없는 풀 스택 DR을 제공하고, 특수 스토리지 또는 관리 서버를 요구하지 않습니다.
재해 복구가 기업 운영의 중요한 요소인 이유는 무엇인가요?
계획되지 않은 운영 중단은 기업에 많은 비용을 발생시킵니다. IT 자문 그룹인 Uptime Institute에 따르면 관련 사례의 3분의 2 이상이 10만 달러 이상의, 4분의 1은 100만 달러 이상의 비용을 발생시켰습니다.
재해 복구 계획의 주요 구성 요소로는 어떤 것들이 있나요?
재해 복구 계획에는 백업 사이트를 선택하거나, 운영을 신속하게 재개할 수 있는 방식으로 퍼블릭 클라우드에 컴퓨팅 워크로드를 배포하기 위한 기업의 전략이 포함됩니다. 또한 기업은 중요도를 기준으로 미션 크리티컬 비즈니스 애플리케이션별 우선 순위를 선정하고, 소프트웨어를 다시 온라인 상태로 전환하는 과정을 방해할 수 있는 미션 크리티컬 애플리케이션 간의 종속성을 매핑해야 합니다.
재해 복구와 데이터 백업의 차이는 무엇인가요?
원격 서버나 사이트에 데이터를 백업하는 것은 재해 복구의 한 방법이지만, 최신 DR 계획은 훨씬 더 많은 요소로 구성됩니다. 기업은 데이터 복제와 서비스 가용성 간의 균형을 유지해 비용을 절감하고, 소규모 대기 인스턴스에서 애플리케이션을 재시작할 수 있는 기술 전략을 고려해야 합니다.
클라우드 컴퓨팅은 재해 복구에 어떤 영향을 미치나요?
클라우드 기술은 클라우드 리전을 서로 격리되고 내결함성을 갖춘 가용성 도메인으로 분리해 재해 발생 시 안전장치를 제공합니다. 기업은 고가용성 및 재해 복구를 위해 클라우드 공급업체가 제공하는 시설 및 유틸리티를 사용해 자사의 시스템을 복제할 수 있습니다.
구매를 고려하고 계십니까?
영업팀에 전화영업 팀과 채팅계정/구독, 프로모션 문제
채팅 시작기술 지원 또는 기타 지원 요청이 필요하십니까?
지원 옵션 보기