데이터 웨어하우스란 무엇인가?

데이터 웨어하우스의 정의

데이터 웨어하우스는 비즈니스 인텔리전스(BI) 활동, 특히 분석을 활성화 및 지원하기 위해 설계된 데이터 관리 시스템의 한 유형입니다. 데이터 웨어하우스는 쿼리 및 분석을 수행하기 위한 용도로만 사용되며 종종 많은 양의 기록 데이터를 포함합니다. 데이터 웨어하우스 내의 데이터는 일반적으로 애플리케이션 로그 파일 및 트랜잭션 애플리케이션과 같은 광범위한 소스에서 파생됩니다.

데이터 웨어하우스는 여러 소스로부터 얻은 대량의 데이터를 중앙 집중화 및 통합합니다. 데이터 웨어하우스의 분석 기능을 통해 조직은 데이터에서 귀중한 비즈니스 인사이트를 도출하여 의사결정을 개선할 수 있습니다. 시간이 지나면서 데이터 웨어하우스는 데이터 과학자와 비즈니스 분석가에게 귀중하게 쓰일 기록 레코드를 구축하게 됩니다. 이와 같은 기능 덕분에 기업은 데이터 웨어하우스를 SSOT로 취급하기도 합니다.


데이터 웨어하우스 비디오

 

전형적인 데이터 웨어하우스는 종종 다음과 같은 요소를 포함합니다:

  • 데이터를 저장 및 관리하기 위한 관계형 데이터베이스
  • 분석용 데이터 준비를 위한 ELT(추출,로드 및 변환) 솔루션
  • 통계 분석,보고 및 데이터 마이닝 기능
  • 데이터를 시각화하고 비즈니스 사용자에게 제공하기 위한 클라이언트 분석 도구
  • 데이터 과학 및 인공지능(AI) 알고리즘 또는 그래프를 적용하여 즉시 실행 가능한 정보를 생성하는 보다 정교한 분석 애플리케이션 및 대규모로 다양한 종류의 데이터 분석을 가능케 하는 공간 분석 기능

기업 조직은 또한 트랜잭션 처리, 데이터 웨어하우스 및 데이터 레이크 전반에서의 실시간 분석, 머신러닝 기능을 하나의 MySQL Database 서비스에 결합한 솔루션을 선택할 수도 있습니다. 덕분에 추출, 변환 및 로드(ETL) 중복으로 인한 복잡성, 대기 시간, 비용 및 위험 부담은 발생하지 않죠.

데이터 웨어하우스의 이점

데이터 웨어하우스는 조직이 대량의 이형 데이터를 분석하고, 그로부터 중요한 가치를 추출하고, 기록 데이터를 보관할 수 있게 해주는 대단히 중요하면서도 특별한 이점을 제공합니다.

데이터 웨어하우스의 아버지로 불리는 컴퓨터 과학자 William Inmon이 설명한 네 가지 고유한 특성 덕분에 데이터 웨어하우스는 이와 같이 중요한 이점을 제공할 수 있습니다. 이 정의에 따르면 데이터 웨어하우스는 다음과 같은 특성을 지닙니다.

  • 절차 지향적(Subject-oriented). 데이터 웨어하우스는 특정 절차 또는 기능 영역(예: 영업)에 대한 데이터를 분석할 수 있습니다.
  • 통합. 데이터 웨어하우스는 이질적인 소스로부터 얻은 다양한 데이터 유형 간에 일관성을 생성합니다.
  • 비 휘발성. 일단 데이터 웨어하우스에 저장되면, 데이터는 안정적인 상태가 되며 변경되지 않습니다.
  • 시간 변이적. 데이터 웨어하우스 분석은 시간 경과에 따른 변화를 확인합니다.

탄탄하게 설계된 데이터 웨어하우스는 쿼리를 매우 신속하게 수행하고, 높은 데이터 처리율을 제공하고, 최종 사용자가 전체적으로든 매우 세밀한 수준에서든 다양한 요구를 충족시키기 위한 상세한 검사를 수행할 수 있도록 데이터를 슬라이싱/다이싱 처리하거나 데이터 볼륨을 충분히 줄일 수 있는 유연성을 제공합니다. 데이터 웨어하우스는 최종 사용자에게 보고서, 대시보드 및 기타 인터페이스를 제공하는 미들웨어 BI 환경의 기능적 기반 역할을 합니다.

데이터 웨어하우스 아키텍처

데이터 웨어하우스의 아키텍처는 각 조직 고유의 요구 사항에 따라 결정됩니다. 공통 아키텍처의 특성에는 다음이 포함됩니다.

  • 단순성. 모든 데이터 웨어하우스는 메타데이터, 요약 데이터 및 원시 데이터가 웨어하우스의 중앙 저장소에 저장되는 기본 설계를 공유합니다. 저장소의 한쪽 끝으로 데이터 소스가 공급되고 다른 쪽 끝을 통해 최종 사용자가 액세스해 분석, 보고 및 마이닝을 수행합니다.
  • 준비 영역을 갖춘 단순성. 운영 데이터는 웨어하우스에 넣기 전에 먼저 정리 및 처리해야 합니다. 이와 같은 절차 역시 프로그래밍 방식으로 수행할 수 있긴 하지만 많은 데이터 웨어하우스가 데이터 준비 과정을 단순화하기 위해 데이터가 웨어하우스에 저장되기 전에 데이터를 위한 준비 영역을 추가합니다.
  • 허브 및 스포크. 중앙 저장소와 최종 사용자 사이에 데이터 마트를 추가하면 조직에서 데이터 웨어하우스를 사용자 정의하여 다양한 LOB(업무 라인)에 서비스를 제공할 수 있습니다. 데이터 사용 준비가 완료되면, 데이터는 적합한 데이터 마트로 옮겨집니다.
  • 샌드박스. 샌드박스는 기업이 데이터 웨어하우스의 공식 규칙 및 프로토콜을 따르거나 준수할 필요 없이 새 데이터 세트 또는 데이터 분석 방법을 신속하고 비공식적으로 탐색할 수 있게 해주는 안전한 전용 보안 영역입니다.

데이터 웨어하우스의 진화—데이터 분석에서 AI 및 머신러닝으로

데이터 웨어하우스가 1980년대 후반에 처음 등장했을 때 그 목적은 운영 시스템에서 DSS(의사 결정 지원 시스템)로 이동하는 데이터의 흐름을 돕는 것이었습니다. 이러한 초기 데이터 웨어하우스에는 엄청난 양의 중복성이 필요했습니다. 대부분의 조직은 다양한 사용자에게 서비스를 제공하는 여러 DSS 환경을 보유합니다. DSS 환경이 대체로 동일한 데이터를 사용하긴 했지만 각 환경마다 데이터 수집, 정리 및 통합 과정이 종종 중복적으로 발생하기도 했습니다.

데이터 웨어하우스에 효율성이 더해짐에 따라, 이제 데이터 웨어하우스는 전통적인 BI 플랫폼을 지원하던 정보 저장소에서 운영 분석, 성능 관리 등 다양한 애플리케이션을 지원하는 방대한 분석 인프라로 진화했습니다.

데이터 웨어하우스는 시간이 지나면서 엔터프라이즈 데이터 웨어하우스(EDW)를 통해 비즈니스에 점점 더 많은 부가 가치를 제공하는 방향으로 발전해 왔습니다.

단계 기능 비즈니스 가치
1 트랜잭션 보고 비즈니스 성과의 스냅샷 생성을 위한 관계형 정보 제공
2 슬라이스 앤 다이스, 임시 쿼리, BI 도구 보다 심도있는 인사이트 및 더욱 강력한 분석을 위한 기능 확장
3 미래 성능 예측(데이터 마이닝) 시각화 및 미래 지향적인 비즈니스 인텔리전스 개발
4 전술적 분석(공간, 통계) 보다 종합적인 분석을 기반으로 실용적인 의사결정을 내릴 수 있도록 What-If 시나리오 제공
5 수개월 또는 수년간의 데이터 저장 몇 주 또는 몇 달 동안만 데이터 저장

이 다섯 단계를 각각 지원하기 위해 더욱 다양한 데이터 세트가 필요하게 되었습니다. 특히 마지막 세 단계는 훨씬 더 광범위한 데이터 및 분석 기능에 대한 필수 항목들을 생성합니다.

오늘날 AI와 머신러닝은 거의 모든 산업과 서비스, 엔터프라이즈 자산을 변화시키고 있습니다. 데이터 웨어하우스도 예외는 아닙니다. 빅 데이터의 확장과 새로운 디지털 기술의 적용은 데이터 웨어하우스 요구 사항 및 기능의 변화를 주도하고 있습니다.

자율운영 데이터 웨어하우스는 이 진화의 가장 최근 단계로, 기업에게 데이터로부터 더 큰 가치를 창출하는 동시에, 비용을 낮추고 데이터 웨어하우스의 안정성과 성능을 향상시킬 수 있는 능력을 제공합니다.

자율운영 데이터 웨어하우스에 대해 자세히 알아보고 자신만의 자율운영 데이터 웨어하우스를 시작해 보세요.

데이터 웨어하우스, 데이터 마트 및 운영 데이터 저장소

데이터 웨어하우스, 데이터 마트 및 운영 데이터 저장소는 서로 유사한 역할을 수행하긴 하지만, 데이터 웨어하우스는 데이터 마트 및 운영 데이터 저장소(ODS)와 다릅니다. 데이터 마트는 기능 면에서는 데이터 웨어하우스와 동일하나 적용 범위가 보통 단일 부서나 LOB로 제한됩니다. 덕분에 데이터 마트 데이터 웨어하우스보다 쉽게 구축할 수 있습니다. 그러나 수많은 데이터 마트에서 데이터를 균일하게 관리하고 제어하기가 어려울 수 있기 때문에 불일치가 발생하는 경향이 있습니다.

ODS는 일일 작업만 지원하므로 기록 데이터 보기가 매우 제한적입니다. ODS는 현재 데이터 소스로서의 역할을 수행하고, 데이터 웨어하우스에서도 종종 데이터 소스로 사용되지만 풍부한 기록이 담긴 쿼리를 지원하지 않습니다.

클라우드 데이터 웨어하우스란 무엇인가?

클라우드 데이터 웨어하우스는 클라우드를 사용하여 다양한 데이터 소스로부터 데이터를 수집 및 저장합니다.

원래 데이터 웨어하우스는 온프레미스 서버 내에 구축되었습니다. 이러한 온프레미스 데이터 웨어하우스는 오늘날에도 유용한 다양한 이점을 보유하고 있습니다. 많은 경우 향상된 거버넌스, 보안성, 데이터 주권, 개선된 대기시간을 제공합니다. 그러나 온프레미스 데이터 웨어하우스는 탄력적이지 않기 때문에, 미래 수요에 대비해 데이터 웨어하우스를 확장하려면 복잡한 예측 과정을 거쳐야 합니다. 온프레미스 데이터 웨어하우스는 관리도 매우 복잡할 수 있습니다.

반면 클라우드 데이터 웨어하우스는 다음을 포함한 이점들을 가지고 있습니다:

최고의 클라우드 데이터 웨어하우스는 완전 관리형 및 자율 운영 방식의 데이터 웨어하우스이므로 초보자도 몇 번의 클릭만으로 데이터 웨어하우스를 생성하고 사용할 수 있습니다. 클라우드 데이터 웨어하우스로의 마이그레이션을 시작하는 손쉬운 방법은 클라우드 데이터 웨어하우스를 온프레미스에서, 다시말해 귀사의 데이터 센터 방화벽 내에서 실행하는 것입니다. 이렇게 하면 데이터 주권 및 보안 요구사항을 모두 준수할 수 있습니다.

또한 대부분의 클라우드 데이터 웨어하우스는 Pay-As-You-Go 모델을 따르기 때문에 고객은 추가적인 비용 절감 효과를 누릴 수 있습니다.

모던 데이터 웨어하우스란 무엇인가?

IT, 데이터 엔지니어링, 비즈니스 분석, 데이터 과학 등 소속 팀을 막론하고 조직 전반의 사용자들은 저마다 데이터 웨어하우스에 대해 다양한 요구 사항을 가지고 있습니다.

모던 데이터 아키텍처는 모든 데이터 유형, 워크로드 및 분석에 대한 관리 방법을 제공하여 다양한 요구 사항을 해결합니다. 모던 데이터 아키텍처는 업계 모범 사례와 연계하여 작동하는 데 필요한 구성요소가 통합된 아키텍처 패턴으로 구성됩니다. 모던 데이터 웨어하우스에는 다음이 포함됩니다.

  • 모든 데이터 유형의 관리를 간소화하고 다양한 데이터 사용 방법을 제공하는 컨버지드 데이터베이스
  • 셀프 서비스 데이터 수집 및 변환 서비스
  • SQL, 머신러닝, 그래프 및 공간 처리 지원
  • 데이터를 옮기지 않고도 쉽게 사용할 수 있게 해주는 여러 분석 옵션
  • 간편한 프로비저닝, 확장 및 관리를 위한 자동화된 관리

모던 데이터 웨어하우스는 다른 웨어하우스는 할 수 없는 방식으로 데이터 워크플로를 효율적으로 간소화할 수 있습니다. 다시 말해 분석가, 데이터 엔지니어, 데이터 과학자, IT 팀 등 모든 사람이 작업을 더 효과적으로 수행하고 지연이나 복잡성 없이 조직의 발전을 위한 혁신적인 작업을 추구할 수 있다는 얘기죠.

데이터 웨어하우스 디자인하기

데이터 웨어하우스 설계를 시작할 때, 조직은 반드시 자사만의 비즈니스 요구 사항을 정의하고, 설계 범위를 협의하고, 개념적 설계의 초안을 작성해야 합니다. 그런 다음에야 데이터 웨어하우스를 위한 논리적 및 물리적 디자인을 생성할 수 있습니다. 논리적 디자인에는 개체 간의 관계가 포함되고, 물리적 디자인에는 개체를 저장 및 검색하기 위한 최선의 방법이 포함됩니다. 물리적 디자인에는 이전, 백업 및 복구 프로세스도 포함됩니다.

어떤 데이터 웨어하우스를 설계하든 다음 사항을 반드시 고려해야 합니다.

  • 특정 데이터 콘텐츠
  • 데이터 그룹 내 및 데이터 그룹 간의 관계
  • 데이터 웨어하우스를 지원할 시스템 환경
  • 필요한 데이터 변환 유형
  • 데이터 새로 고침 빈도

디자인 시 고려해야 하는 가장 중요한 요소는 최종 사용자의 요구 사항입니다. 대부분의 최종 사용자는 분석 수행 및 개별 트랜잭션이 아닌 집계된 데이터의 확인에 관심이 있습니다. 그러나 종종 최종 사용자는 특정 요구 사항이 발생할 때까지 자신이 원하는 것이 무엇인지 알지 못하기도 합니다. 따라서 계획 수립 프로세스에는 요구 사항을 예상하기 위한 충분한 탐색 과정도 포함되어야 합니다. 마지막으로, 데이터 웨어하우스 설계에는 최종 사용자의 변화하는 요구 사항에 보조를 맞추기 위한 확장 및 진화의 여지가 반영되어야 합니다.

클라우드 및 데이터 웨어하우스

클라우드의 데이터 웨어하우스는 온프레미스 데이터 웨어하우스와 동일한 특성과 이점을 제공하면서, 동시에 유연성, 확장성, 민첩성, 보안 및 비용 절감과 같은 클라우드 컴퓨팅의 추가 이점까지 제공합니다. 클라우드 데이터 웨어하우스를 사용하면 기업이 데이터 웨어하우스를 지원하기 위해 하드웨어 및 소프트웨어 인프라를 구축하거나 관리할 필요 없이 데이터에서 가치를 추출하는 데에만 집중할 수 있습니다.

데이터 레이크가 꼭 필요한가요?

조직은 다양한 소스로부터 얻은 대용량 데이터에 데이터 레이크와 데이터 웨어하우스 모두를 사용합니다. 둘 중 어떤 것을 언제 사용할지는 조직이 해당 데이터를 어떻게 활용할지에 따라 결정됩니다. 다음은 데이터 레이크 및 데이터 웨어하우스의 최적의 사용법에 대한 설명입니다.

  • 데이터 레이크는 추후에 특정한 용도로 사용될, 필터링되지 않은 이질적인 데이터를 대량으로 저장합니다. LOB 애플리케이션, 모바일 앱, 소셜 미디어, IoT 기기 등에서 얻은 데이터는 데이터 레이크에서 원시 데이터로 수집됩니다. 다양한 데이터 세트의 구조, 무결성, 선택 및 형식은 분석이 수행되는 시점에 분석자에 의해 생성됩니다. 추후에 특정한 용도로 사용할, 여러 소스로부터 얻은 비형식, 비정형 데이터를 위한 저비용 스토리지가 필요한 경우, 데이터 레이크가 올바른 선택일 수 있습니다.
  • 데이터 웨어하우스는 특히 데이터 분석 용도로 설계되었습니다. 데이터 웨어하우스 내 분석 처리 과정은 분석 기반 인사이트의 생성을 위해 준비, 수집, 컨텍스트화 및 변형된 데이터를 대상으로 수행됩니다. 데이터 웨어하우스는 또한 다양한 소스로부터 얻은 대량의 데이터를 거뜬하게 처리합니다. 기업 전반의 여러 소스로부터 기록 데이터를 가져오는 고급 데이터 분석 기법 또는 분석이 필요한 경우, 데이터 웨어하우스가 올바른 선택일 가능성이 높습니다.

OLTP 환경에 대한 분석을 실행하지 않는 이유는 무엇인가요?

데이터 웨어하우스는 데이터 분석, 그중에서도 특히 기록 데이터의 분석에 사용되는 관계형 환경입니다. 조직은 데이터 웨어하우스를 사용하여 시간의 경과에 따라 변화하는 데이터의 패턴과 데이터 간의 관계를 발견할 수 있습니다.

반대로 트랜잭션 환경은 트랜잭션의 지속적인 처리에 사용되며, 일반적으로 주문 입력과 재무 및 소매 거래에 사용됩니다. 트랜잭션 환경은 기록 데이터를 기반으로 구축되지 않습니다. 실제로 OLTP 환경에서 기록 데이터는 성능 개선을 위해 보관되거나 아예 삭제되는 경우도 많습니다.

데이터 웨어하우스와 OLTP 시스템은 전혀 다릅니다.

데이터 웨어하우스 OLTP 시스템
워크로드 임시 쿼리 및 데이터 분석 수용 사전 정의된 작업만 지원
데이터 수정 정기적인 자동 업데이트 개별 명세서를 발행한 최종 사용자에 의한 업데이트
스키마 디자인 부분적으로 비정규화된 스키마를 사용해 성능 최적화 완전히 정규화된 스키마를 사용해 데이터 일관성 보장
데이터 스캐닝 수천에서 수백만 개의 행 포함 한 번에 소수의 레코드에만 액세스
기록 데이터 수개월 또는 수년간의 데이터 저장 몇 주 또는 몇 달 동안만 데이터 저장

복잡성이 1도 없는 배포: 자율운영 데이터 웨어하우스

가장 최신 형태의 데이터 웨어하우스는 수동 작업을 없애고, 설정, 배포, 데이터 관리를 간소화하기 위해 AI 및 머신러닝을 활용하는 자율운영 데이터 웨어하우스입니다. 클라우드에서 운영되는 서비스형 자율운영 데이터 웨어하우스는 사람이 직접 데이터베이스를 관리하거나, 하드웨어를 구성/관리할 필요도, 소프트웨어를 설치할 필요도 없습니다.

데이터 웨어하우스의 생성, 데이터베이스의 백업, 패치 작업 및 업그레이드, 데이터베이스의 확장 또는 축소 작업이 모두 자동으로 수행되며, 클라우드 플랫폼이 제공하는 것과 동일한 수준의 유연성, 확장성, 민첩성 및 비용 절감 효과를 제공합니다. 자율운영 데이터 웨어하우스는 복잡성을 없애고, 배포 속도를 높이고, 리소스 문제를 해소해 조직이 비즈니스에 가치를 더하는 활동에만 집중할 수 있게 해줍니다.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse는 탄력적인 확장성과 빠른 쿼리 성능을 제공하고, 데이터베이스 관리의 필요성을 없앤, 사용이 손쉬운 완전 자율운영 데이터 웨어하우스입니다. Oracle Autonomous Data Warehouse 설정 과정 역시 매우 간단하고 빠르죠.

Snowflake 대신 Oracle Autonomous Data Warehouse를 선택하는 이유

  • 자동화. 데이터베이스 관리를 완전 자동화하는 유일한 데이터 웨어하우스입니다.
  • 사용 편의성. Autonomous Data Warehouse 솔루션은 추가 독립형 서비스의 필요성을 없애주는 내장 기능들 덕분에 배포와 관리가 더욱 간편합니다.
  • 솔루션 비용. Oracle의 모던 데이터 웨어하우스와 향상된 기능은 워크로드 요구사항에 비례하는 비용을 청구합니다.
  • 데이터 보안. Oracle은 고객의 데이터를 사이버 위협으로부터 보호하는 보다 강력한 내장 보안 프로토콜을 제공합니다.
  • 데이터 거버넌스. Oracle의 데이터 웨어하우스 플랫폼은 조직이 데이터 주권 니즈를 보다 매끄럽게 관리할 수 있게 지원합니다.