데이터 레이크란 무엇인가?

데이터 레이크 정의

데이터 레이크를 간단히 정의하자면 구조적 및 비구조적 데이터를 저장하는 장소이자 다양한 소스에서 가져온 매우 다양한 대용량 데이터를 구성하는 방법입니다.

데이터 레이크는 특히 비즈니스와 기술 분야에 있는 사람들이 광범위한 데이터 탐색 및 검색을 수행하려고 하면서 점점 더 중요해지고 있습니다. 데이터를 단일 장소로 함께 가져오거나 대부분의 데이터를 단일 장소로 가져가면 더욱 간단해집니다.

플랫폼에 따라 데이터 레이크를 사용하면 훨씬 더 쉽게 수행할 수 있습니다. 비구조적 및 다중 구조적 데이터와 같은 많은 데이터 구조를 처리할 수 있으므로 데이터에서 가치를 도출할 수 있습니다.

데이터 레이크 및 데이터 웨어하우스

데이터 레이크와 데이터 웨어하우스 비교

데이터 레이크와 데이터 웨어하우스의 주요 차이점은 데이터 레이크는 데이터를 매우 빠르게 수집하여 나중에 사람들이 데이터에 액세스할 때 즉시 준비하는 경향이 있습니다. 반면 데이터 웨어하우스는 데이터를 데이터 웨어하우스에 넣기 전에 미리 매우 신중하게 준비합니다.

사용자는 최대한 빨리 데이터를 데이터 레이크로 수집하려는 경향이 있으므로 특히 운영 보고, 분석, 비즈니스 모니터링과 관련된 운영 사용 사례가 있는 기업은 최신 데이터를 얻고자 합니다. 이를 통해 최신 데이터에 액세스하고 최신 정보를 확인할 수 있습니다.

데이터 레이크를 사용하면 사용자가 종종 데이터를 변경하지 않고 원래 형식으로 데이터를 입수할 수 있습니다. 이는 속도상의 이유일 수 있지만, 자세한 소스 데이터에 따라 달라질 수 있는 고급 분석을 수행하고자 하는 등의 다른 이유일 수도 있습니다. 이는 다음과 같은 여부에 관계없이 모든 종류의 마이닝을 기반으로 하는 분석입니다.

  • 텍스트 마이닝
  • 데이터 마이닝
  • 통계 분석
  • 클러스터와 관련된 모든 요소
  • 그래프 분석

데이터 레이크 사용 사례

데이터 레이크가 제공할 수 있는 이점을 모두 제공하려면 적절한 솔루션이 다음과 같은 더 나은 방법을 제공할 수 있어야 합니다.

  • 수집 및 변환: 종류와 형식이 다양한 데이터 이동 및 변환
  • 유지 및 액세스: 데이터가 안전하고, 쉽게 검색하고, 필요에 따라 쉽게 확장하고, 제품 전반에서 필요에 따라 액세스할 수 있는지 확인합니다.
  • 데이터 과학 분석 및 사용: 데이터 내에서 인사이트 및 추세 발견

데이터 레이크는 더 큰 데이터 관리 플랫폼에 포함되어 있을 때 더 유용하며 더 강력한 데이터 레이크를 위해 기존 데이터 및 도구와 잘 통합되어야 합니다.

옴니채널 마케팅 데이터 레이크

데이터 레이크를 사용하여 데이터 웨어하우스를 확장하는 일은 다중 채널 마케팅이라고도 하는 옴니채널 마케팅에서 흔히 볼 수 있습니다. 마케팅에서 데이터 에코시스템을 고려하는 방식은 모든 채널이 자체 데이터베이스일 수 있고 모든 접점도 마찬가지일 수 있다는 것입니다. 또한 많은 마케터가 제3자로부터 데이터를 구매합니다.

예를 들어 마케터는 고객과 예상 고객에 대한 추가 인구 통계 및 소비자 선호도 정보가 있고 마케터가 각 고객에 대한 전체 보기를 작성할 수 있도록 도와주는 데이터를 구매할 수 있습니다. 그러면 더욱 맞춤화되고 대상이 지정된 마케팅 캠페인을 만들 수 있습니다.

이는 복잡한 데이터 에코시스템으로, 항상 볼륨과 복잡성이 커지고 있습니다. 데이터 레이크는 여러 채널과 접점에서 들어오는 데이터를 캡처하기 위해 자주 사용됩니다. 그리고 이 중 일부는 실제로 스트리밍 데이터입니다.

고객에게 스마트폰 앱을 제공하는 기업은 고객이 해당 앱을 사용할 때 해당 데이터를 실시간 또는 실시간에 가깝게 수신할 수 있습니다. 대부분의 경우 해당 기업은 실제로 완전한 실시간이 필요하지 않으며 한 두 시간이 될 수 있습니다. 그러나 이를 통해 마케팅 부서는 비즈니스를 매우 세부적으로 모니터링하고 특별 상품, 인센티브, 할인, 마이크로 캠페인을 만들 수 있습니다.

디지털 공급망 데이터 레이크

디지털 공급망은 똑같이 다양한 데이터 환경이며 데이터 레이크는 특히 데이터 레이크가 Hadoop에 있을 때 도움을 줄 수 있습니다. Hadoop은 원래 웹 서버에서 오는 매우 크고 많은 로그 파일용으로 설계되었으므로 주로 파일 기반 시스템입니다. 공급망에는 대용량 파일 기반 데이터가 있는 경우가 많습니다. EDI 시스템, XML은 물론 오늘날 디지털 공급망에서 매우 강력하게 등장한 JSON의 파일 기반 및 문서 기반 데이터를 생각해 보세요. 이는 매우 다양한 정보입니다.

고려할 내부 정보도 있습니다. 제조업체는 종종 현장 데이터와 공급망과 관련성이 높은 배송 및 청구 데이터를 보유하고 있습니다. 이 레이크는 제조업체가 해당 데이터를 통합하고 파일 기반 방식으로 관리하도록 지원할 수 있습니다.

사물 인터넷 데이터 레이크

사물 인터넷은 일부 기업에서 거의 매일 새로운 데이터 소스를 만들고 있습니다. 물론 이러한 소스가 다양해지면서 훨씬 더 많은 데이터가 생성됩니다. 갈수록 더 많은 기계에는 늘 센서가 더 많이 있습니다. 예를 들어 이와 같은 모든 철도 화물 또는 트럭 화물 차량에는 센서가 많이 있으므로 기업은 차량 작동 방식 외에도 공간과 시간을 통해 해당 차량을 추적할 수 있습니다. 안전하게 작동합니까? 연료 소비량에 비해 최적의 방식으로 운영됩니까? 방대한 정보가 이러한 곳에서 나오고 있으며 데이터 레이크는 모든 데이터를 위한 리포지토리를 제공하므로 인기가 매우 많습니다.

단일 데이터 레이크

이는 이제 특정 부서나 IT 프로그램에서 데이터 레이크를 상당히 표적화한 사용 예시이지만, 중앙 집중식 IT 부서에서 다중 테넌트인 단일 대규모 데이터 레이크를 제공하는 다양한 접근 방식이 있습니다. 여러 부서, 사업부 및 기술 프로그램에서 사용할 수 있습니다. 사람들이 레이크에 익숙해지면서 다양한 사용 및 운영, 분석, 규정 준수를 위해 레이크를 최적화하는 방법을 파악합니다.

다양한 종류의 데이터 레이크 플랫폼

데이터 레이크는 여러 방법으로 사용할 수 있으며 그 아래에 있을 수 있는 다양한 플랫폼을 포함하고 있습니다. Hadoop은 가장 일반적이지만, 유일한 플랫폼은 아닙니다.

Hadoop

Hadoop은 매력적입니다. 선형 확장성이 있는 것으로 입증되었습니다. 예를 들어 관계형 데이터베이스보다 확장성 비용이 저렴합니다. 그러나 Hadoop은 단순히 저렴하기만 한 스토리지가 아닙니다. 강력한 처리 플랫폼이기도 합니다. 또한 알고리즘 분석을 수행하려는 사용자에게는 Hadoop이 매우 유용할 수 있습니다.

관계형 데이터베이스 관리 시스템

관계형 데이터베이스 관리 시스템은 데이터 레이크를 위한 플랫폼일 수도 있습니다. 일부 사람들은 구조적이면서 관계형인 레이크에 넣고자 하는 방대한 양의 데이터를 보유하고 있기 때문입니다. 따라서 데이터가 기본적으로 관계형 데이터라면 데이터 레이크에 대한 DBMS 접근 방식이 완벽할 것입니다. 또한 SQL 또는 복잡한 테이블 조인과 같은 관계형 기능을 수행하려는 사용 사례가 있다면 RDBMS가 매우 적합합니다.

클라우드 기반 스토리지

그러나 이러한 추세는 클라우드 기반 시스템, 특히 클라우드 기반 스토리지를 지향하고 있습니다. 클라우드의 큰 이점은 탄력적인 확장성입니다. 워크로드가 확장하면서 서버 리소스와 기타 리소스를 마샬링할 수 있습니다. 또한 많은 온-프레미스 시스템과 비교하면 클라우드는 비용이 적게 들 수 있습니다. 그중 일부는 시스템 통합이 없기 때문입니다.

온-프레미스에서 작업을 수행하려는 경우에는 자신이나 다른 누군가가 몇 달 동안 시스템 통합을 수행해야 하는 반면, 많은 시스템에서는 이미 통합된 클라우드 제공업체가 있습니다. 기본적으로 라이선스를 구매하면 몇 개월이 아니라 몇 시간 이내에 가동할 수 있습니다. 또한 데이터 레이크 모범 사례에 관한 이전 게시물에서 언급한 클라우드 개체 저장소 접근 방식에는 많은 이점이 있습니다.

물론 데이터 레이크와 함께 플랫폼의 하이브리드 조합을 가질 수 있습니다. 논리적 데이터 웨어하우스에 대해 잘 알고 있다면 논리적 데이터 웨어하우스와 유사한 논리적 데이터 레이크를 가질 수 있습니다. 여기에서 데이터가 여러 플랫폼에 물리적으로 분산됩니다. 그리고 통합 질의 또는 광범위한 분석 질의를 위한 데이터 가상화에 적합한 특별한 도구가 필요한 경우처럼 몇 가지 문제가 있습니다.

그러나 이 기술은 도구 수준에서 사용할 수 있으며 많은 사람이 사용하고 있습니다.

데이터 레이크하우스는 데이터 레이크의 미래인가?

기업은 데이터에서 더 많은 가치를 추출하기 위해 항상 경계를 허물고 있습니다. 클라우드 기반 컴퓨팅을 통해 이제 데이터 레이크 기술과 데이터 웨어하우스를 '데이터 레이크하우스'라고 하는 단일 아키텍처로 결합하는 경우가 많습니다. 데이터 레이크하우스의 이점에는 더 나은 통합, 데이터 이동 감소, 향상된 데이터 거버넌스, 더 많은 사용 사례 지원이 포함됩니다.

데이터 레이크 만들기

데이터 레이크는 다양한 소스에서 다양한 대용량 데이터를 모두 구성할 수 있는 해답입니다. 그리고 데이터 레이크를 사용할 준비가 되었다면 바로 시작할 수 있도록 Oracle Free Tier를 제공할 수 있습니다.