OCI Data Lake는 향상된 데이터 거버넌스를 지원하는 완전 관리형 데이터 레이크 서비스입니다. 중앙화된 관리 시스템을 통해 데이터 레이크에 사용자 데이터를 저장하고, 보안 태세를 관리할 수 있습니다. 사용자는 데이터를 레이크에 간단히 수집하고 분석할 수 있습니다. 사용자 및 애플리케이션 관련 데이터를 전사적으로 끊김없이 공유하고, 데이터 레이크에 저장된 개체별로 세분화된 액세스 제어를 적용 가능합니다. 데이터 레이크에 저장된 데이터를 사용하는 내장 엔진들은 사전 정의된 액세스 제어 규칙을 준수합니다.
OCI Data Lake를 사용하면 정형, 반정형, 비정형 데이터를 모두 저장 및 관리할 수 있습니다. OCI Data Lake는 데이터 관리를 위한 모든 니즈를 충족시켜 주는 단일 창구를 제공합니다. 본 서비스의 사용자는 세분화된 보안 태세를 갖춘 데이터 레이크를 단 몇 분 만에 구축할 수 있습니다. 또한 OCI Data Lake와 다른 OCI 서비스들과의 면밀한 통합 체계를 활용하여 데이터 레이크에 저장된 데이터를 간단히 수집, 처리, 분석할 수 있습니다.
OCI Data Lake는 OCI Data Integration과의 통합 체계를 바탕으로 데이터를 레이크로 간단히 수집할 수 있는 노 코딩 솔루션을 제공합니다. OCI Data Lake가 생성되면, OCI Data Catalog가 해당 데이터 레이크에 저장된 엔티티들을 자동 수집하여 데이터 관리자의 검색을 지원합니다. OCI Data Lake는 데이터 처리 및 분석 워크로드 실행 과정에서 OCI Data Flow, Oracle Big Data, OCI Data Science 노트북과 원활하게 연동됩니다. Autonomous Data Warehouse를 통해 레이크에 저장된 데이터를 쿼리할 수 있습니다.
외부 또는 관리형 마운트를 생성하여 파일 모델에 데이터를 저장하는 옵션, 데이터 레이크에 테이블을 생성하여 관계형 모델에 데이터를 저장하는 옵션 등 총 두 가지 옵션이 있습니다.
외부 마운트(external mount)는 Oracle Cloud Infrastructure(OCI) Object Storage 위치에 대한 참조입니다. 외부 마운트의 OCI Object Storage 위치는 데이터 레이크에서 관리되지 않습니다. 외부 마운트는 OCI Object Storage 위치에 이미 존재하는 데이터에 대한 세분화된 액세스 제어를 제공하기 위해 사용됩니다.
관리형 마운트(managed mount)는 데이터 레이크 서비스에 의해 관리되는 OCI Object Storage 위치에 대한 참조입니다. 관리형 마운트는 데이터 파일에 대한 보안을 강화하여 허용된 데이터 레이크 사용자만 관리형 마운트에 저장된 데이터에 액세스할 수 있도록 해 줍니다. 관리형 마운트의 데이터는 데이터 레이크에 저장됩니다.
외부 테이블(external table)은 사용자에 의해 관리되는 OCI Object Storage 위치에, 또는 데이터 레이크 내의 마운트에 저장되는 데이터의 구조를 정의합니다. 마운트는 외부 마운트일 수도, 관리형 마운트일 수도 있습니다. 외부 테이블을 삭제하면 테이블 정의만 삭제됩니다. 외부 테이블에서 참조하는 데이터는 삭제되지 않습니다.
관리형 테이블(managed table)은 데이터 레이크 내에 저장되는 데이터의 구조를 정의하고, OCI Data Lake 사용자만 액세스할 수 있습니다. 관리형 테이블을 삭제하면 테이블 정의와 테이블 데이터도 함께 삭제됩니다.
외부 또는 관리형 마운트를 생성하여 파일 모델에 데이터를 저장하는 옵션, 데이터 레이크에 테이블을 생성하여 관계형 모델에 데이터를 저장하는 옵션 등 총 두 가지 옵션이 있습니다.
외부 마운트(external mount)는 Oracle Cloud Infrastructure(OCI) Object Storage 위치에 대한 참조입니다. 외부 마운트의 OCI Object Storage 위치는 데이터 레이크에서 관리되지 않습니다. 외부 마운트는 OCI Object Storage 위치에 이미 존재하는 데이터에 대한 세분화된 액세스 제어를 제공하기 위해 사용됩니다.
관리형 마운트(managed mount)는 데이터 레이크 서비스에 의해 관리되는 OCI Object Storage 위치에 대한 참조입니다. 관리형 마운트는 데이터 파일에 대한 보안을 강화하여 허용된 데이터 레이크 사용자만 관리형 마운트에 저장된 데이터에 액세스할 수 있도록 해 줍니다. 관리형 마운트의 데이터는 데이터 레이크에 저장됩니다.
외부 테이블(external table)은 사용자에 의해 관리되는 OCI Object Storage 위치에, 또는 데이터 레이크 내의 마운트에 저장되는 데이터의 구조를 정의합니다. 마운트는 외부 마운트일 수도, 관리형 마운트일 수도 있습니다. 외부 테이블을 삭제하면 테이블 정의만 삭제됩니다. 외부 테이블에서 참조하는 데이터는 삭제되지 않습니다.
관리형 테이블(managed table)은 데이터 레이크 내에 저장되는 데이터의 구조를 정의하고, OCI Data Lake 사용자만 액세스할 수 있습니다. 관리형 테이블을 삭제하면 테이블 정의와 테이블 데이터도 함께 삭제됩니다.
데이터 엔지니어는 OCI Data Integration 서비스를 사용하여 노코드 방식으로 ETL 프로세스를 작성할 수 있습니다. 또한 데이터 엔지니어는 SDK 및 API를 사용하여 레이크로 데이터를 수집하거나, OCI Data Flow에서 데이터 수집용 스파크 애플리케이션을 작성할 수도 있습니다.
예. OCI Data Lake는 Terraform을 사용한 OCI Data Lake 리소스 생성을 지원합니다.
OCI Data Flow 스트리밍 작업은 데이터 레이크에 데이터를 작성할 수 있습니다.
데이터 관리자는 데이터 레이크 생성 프로세스 중에 첨부/프로비저닝되는 OCI Data Catalog를 사용하여 레이크에 저장된 데이터를 검색할 수 있습니다. 해당 카탈로그는 정기적으로 업데이트되어 데이터 관리자에게 레이크에 저장된 데이터에 대한 가장 최신 정보를 제공합니다.
아니요. 데이터 레이크가 프로비저닝되면 카탈로그가 생성되고, 생성된 카탈로그는 OCI Data Catalog 서비스에 의해 관리됩니다.
OCI Data Lake는 관리자가 모든 데이터 레이크 개체에 대한 액세스 제어 정책을 정의할 수 있는 통합 액세스 제어 기능을 제공합니다. 관리자는 콘솔의 통합형 뷰를 통해 데이터 레이크 오브젝트에 액세스 가능한 사용자가 누구인지 확인할 수 있습니다.
OCI Data Lake는 2계층 보안을 갖추고 있습니다. 데이터 레이크 자체에 대한 사용자의 액세스 권한은 Oracle IAM 정책을 통해서만 부여할 수 있습니다. 데이터 레이크에 저장된 모든 오브젝트는 레이크 내에 정의된 정책에 따라 관리됩니다.
예. 데이터 레이크 관리자는 역할을 생성하고, 역할, 사용자, 리소스 주체, 그룹, 동적 그룹별 권한을 부여할 수 있습니다.
예. 사용자는 역할/사용자/리소스 주체/그룹/동적 그룹별로 읽기/쓰기/관리자 권한을 할당할 수 있습니다.
아니요. OCI Data Lake는 파일에 대한 액세스 제어를 지원하지 않습니다.
예. OCI Data Lake는 관리자가 열 단위의 액세스 제어 정책을 생성할 수 있도록 지원합니다.
예. OCI Data Lake는 관리자가 열 값을 기반으로 행 단위 접근 제어 정책을 생성할 수 있도록 지원합니다.
데이터 엔지니어는 OCI Data Flow를 이용해 Spark 애플리케이션으로 데이터를 처리하거나, Big Data Service로 데이터를 처리할 수 있습니다. 데이터 과학자와 데이터 분석가는 OCI Data Science 노트북을 통해 데이터 레이크에 저장된 데이터를 대상으로 탐색 분석을 수행하거나 ML 모델을 생성할 수 있습니다.
아니요. OCI Data Lake는 다양한 파일 형식의 데이터를 손쉽게 읽고 쓸 수 있는 Spark API를 지원합니다.
데이터 분석가는 OCI Data Lake에서 DDL, DML, 데이터 쿼리 등의 작업에 Spark SQL을 활용할 수 있습니다.
예. OCI Data Lake는 OCI Data Flow SQL 엔드포인트와 통합되어 있습니다. 해당 엔드포인트는 JDBC/ODBC 드라이버를 지원하는 비즈니스 인텔리전스 도구를 사용하여 데이터 레이크에 저장된 데이터를 시각화할 수 있는 JDBC/ODBC 드라이버를 노출합니다. 또한 사용자는 JDBC/ODBC 드라이버를 지원하는 SQL 도구를 통해 해당 드라이버를 활용하여 데이터 레이크에 연결할 수도 있습니다.