OCI Data Lake es un servicio de data lake totalmente gestionado diseñado para mejorar la gobernanza de datos. Proporciona a los usuarios una gestión centralizada del almacenamiento y la seguridad de sus datos en el data lake. El servicio permite a los usuarios ingerir y analizar datos de manera sencilla. Los usuarios y las aplicaciones pueden compartir datos a la perfección con la organización y aplicar un control de acceso exhaustivo a los objetos alojados en el data lake. Los motores integrados que consumen datos en el data lake cumplen estas reglas predefinidas de control de acceso.
OCI Data Lake permite a los clientes almacenar y controlar datos estructurados, semiestructurados y no estructurados. Brinda un único panel para abordar todas las necesidades de gestión de datos. Con él, los usuarios pueden crear un data lake con seguridad exhaustiva tan solo en unos minutos. OCI Data Lake está adecuadamente integrado con otros servicios de OCI, lo cual facilita la ingesta, el procesamiento y el análisis de datos en el data lake.
OCI Data Lake incorpora OCI Data Integration para garantizar una ingesta sencilla y sin código de datos en el lake. Cuando se crea un OCI Data Lake, las entidades que se incluyen en el data lake se recopilan automáticamente en OCI Data Catalog para que los administradores de datos descubran información. OCI Data Lake funciona a la perfección con OCI Data Flow, Oracle Big Data y los blocs de notas OCI Data Science para procesar datos y ejecutar cargas de trabajo de análisis. Los usuarios pueden formular consultas en función de los datos del data lake mediante Autonomous Data Warehouse.
Tienes dos opciones: almacenar los datos en un modelo de archivos mediante la creación de montajes externos o gestionados, o almacenar datos en un modelo relacional mediante la creación de tablas en el data lake.
Un montaje externo es una referencia a una ubicación de Oracle Cloud Infrastructure (OCI) Object Storage. El data lake no gestiona la ubicación de OCI Object Storage para montajes externos. Los montajes externos se utilizan para proporcionar un control de acceso exhaustivo a los datos que ya existen en una ubicación de OCI Object Storage.
Un montaje gestionado es una referencia a una ubicación de OCI Object Storage gestionada por el servicio de data lake. Los montajes gestionados proporcionan seguridad mejorada para los archivos de datos, de modo que solo los usuarios autorizados del data lake puedan acceder a los datos almacenados en el montaje gestionado. Los datos del montaje gestionado se almacenan en el data lake.
Una tabla externa define una estructura para los datos que se almacenan en una ubicación de OCI Object Storage gestionada por ti o en un montaje dentro del data lake. El montaje puede ser externo o gestionado. Al suprimir una tabla externa, solo se elimina la definición de la tabla. Los datos referenciados por la tabla externa no se suprimen.
Una tabla gestionada define una estructura para los datos almacenados en el data lake y a la que solo pueden acceder los usuarios de OCI Data Lake. Al suprimir una tabla gestionada, se eliminan la definición de la tabla y los datos incluidos en ella.
Tienes dos opciones: almacenar los datos en un modelo de archivos mediante la creación de montajes externos o gestionados, o almacenar datos en un modelo relacional mediante la creación de tablas en el data lake.
Un montaje externo es una referencia a una ubicación de Oracle Cloud Infrastructure (OCI) Object Storage. El data lake no gestiona la ubicación de OCI Object Storage para montajes externos. Los montajes externos se utilizan para proporcionar un control de acceso exhaustivo a los datos que ya existen en una ubicación de OCI Object Storage.
Un montaje gestionado es una referencia a una ubicación de OCI Object Storage gestionada por el servicio de data lake. Los montajes gestionados proporcionan seguridad mejorada para los archivos de datos, de modo que solo los usuarios autorizados del data lake puedan acceder a los datos almacenados en el montaje gestionado. Los datos del montaje gestionado se almacenan en el data lake.
Una tabla externa define una estructura para los datos que se almacenan en una ubicación de OCI Object Storage gestionada por ti o en un montaje dentro del data lake. El montaje puede ser externo o gestionado. Al suprimir una tabla externa, solo se elimina la definición de la tabla. Los datos referenciados por la tabla externa no se suprimen.
Una tabla gestionada define una estructura para los datos almacenados en el data lake y a la que solo pueden acceder los usuarios de OCI Data Lake. Al suprimir una tabla gestionada, se eliminan la definición de la tabla y los datos incluidos en ella.
Los ingenieros de datos pueden escribir procesos ETL con el servicio OCI Data Integration sin código. También pueden utilizar SDK y API para ingerir datos en el lake o crear una aplicación Spark en OCI Data Flow para la ingesta de datos.
Sí, OCI Data Lake admite Terraform para la creación de recursos de OCI Data Lake.
Los trabajos de streaming de OCI Data Flow pueden escribir datos en el data lake.
Los administradores de datos pueden descubrir datos del lake utilizando OCI Data Catalog, que se adjunta o aprovisiona durante el proceso de creación del data lake. El catálogo se actualiza a intervalos periódicos, lo que otorga a los administradores de datos la vista más actualizada de su data lake.
No. Cuando se aprovisiona un data lake, se crea un catálogo y lo gestiona el servicio.
OCI Data Lake proporciona control de acceso unificado, lo cual permite a los administradores definir políticas de control de acceso para todos los objetos del data lake. Desde la consola, los administradores tienen una vista consolidada desde la que pueden consultar quién tiene acceso a los objetos del data lake.
OCI Data Lake tiene dos capas de seguridad. Solo se puede acceder al lake si se le ha otorgado acceso al usuario mediante la política de Oracle IAM. Todos los objetos del data lake se rigen por las políticas definidas en él.
Sí, los administradores del data lake pueden crear roles y otorgar permisos para roles, usuarios, entidades de recursos, grupos y grupos dinámicos.
Sí, los usuarios pueden asignar permisos de lectura, escritura o administrador a roles, usuarios, entidades de recursos, grupos o grupos dinámicos.
No, OCI Data Lake no admite control de acceso en archivos.
Sí, OCI Data Lake permite a los administradores crear políticas de control de acceso de nivel de columna.
Sí, OCI Data Lake permite a los administradores crear políticas de control de acceso de nivel de fila basadas en valores de columnas.
Los ingenieros de datos pueden procesar datos en la aplicación Spark utilizando OCI Data Flow o en Big Data Service. Los científicos y los analistas de datos pueden realizar análisis exploratorios o crear modelos de machine learning en función de los datos del data lake con el bloc de notas de OCI Data Science.
No, OCI Data Lake admite las API de Spark para facilitar la lectura y la escritura de datos en varios formatos de archivo.
Los analistas de datos pueden utilizar Spark SQL para DDL, DML o consultar datos.
Sí, OCI Data Lake incorpora el punto final SQL de OCI Data Flow, que expone un controlador JDBC/ODBC que permite visualizar los datos del data lake mediante herramientas de inteligencia empresarial que admiten controladores JDBC/ODBC. Los usuarios también pueden aprovechar el controlador para conectarse al data lake mediante una herramienta SQL que admita el controlador JDBC/ODBC.