¿Qué es un Data Lakehouse?

Almacén de datos + lago de datos = Data Lakehouse

Un data lakehouse se puede definir como una plataforma de datos moderna creada a partir de una combinación de un lago de datos y un almacén de datos. Más específicamente, un data lakehouse toma el almacenamiento flexible de datos no estructurados de un lago de datos y las funciones y herramientas de gestión de almacenes de datos y, a continuación, los implementa estratégicamente juntos como un sistema más grande. Esta integración de dos herramientas únicas aporta lo mejor de ambos mundos a los usuarios. Para ir más allá a propósito de data lakehouse, es importante primero comprender completamente la definición de los dos términos originales.

Data lakehouse frente a lata lake frente a almacén de datos

Cuando hablamos de un data lakehouse, nos referimos al uso combinado de las plataformas de repositorio de datos actuales:

Data Lake (el "lake" en lakehouse): un lago de datos es un repositorio de almacenamiento de bajo costo utilizado principalmente por científicos de datos, pero también por analistas empresariales, gestores de productos y otros tipos de usuarios finales. Es un concepto de big data. Los datos no estructurados procedentes de diversas fuentes organizativas se introducen en el lago, a menudo para su ubicación temporal antes de cargarlos en un almacén de datos y crear juegos de datos.

Descubre los data lakes
Data warehouse (el "house" en lakehouse): un almacén de datos es un tipo diferente de repositorio de almacenamiento de un lago de datos. en el que un almacén de datos almacena datos procesados y estructurados, seleccionados para un propósito específico y almacenados en un formato especificado. Normalmente, los usuarios empresariales consultan estos datos, y utilizan los datos preparados en herramientas de análisis para generar informes y proyecciones. Un almacén de datos suele incluir funciones de gestión de datos como la depuración de datos y la extracción, carga y transformación (ETL).

Descubre los almacenes de datos

Entonces, ¿cómo combina un data lakehouse estas dos ideas? En general, un data lakehouse elimina las paredes del silo entre un lago de datos y un almacén de datos. Esto significa que los datos se pueden mover fácilmente entre el almacenamiento flexible y de bajo costo de un lago de datos a un almacén de datos y viceversa, lo que proporciona un acceso sencillo a las herramientas de gestión de un almacén de datos para implementar esquemas y gobernanza, a menudo con tecnología de aprendizaje automático e inteligencia artificial para la limpieza de datos. El resultado crea un repositorio de datos que integra la recopilación asequible y no estructurada de lagos de datos y la sólida preparación de un almacén de datos. Al proporcionar el espacio necesario para recopilar datos desde fuentes seleccionadas al tiempo que se utilizan herramientas y funciones que preparan los datos para el uso empresarial, un data lakehouse acelera los procesos. De alguna manera, los datalakehouses son almacenes de datos —que conceptualmente se originaron a principios de la década de 1980— adaptados a nuestro mundo moderno basado en datos.

Características de un data lakehouse

Al comprender el concepto general de un data lakehouse, veamos un poco más a fondo los elementos específicos implicados. Un data lakehouse ofrece muchas piezas que están familiarizadas con los conceptos históricos de lago de datos y almacén de datos, pero de una manera que las fusiona en algo nuevo y más eficaz para el mundo digital actual.

Funciones de gestión de datos

Un almacén de datos suele ofrecer funciones de gestión de datos como la depuración de datos, ETL y la aplicación de esquemas. Estos se incorporan a un Data Lakehouse como un medio para preparar rápidamente los datos, lo que permite que los datos de fuentes seleccionadas trabajen de forma natural y estén preparados para nuevas herramientas de análisis e inteligencia empresarial (BI).

Formatos de almacenamiento abiertos

El uso de formatos de almacenamiento abiertos y estandarizados significa que los datos de orígenes de datos seleccionados tienen una ventaja importante para poder trabajar juntos y estar listos para el análisis o la generación de informes.

Almacenamiento flexible

La capacidad de separar los recursos informáticos de los recursos de almacenamiento facilita la ampliación del almacenamiento, según sea necesario.

Admite streaming

Muchos orígenes de datos utilizan transmisión en tiempo real directamente desde los dispositivos. Un data lakehouse está diseñado para admitir mejor este tipo de ingestión en tiempo real en comparación con un almacén de datos estándar. A medida que el mundo se integra más con los dispositivos de Internet de las cosas, el soporte en tiempo real es cada vez más importante.

Diversas cargas de trabajo

Dado que un Data Lakehouse integra las funciones de un almacén de datos y un lago de datos, es una solución ideal para una serie de cargas de trabajo diferentes. Desde informes empresariales hasta equipos de ciencia de datos y herramientas de análisis, las cualidades inherentes de un data lakehouse pueden soportar distintas cargas de trabajo dentro de una organización.

Ventajas de un data lakehouse: una plataforma de datos moderna

Al crear un data lakehouse, las organizaciones pueden simplificar su proceso general de gestión de datos con una plataforma de datos unificada unificada. Un data lakehouse puede ocupar el lugar de las soluciones individuales al romper los muros del silo entre varios repositorios. Esta integración crea un proceso integral mucho más eficiente en comparación con los orígenes de datos seleccionados. Esto brinda diversas ventajas.

Menos administración: al utilizar un data lakehouse, cualquier fuente conectada a él puede tener sus datos accesibles y consolidados para su uso, en lugar de extraerlos de los datos no procesados y prepararse para trabajar dentro de un almacén de datos.
Mejor gobernanza de datos: los almacenes de datos simplifican y mejoran la gobernanza mediante la consolidación de recursos y orígenes de datos, y se crean con un esquema abierto estandarizado que permite un mayor control sobre la seguridad, las métricas, el acceso basado en roles y otros elementos de gestión fundamentales.
Estándares simplificados: los almacenes de datos se originaron en la década de 1980, cuando la conectividad era extremadamente limitada, lo que significa que a menudo se creaban estándares de esquema localizados en las organizaciones, incluso en los departamentos. Hoy en día, existen estándares abiertos para múltiples tipos de datos, y los almacenes lo aprovechan ingiriendo diversas fuentes de datos con un esquema estandarizado superpuesto que permite simplificar los procesos.
Mayor rentabilidad: los data lakehouses se crean con una infraestructura que separa los recursos informáticos y el almacenamiento, lo que permite incrementar el almacenamiento de manera sencilla sin necesidad de aumentar el poder de procesamiento. Esto crea una ampliación rentable con el uso sencillo del almacenamiento de datos de bajo costo.

Si bien algunas organizaciones optarán por crear un data lakehouse, otras adquirirán un servicio de data lakehouse en la nube.

Descubre las ventajas de un servicio en la nube de data lakehouse

Casos de éxito de clientes: data lakehouse

Experian

Experian mejoró el rendimiento en un 40 % y redujo los costos en un 60 % cuando trasladó cargas de trabajo de datos esenciales de otras nubes a un data lakehouse en OCI, acelerando el procesamiento de datos e innovación de productos al tiempo que amplía las oportunidades de acceso a crédito en todo el mundo.

Generali

Generali Group es una compañía de seguros italiana con una de las bases de clientes más grandes del mundo. Generali tenía numerosas fuentes de datos, tanto de Oracle Cloud HCM como de otras fuentes locales y regionales. Su proceso de toma de decisiones de RR.HH. y el compromiso de los empleados estaban hallando obstáculos, y la empresa buscaba una solución para mejorar la eficacia. La integración de Oracle Autonomous Data Warehouse con los orígenes de datos de Generali eliminó los silos y creó un único recurso para todos los análisis de RR. HH. Esto mejoró la eficiencia y aumentó la productividad del personal de RR. HH., lo que les permitió centrarse en actividades de valor añadido en lugar de en la pérdida de generación de informes.

Lee la historia de Generali

Lyft

Lyft, uno de los principales proveedores de recursos compartidos del mundo, se ocupaba de 30 sistemas financieros aislados diferentes. Esta separación obstaculizó el crecimiento de la empresa y ralentizó los procesos. Gracias a la integración de Oracle Cloud ERP y Oracle Cloud EPM con Oracle Autonomous Data Warehouse, Lyft pudo consolidar las finanzas, las operaciones y los análisis en un solo sistema. Así, redujo el tiempo para cerrar sus libros en un 50 %, con el potencial de un proceso aún más racionalizado. Esto también ahorró costos al reducir las horas de inactividad.

Lee la historia de Lyft

Agroscout

Agroscout es un desarrollador de software que trabaja con ayuda a los agricultores a maximizar los cultivos sanos y seguros. Para aumentar la producción de alimentos, Agroscout utilizó una red de drones para investigar cultivos para insectos o enfermedades. La organización necesitaba una manera eficiente de consolidar los datos y procesarlos para identificar signos de peligro de cultivos. Mediante Oracle Object Storage Data Lake, los drones cargaron directamente las cosechas. Los modelos de aprendizaje automático se crearon con OCI Data Science para procesar las imágenes. El resultado fue un proceso ampliamente mejorado que permitió una respuesta rápida para aumentar la producción de alimentos.

Lee la historia de Agroscout

Descubre por qué Oracle Cloud Infrastructure es el mejor lugar para crear un lakehouse

Cada día que pasa, cada vez hay más orígenes de datos que envían mayores volúmenes de datos por todo el mundo. Para cualquier organización, esta combinación de datos estructurados y no estructurados sigue siendo un desafío. Los almacenes de datos enlazan, correlacionan y analizan estos diversos resultados en un único sistema gestionable.

Obtén más información sobre los data lakehouses