Un data lakehouse se puede definir como una plataforma de datos moderna creada a partir de una combinación de un lago de datos y un almacén de datos. Más específicamente, un data lakehouse toma el almacenamiento flexible de datos no estructurados de un lago de datos y las funciones y herramientas de gestión de almacenes de datos y, a continuación, los implementa estratégicamente juntos como un sistema más grande. Esta integración de dos herramientas únicas aporta lo mejor de ambos mundos a los usuarios. Para ir más allá a propósito de data lakehouse, es importante primero comprender completamente la definición de los dos términos originales.
Cuando hablamos de un data lakehouse, nos referimos al uso combinado de las plataformas de repositorio de datos actuales:
Entonces, ¿cómo combina un data lakehouse estas dos ideas? En general, un data lakehouse elimina las paredes del silo entre un lago de datos y un almacén de datos. Esto significa que los datos se pueden mover fácilmente entre el almacenamiento flexible y de bajo costo de un lago de datos a un almacén de datos y viceversa, lo que proporciona un acceso sencillo a las herramientas de gestión de un almacén de datos para implementar esquemas y gobernanza, a menudo con tecnología de aprendizaje automático e inteligencia artificial para la limpieza de datos. El resultado crea un repositorio de datos que integra la recopilación asequible y no estructurada de lagos de datos y la sólida preparación de un almacén de datos. Al proporcionar el espacio necesario para recopilar datos desde fuentes seleccionadas al tiempo que se utilizan herramientas y funciones que preparan los datos para el uso empresarial, un data lakehouse acelera los procesos. De alguna manera, los datalakehouses son almacenes de datos —que conceptualmente se originaron a principios de la década de 1980— adaptados a nuestro mundo moderno basado en datos.
Al comprender el concepto general de un data lakehouse, veamos un poco más a fondo los elementos específicos implicados. Un data lakehouse ofrece muchas piezas que están familiarizadas con los conceptos históricos de lago de datos y almacén de datos, pero de una manera que las fusiona en algo nuevo y más eficaz para el mundo digital actual.
Un almacén de datos suele ofrecer funciones de gestión de datos como la depuración de datos, ETL y la aplicación de esquemas. Estos se incorporan a un Data Lakehouse como un medio para preparar rápidamente los datos, lo que permite que los datos de fuentes seleccionadas trabajen de forma natural y estén preparados para nuevas herramientas de análisis e inteligencia empresarial (BI).
El uso de formatos de almacenamiento abiertos y estandarizados significa que los datos de orígenes de datos seleccionados tienen una ventaja importante para poder trabajar juntos y estar listos para el análisis o la generación de informes.
La capacidad de separar los recursos informáticos de los recursos de almacenamiento facilita la ampliación del almacenamiento, según sea necesario.
Muchos orígenes de datos utilizan transmisión en tiempo real directamente desde los dispositivos. Un data lakehouse está diseñado para admitir mejor este tipo de ingestión en tiempo real en comparación con un almacén de datos estándar. A medida que el mundo se integra más con los dispositivos de Internet de las cosas, el soporte en tiempo real es cada vez más importante.
Dado que un Data Lakehouse integra las funciones de un almacén de datos y un lago de datos, es una solución ideal para una serie de cargas de trabajo diferentes. Desde informes empresariales hasta equipos de ciencia de datos y herramientas de análisis, las cualidades inherentes de un data lakehouse pueden soportar distintas cargas de trabajo dentro de una organización.
Al crear un data lakehouse, las organizaciones pueden simplificar su proceso general de gestión de datos con una plataforma de datos unificada unificada. Un data lakehouse puede ocupar el lugar de las soluciones individuales al romper los muros del silo entre varios repositorios. Esta integración crea un proceso integral mucho más eficiente en comparación con los orígenes de datos seleccionados. Esto brinda diversas ventajas.
Si bien algunas organizaciones optarán por crear un data lakehouse, otras adquirirán un servicio de data lakehouse en la nube.
Experian mejoró el rendimiento en un 40 % y redujo los costos en un 60 % cuando trasladó cargas de trabajo de datos esenciales de otras nubes a un data lakehouse en OCI, acelerando el procesamiento de datos e innovación de productos al tiempo que amplía las oportunidades de acceso a crédito en todo el mundo.
Generali Group es una compañía de seguros italiana con una de las bases de clientes más grandes del mundo. Generali tenía numerosas fuentes de datos, tanto de Oracle Cloud HCM como de otras fuentes locales y regionales. Su proceso de toma de decisiones de RR.HH. y el compromiso de los empleados estaban hallando obstáculos, y la empresa buscaba una solución para mejorar la eficacia. La integración de Oracle Autonomous Data Warehouse con los orígenes de datos de Generali eliminó los silos y creó un único recurso para todos los análisis de RR. HH. Esto mejoró la eficiencia y aumentó la productividad del personal de RR. HH., lo que les permitió centrarse en actividades de valor añadido en lugar de en la pérdida de generación de informes.
Lyft, uno de los principales proveedores de recursos compartidos del mundo, se ocupaba de 30 sistemas financieros aislados diferentes. Esta separación obstaculizó el crecimiento de la empresa y ralentizó los procesos. Gracias a la integración de Oracle Cloud ERP y Oracle Cloud EPM con Oracle Autonomous Data Warehouse, Lyft pudo consolidar las finanzas, las operaciones y los análisis en un solo sistema. Así, redujo el tiempo para cerrar sus libros en un 50 %, con el potencial de un proceso aún más racionalizado. Esto también ahorró costos al reducir las horas de inactividad.
Agroscout es un desarrollador de software que trabaja con ayuda a los agricultores a maximizar los cultivos sanos y seguros. Para aumentar la producción de alimentos, Agroscout utilizó una red de drones para investigar cultivos para insectos o enfermedades. La organización necesitaba una manera eficiente de consolidar los datos y procesarlos para identificar signos de peligro de cultivos. Mediante Oracle Object Storage Data Lake, los drones cargaron directamente las cosechas. Los modelos de aprendizaje automático se crearon con OCI Data Science para procesar las imágenes. El resultado fue un proceso ampliamente mejorado que permitió una respuesta rápida para aumentar la producción de alimentos.
Cada día que pasa, cada vez hay más orígenes de datos que envían mayores volúmenes de datos por todo el mundo. Para cualquier organización, esta combinación de datos estructurados y no estructurados sigue siendo un desafío. Los almacenes de datos enlazan, correlacionan y analizan estos diversos resultados en un único sistema gestionable.