Esta es una definición sencilla: un lago de datos es un lugar para almacenar los datos estructurados y no estructurados, así como un método para organizar grandes volúmenes de datos muy diversos de distintos orígenes.
Los lagos de datos son cada vez más importantes, ya que las personas, especialmente en el sector empresarial y tecnológico, desean realizar una exploración y una detección de datos amplia. Unificar los datos (o la mayor parte de ellos) en un solo lugar lo simplifica.
Según su plataforma, el lago de datos puede hacerlo mucho más sencillo. Puede manejar muchas estructuras de datos, como datos no estructurados y multiestructurados, y puede ayudarle a obtener valor de esos datos.
La diferencia clave entre un lago de datos y un almacén de datos es que el lago de datos tiende a tomar datos rápidamente y prepararlos más tarde sobre la marcha a medida que las personas acceden a él. Por otro lado, con un almacén de datos, se preparan los datos con mucha atención desde el inicio antes de dejarlos en el almacén de datos.
En general, los usuarios quieren tomar datos en el lago de datos lo más rápido posible, para que las compañías con casos de uso operativos, especialmente en lo que respecta a informes operativos, análisis y supervisión de negocios, tengan los datos más recientes. Esto les permite acceder a los datos más recientes y ver la información más actualizada.
Con el lago de datos, los usuarios suelen tomar datos en el formulario original sin modificarlos. Esto puede deberse a razones de velocidad, pero también a otros motivos, incluido el deseo de realizar análisis avanzados, que pueden depender de datos de origen detallados. Se trata de análisis basados en cualquier tipo de minería, tanto si se trata de:
Para aprovechar todas las ventajas que pueden brindar los lagos de datos, una solución adecuada debe ser capaz de ofrecer mejores maneras de hacer lo siguiente:
Un lago de datos es más útil cuando forma parte de una plataforma de gestión de datos más grande, y se debe integrar bien con los datos y las herramientas existentes para ser más potente.
Usar el lago de datos para ampliar el almacén de datos es algo que se ve a menudo en el marketing omnicanal, a veces llamado marketing multicanal. La forma de pensar en el ecosistema de datos del marketing es que cada canal puede ser su propia base de datos y cada punto de contacto también. Además, muchos responsables de marketing también compran datos de terceros.
Por ejemplo, un responsable de marketing puede querer comprar datos que tengan información adicional sobre la demografía y las preferencias del consumidor de clientes y potenciales clientes, y que ayuden al responsable de marketing a completar ese panorama completo de cada cliente, lo que a su vez ayuda a crear campañas de marketing más personalizadas y específicas.
Eso es un ecosistema de datos complejo que aumenta su volumen y complejidad en todo momento. Con frecuencia, el lago de datos recopila datos procedentes de varios canales y puntos de contacto. Algunos de ellos son, en realidad, datos de transmisión.
Las empresas que ofrecen una aplicación para smartphones a sus clientes pueden estar recibiendo esos datos en tiempo real o cuasirreal cuando los clientes utilizan esa aplicación. Muchas veces, la empresa no necesita que sea exactamente en tiempo real. Podría ser después de una hora o dos. Sin embargo, permite que el departamento de marketing realice una supervisión muy granular del negocio y cree ofertas especiales, incentivos, descuentos y microcampañas.
La cadena de suministro digital es un entorno de datos igualmente diverso, y el lago de datos puede ayudar con eso, especialmente cuando está en Hadoop. Hadoop es, en gran medida, un sistema basado en archivos, porque se diseñó originalmente para archivos de registro muy grandes y numerosos que procedían de servidores web. En la cadena de suministro suele haber una gran cantidad de datos basados en archivos. Piense en los datos basados en archivos y documentos de los sistemas EDI, XML y, por supuesto, JSONs, que hoy en día tiene mucha presencia en la cadena de suministro digital. Es información muy diversa.
También hay información interna a tener en cuenta. Los fabricantes suelen disponer de datos de la superficie de venta, de envíos y de facturación muy relevantes para la cadena de suministro. El lago puede ayudar a los fabricantes a reunir esos datos y gestionarlos de una forma basada en archivos.
La Internet de las cosas crea nuevos orígenes de datos casi a diario en algunas empresas. Y, por supuesto, a medida que esos orígenes se diversifican, crean aún más datos. Cada vez hay más sensores en más máquinas continuamente. Por ejemplo, cada flete por ferrocarril o camión tiene una lista enorme de sensores para que la compañía pueda rastrear ese vehículo a través del espacio y el tiempo, además de saber cómo funciona. ¿Se maneja de forma segura? ¿Se maneja de manera óptima con respecto al consumo de combustible? Enormes cantidades de información proceden de estos lugares y el lago de datos es muy popular porque proporciona un repositorio para todos esos datos.
Ahora bien, estos son ejemplos de usos bastante específicos de lagos de datos en ciertos departamentos o programas de TI, pero un enfoque diferente es que la TI centralizada proporcione un único lago de datos grande que sea multiinquilino. Puede ser utilizado por muchos departamentos, unidades de negocio y programas tecnológicos diferentes. A medida que las personas se acostumbran al lago, descubren cómo optimizarlo para diversos usos y operaciones, análisis e incluso con fines de conformidad.
El lago de datos se puede utilizar de muchas maneras y también tiene muchas plataformas que pueden estar debajo. Hadoop es la plataforma más común, pero no la única.
Hadoop es atractivo. Ha demostrado tener escalabilidad lineal. Es un costo de escalabilidad bajo en comparación con, por ejemplo, una base de datos relacional. Pero Hadoop no es solo almacenamiento barato. También es una potente plataforma de procesamiento. Y, para quienes intentan realizar análisis algorítmicos, Hadoop puede ser muy útil.
El sistema de gestión de bases de datos relacionales también puede ser una plataforma para el lago de datos, debido a que algunas personas tienen cantidades masivas de datos que desean incluir en el lago que son estructurados y también relacionales. Por lo tanto, si sus datos son inherentemente relacionales, un enfoque de bases de datos relacionales (database management system, DBMS) del lago de datos sería lo más lógico. Además, si tiene casos de uso en los que desea realizar funcionalidades relacionales, como SQL o uniones de tablas complejas, el sistema de administración de bases de datos relacionales (relational database management system, RDBMS) es lo mejor.
Sin embargo, la tendencia son los sistemas basados en la nube, especialmente el almacenamiento basado en la nube. El gran beneficio de las nubes es la escalabilidad flexible. Pueden canalizar los recursos del servidor y otros recursos a medida que las cargas de trabajo escalan verticalmente. En comparación con muchos sistemas locales, la nube puede ser de bajo costo. Una parte de la explicación es que no hay integración del sistema.
Si deseas hacer algo en el entorno local, tú o alguien más tiene que hacer una integración del sistema de varios meses, mientras que para muchos sistemas hay un proveedor en la nube que ya tiene esa integración. Básicamente, puede adquirir una licencia y estar en marcha en cuestión de horas en lugar de meses. Además, el enfoque del almacén de objetos en la nube, que mencionamos en una publicación anterior sobre las prácticas recomendadas de los lagos de datos, tiene muchos beneficios.
Y, por supuesto, puede tener una mezcla híbrida de plataformas con un lago de datos. Si está familiarizado con lo que llamamos almacén de datos lógico, también puede tener algo similar a este: un lago de datos lógico. Aquí es donde los datos se distribuyen físicamente entre varias plataformas. Esto plantea algunos desafíos, como la necesidad de herramientas especiales adecuadas para las consultas federadas o virtualización de datos para consultas analíticas de gran alcance.
Pero esa tecnología está disponible en el nivel de la herramienta, y muchas personas la utilizan.
En su búsqueda por extraer más valor de sus datos, las empresas siempre van hasta el límite. Gracias a los recursos informáticos basados en la nube, ahora suelen combinar las tecnologías del lago de datos y los almacenes de datos en una única arquitectura llamada “casa del lago de datos”. Los beneficios de una casa del lago de datos son una mejor integración, un menor movimiento y una mejor gobernanza de los datos y un soporte para más casos de uso.
El lago de datos es su respuesta a la organización de todos esos grandes volúmenes de datos diversos procedentes de diversos orígenes. Si está listo para empezar a experimentar con un lago de datos, podemos ofrecerle el modo gratuito de Oracle para comenzar.