Un almacén de datos es un tipo de sistema de gestión de datos diseñado para habilitar y dar soporte a las tareas de inteligencia empresarial (BI), especialmente las analíticas. Los data warehouses solo se han diseñado para realizar consultas y tareas de análisis, y suelen contener grandes cantidades de datos históricos. A menudo, la información dentro de un data warehouse proviene de una amplia gama de fuentes, como los archivos de registro de aplicaciones o las aplicaciones de transacción.
Un almacén de datos centraliza y fusiona grandes cantidades de datos de múltiples fuentes. Gracias a sus capacidades analíticas, las organizaciones pueden obtener información empresarial valiosa a partir de los datos y mejorar las decisiones. Con el tiempo, se construye un registro histórico de gran valor para los expertos en datos y los analistas de negocio. Gracias a estas funciones, un almacén de datos puede considerarse la "fuente única de datos" de una organización.
Un almacén de datos típico suele incluir los siguientes elementos:
Las organizaciones también pueden elegir una solución que combine el procesamiento de transacciones, análisis en tiempo real en almacenes de datos y lagos de datos, y machine learning en un solo servicio de base de datos MySQL, sin la complejidad, latencia, costo y riesgo de duplicación de la extracción, transformación y carga (ETL).
Los almacenes de datos ofrecen una ventaja exclusiva y global: permitir a las organizaciones analizar grandes cantidades de datos de variables y extraer un valor significativo, además de mantener un registro histórico.
Los data warehouses cuentan con cuatro características exclusivas (descritas por el experto en informática William Inmon, considerado el originador de los data warehouses) por las que pueden aportar esta ventaja global. Según esta definición, los data warehouses disponen de las siguientes características:
Un almacén de datos bien diseñado realizará las consultas muy rápidamente, ofrecerá un alto rendimiento de datos y proporcionará suficiente flexibilidad para que los usuarios finales puedan segmentar y desglosar o reducir el volumen de datos para un examen más detallado con el fin de satisfacer diversas necesidades, tanto generales como específicas. El data warehouse es la base funcional para los entornos de BI middleware que suministran informes, cuadros de mando y otras interfaces a los usuarios finales.
La arquitectura de un data warehouse depende de las necesidades específicas de la organización. Algunas de las arquitecturas más comunes son:
Cuando aparecieron por primera vez los data warehouses a finales de los 80, su objetivo era que los datos pasaran de los sistemas operativos a los sistemas de apoyo a las decisiones (DSS). Aquellos primeros data warehouses necesitaban un volumen enorme de redundancias. La mayoría de empresas tenían múltiples entornos DSS para sus diferentes usuarios. Aunque los entornos DSS utilizaban, en gran medida, los mismos datos, la recopilación, la limpieza y la integración de estos se solía replicar para cada entorno.
A medida que los data warehouses se volvieron más eficientes, pasaron de ser almacenes de información compatibles con plataformas de BI tradicionales a convertirse en infraestructuras analíticas más abiertas que admitían una amplia variedad de aplicaciones, como la analítica operativa o la gestión del rendimiento.
Las iteraciones del almacén de datos han evolucionado a lo largo del tiempo para generar valor adicional incremental a la empresa con almacén de datos empresariales (EDW)..
Fase | Función | Valor para la empresa |
---|---|---|
1 | Elaboración de informes sobre transacciones | Suministra información relacional para crear instantáneas del rendimiento de la empresa |
2 | Corte y fragmentación, consultas ad hoc, herramientas de BI | Funciones avanzadas para lograr conocimientos más profundos y un análisis más sólido |
3 | Predicción de rendimiento en el futuro (minería de datos) | Desarrolla visualizaciones y una inteligencia empresarial progresiva |
4 | Análisis táctico (espacial, estadístico) | Ofrece escenarios hipotéticos para fundamentar las decisiones prácticas recurriendo a análisis más exhaustivos |
5 | Almacena meses o años de datos | Solo almacena datos de las últimas semanas o meses |
El soporte para cada uno de estos cinco pasos requiere de una creciente variedad de conjuntos de datos. Los últimos tres pasos en particular exigen una gama de datos y funciones analíticas más amplia.
En la actualidad, la inteligencia artificial y el aprendizaje automático están transformando casi todos los sectores, los servicios y los activos empresariales: y los almacenes de datos no son una excepción. La expansión de big data y la aplicación de nuevas tecnologías digitales están impulsando un cambio en los requisitos y las capacidades de los data warehouses.
El data warehouse autónomo es el último paso en esta evolución y ofrece a las empresas la posibilidad de extraer un valor aún mayor de sus datos, reduciendo además los costos y mejorando la fiabilidad y el rendimiento.
Obtén más información sobre los almacenes de datos autónomos y empieza a utilizar tu propio almacén de datos autónomo.
Aunque desempeñan funciones similares, los almacenes de datos, los data marts y los almacenes de datos operativos (ODS) tienen diferencias entre sí. Un data mart lleva a cabo las mismas funciones que un almacén de datos, pero con un alcance mucho más limitado (por lo general, para un solo departamento o línea de negocio). Es por eso que es más fácil establecer un data mart que un data warehouse. Sin embargo, suelen introducir incoherencias, ya que es difícil administrar y controlar los datos de manera uniforme en muchos data marts.
Los ODS solo admiten operaciones diarias, por lo que su visión de los datos históricos es muy limitada. Aunque funcionan muy bien como fuentes de datos actuales y los almacenes de datos los emplean de ese modo, no admiten consultas avanzadas de datos históricos.
Un data warehouse en la nube utiliza la nube para asimilar y almacenar datos de fuentes de datos dispares.
Los almacenes de datos originales se crearon en servidores ubicados en entornos locales. Estos almacenes de datos locales siguen ofreciendo enormes ventajas en la actualidad. En muchos casos, brindan una mejor gobernanza, seguridad, soberanía de datos y latencia. Sin embargo, los data warehouses in-situ no son tan elásticos y requieren una previsión compleja para determinar cómo escalar el data warehouse para futuras necesidades. La gestión de estos data warehouses también puede resultar muy compleja.
Por otro lado, entre las ventajas de los almacenes de datos en la nube se pueden enumerar las siguientes:
Los mejores data warehouses en la nube son totalmente gestionados y autónomos; de este modo, incluso los principiantes puedan crear y utilizar un data warehouse con unos cuantos clics. Para iniciar la migración a un almacén de datos en la nube de manera sencilla, puedes ejecutar tu almacén de datos en la nube en un entorno local, con la protección del firewall del centro de datos, que cumple con todos los requisitos en materia de soberanía y seguridad de datos.
Asimismo, la mayoría de los almacenes de datos en la nube siguen un modelo de pago por consumo, que permite a los clientes generar nuevos ahorros de costos.
No importa si forman parte de los equipos de TI, ingeniería de datos, análisis de negocio o ciencia de datos; todos los usuarios de una organización necesitan cosas distintas de un almacén de datos.
Una arquitectura de datos moderna aborda estas diferentes necesidades, ya que proporciona un modo de gestionar todos los tipos de datos, cargas de trabajo y análisis. Consiste en patrones de arquitectura con componentes necesarios integrados para trabajar juntos en alineación con las mejores prácticas de la industria. El data warehouse moderno incluye:
Un data warehouse moderno puede optimizar de manera eficiente los flujos de trabajo de datos de modo que otros almacenes no pueden. Esto significa que todos, desde analistas e ingenieros de datos hasta data scientists y equipos de TI, pueden realizar su trabajo de manera más efectiva y realizar el trabajo innovador que hace avanzar a la organización, sin innumerables retrasos y complejidad.
Cuando una organización se propone diseñar un almacén de datos, debe comenzar por definir sus requisitos comerciales específicos, acordar el alcance y preparar un diseño conceptual. A partir de aquí, la empresa podrá crear el diseño lógico y físico para el data warehouse. El diseño lógico abarca las relaciones entre los objetos y el diseño físico consiste en encontrar la mejor manera de almacenar y extraer los objetos. El diseño físico también incluye las tareas de transporte, copia de seguridad y recuperación.
Cualquier diseño de data warehouse debe incluir los siguientes conceptos:
Un factor primordial en el diseño son las necesidades de los usuarios finales. La mayoría de usuarios finales quiere realizar análisis y ver los datos en conjunto, en lugar de realizar transacciones individuales. Sin embargo, es común que los usuarios finales no tengan claro lo que realmente quieren hasta que surja una necesidad específica. Por lo tanto, el proceso de planificación debe incluir una exploración suficientemente amplia como para prever las necesidades. Finalmente, el diseño del data warehouse debe dejar espacio para la ampliación y evolución a fin de seguir el paso de las cambiantes necesidades de los usuarios finales.
Los data warehouses en la nube ofrecen las mismas características y ventajas que los data warehouses in-situ, pero con los beneficios adicionales del cloud computing, como la flexibilidad, la escalabilidad, la agilidad, la seguridad y el costo reducido. Con los almacenes de datos en la nube, las empresas pueden centrarse únicamente en extraer valor de sus datos, en lugar de tener que construir y administrar la infraestructura de hardware y software para dar soporte al almacén de datos.
Cuando las organizaciones tienen que gestionar grandes volúmenes de datos de diversas fuentes, utilizan tanto data lakes como data warehouses. La opción de usar un sistema u otro depende de lo que la organización quiera hacer con los datos. A continuación, describimos cómo utilizar uno y otro:
Los almacenes de datos son entornos relacionales que se utilizan para el análisis de datos, sobre todo para datos históricos. Las organizaciones utilizan los data warehouses para descubrir en sus datos patrones y relaciones que se desarrollan con el tiempo.
En contraste, los entornos transaccionales se utilizan para procesar transacciones de forma continua, y se utilizan comúnmente para la entrada de pedidos y las transacciones financieras y de ventas. No se basan en datos históricos. De hecho, en los entornos OLTP, los datos históricos a menudo se archivan o simplemente se eliminan para mejorar el rendimiento.
Los data warehouses y los sistemas OLTP son muy diferentes.
Almacén de datos | Sistema OLTP | |
---|---|---|
Carga de trabajo | Permite consultas ad-hoc y análisis de datos | Solo permite operaciones predefinidas |
Modificaciones de datos | Actualizaciones automáticas de forma regular | Las actualizaciones las realizan los usuarios finales al emitir declaraciones individuales |
Diseño de esquemas | Utiliza esquemas parcialmente desnormalizados para optimizar el rendimiento | Utiliza esquemas completamente normalizados para garantizar la uniformidad de los datos |
Escaneo de datos | Abarca miles de millones de filas | Solo puede acceder a unos pocos registros al mismo tiempo |
Datos históricos | Almacena meses o años de datos | Solo almacena datos de las últimas semanas o meses |
La iteración más reciente del data warehouse es el data warehouse autónomo, que se basa en la inteligencia artificial y el aprendizaje automático para eliminar las tareas manuales y simplificar la configuración, la implementación y la gestión de datos. Un data warehouse autónomo como servicio en la nube no precisa de participación humana en la administración de la base de datos, la configuración o gestión del hardware ni la instalación del software.
La creación del data warehouse, las copias de seguridad, la aplicación de parches y la actualización, y la ampliación o la reducción de la base de datos se realizan automáticamente y con los mismos costos reducidos y la misma flexibilidad, escalabilidad y agilidad que ofrecen las plataformas en la nube. El data warehouse autónomo elimina la complejidad, acelera la implementación y libera recursos para que las empresas puedan centrarse en actividades que aporten valor a la actividad comercial.
Oracle Autonomous Data Warehouse es un data warehouse totalmente autónomo y fácil de usar, con escalabilidad flexible, que ofrece un alto rendimiento en consultas y no requiere administración de la base de datos. La configuración para Oracle Autonomous Data Warehouse es rápida y muy sencilla.