¿Qué es un almacén de datos?

Almacén de datos definido

Un almacén de datos es un tipo de sistema de gestión de datos diseñado para habilitar y dar soporte a las tareas de inteligencia empresarial (BI), especialmente las analíticas. Los data warehouses solo se han diseñado para realizar consultas y tareas de análisis, y suelen contener grandes cantidades de datos históricos. A menudo, la información dentro de un data warehouse proviene de una amplia gama de fuentes, como los archivos de registro de aplicaciones o las aplicaciones de transacción.

Un almacén de datos centraliza y fusiona grandes cantidades de datos de múltiples fuentes. Gracias a sus capacidades analíticas, las organizaciones pueden obtener información empresarial valiosa a partir de los datos y mejorar las decisiones. Con el tiempo, se construye un registro histórico de gran valor para los expertos en datos y los analistas de negocio. Gracias a estas funciones, un almacén de datos puede considerarse la "fuente única de datos" de una organización.


Video de Data Warehouse

 

Un almacén de datos típico suele incluir los siguientes elementos:

  • Una base de datos relacional para almacenar y gestionar los datos.
  • Una solución de extracción, carga y transformación (ELT) para preparar los datos para el análisis.
  • Análisis estadísticos, informes y funciones de extracción de datos.
  • Herramientas de análisis de clientes para visualizar y presentar datos a usuarios de negocio.
  • Otras aplicaciones analíticas más sofisticadas generan información procesable mediante la aplicación de algoritmos de ciencia de datos e inteligencia artificial (IA), o gráficos y funciones espaciales que habilitan más tipos de análisis de datos a escala.

Las organizaciones también pueden elegir una solución que combine el procesamiento de transacciones, análisis en tiempo real en almacenes de datos y lagos de datos, y machine learning en un solo servicio de base de datos MySQL, sin la complejidad, latencia, costo y riesgo de duplicación de la extracción, transformación y carga (ETL).

Las ventajas de un almacén de datos

Los almacenes de datos ofrecen una ventaja exclusiva y global: permitir a las organizaciones analizar grandes cantidades de datos de variables y extraer un valor significativo, además de mantener un registro histórico.

Los data warehouses cuentan con cuatro características exclusivas (descritas por el experto en informática William Inmon, considerado el originador de los data warehouses) por las que pueden aportar esta ventaja global. Según esta definición, los data warehouses disponen de las siguientes características:

  • Orientados a sujetos. Pueden analizar datos sobre un tema particular o área funcional (como las ventas).
  • Integrados. Los data warehouses crean uniformidad entre diferentes tipos de datos de fuentes dispares.
  • No volátiles. Cuando la información entra en un data warehouse, es estable y no cambia.
  • Tienen en cuenta las variaciones a lo largo del tiempo. La analítica de los data warehouses toma en consideración los cambios que se producen con el tiempo.

Un almacén de datos bien diseñado realizará las consultas muy rápidamente, ofrecerá un alto rendimiento de datos y proporcionará suficiente flexibilidad para que los usuarios finales puedan segmentar y desglosar o reducir el volumen de datos para un examen más detallado con el fin de satisfacer diversas necesidades, tanto generales como específicas. El data warehouse es la base funcional para los entornos de BI middleware que suministran informes, cuadros de mando y otras interfaces a los usuarios finales.

Arquitectura de un data warehouse

La arquitectura de un data warehouse depende de las necesidades específicas de la organización. Algunas de las arquitecturas más comunes son:

  • Sencilla. Todos los data warehouses comparten un diseño básico en el que los metadatos, los datos de resumen y los datos sin procesar se almacenan en el repositorio central del almacén. En uno de los lados, el repositorio se alimenta de fuentes de datos y, en el otro, los usuarios finales acceden para las tareas de análisis, elaboración de informes y extracción.
  • Sencilla con zona de preparación. Es necesario limpiar y procesar los datos operativos antes de colocarlos en el almacén. Aunque esto se puede hacer mediante programación, muchos data warehouses añaden una zona de preparación de datos antes de introducirlos en el almacén, a fin de simplificar la preparación.
  • Radial. Al añadir data marts entre el repositorio central y los usuarios finales, las organizaciones pueden personalizar su data warehouse para atender a varias áreas de negocio. Cuando los datos ya están listos para el uso, se mueven al data mart correspondiente.
  • Entorno de pruebas. Los entornos de pruebas (sandbox) son zonas seguras, privadas y protegidas donde las empresas pueden explorar de forma rápida e informal nuevos conjuntos de datos o nuevas maneras de analizarlos sin tener que cumplir con las reglas y los protocolos formales del data warehouse.

La evolución de los almacenes de datos: desde los análisis de datos hasta la inteligencia artificial y el aprendizaje automático

Cuando aparecieron por primera vez los data warehouses a finales de los 80, su objetivo era que los datos pasaran de los sistemas operativos a los sistemas de apoyo a las decisiones (DSS). Aquellos primeros data warehouses necesitaban un volumen enorme de redundancias. La mayoría de empresas tenían múltiples entornos DSS para sus diferentes usuarios. Aunque los entornos DSS utilizaban, en gran medida, los mismos datos, la recopilación, la limpieza y la integración de estos se solía replicar para cada entorno.

A medida que los data warehouses se volvieron más eficientes, pasaron de ser almacenes de información compatibles con plataformas de BI tradicionales a convertirse en infraestructuras analíticas más abiertas que admitían una amplia variedad de aplicaciones, como la analítica operativa o la gestión del rendimiento.

Las iteraciones del almacén de datos han evolucionado a lo largo del tiempo para generar valor adicional incremental a la empresa con almacén de datos empresariales (EDW)..

Fase Función Valor para la empresa
1 Elaboración de informes sobre transacciones Suministra información relacional para crear instantáneas del rendimiento de la empresa
2 Corte y fragmentación, consultas ad hoc, herramientas de BI Funciones avanzadas para lograr conocimientos más profundos y un análisis más sólido
3 Predicción de rendimiento en el futuro (minería de datos) Desarrolla visualizaciones y una inteligencia empresarial progresiva
4 Análisis táctico (espacial, estadístico) Ofrece escenarios hipotéticos para fundamentar las decisiones prácticas recurriendo a análisis más exhaustivos
5 Almacena meses o años de datos Solo almacena datos de las últimas semanas o meses

El soporte para cada uno de estos cinco pasos requiere de una creciente variedad de conjuntos de datos. Los últimos tres pasos en particular exigen una gama de datos y funciones analíticas más amplia.

En la actualidad, la inteligencia artificial y el aprendizaje automático están transformando casi todos los sectores, los servicios y los activos empresariales: y los almacenes de datos no son una excepción. La expansión de big data y la aplicación de nuevas tecnologías digitales están impulsando un cambio en los requisitos y las capacidades de los data warehouses.

El data warehouse autónomo es el último paso en esta evolución y ofrece a las empresas la posibilidad de extraer un valor aún mayor de sus datos, reduciendo además los costos y mejorando la fiabilidad y el rendimiento.

Obtén más información sobre los almacenes de datos autónomos y empieza a utilizar tu propio almacén de datos autónomo.

Almacenes de datos, data marts y almacenes de datos operativos

Aunque desempeñan funciones similares, los almacenes de datos, los data marts y los almacenes de datos operativos (ODS) tienen diferencias entre sí. Un data mart lleva a cabo las mismas funciones que un almacén de datos, pero con un alcance mucho más limitado (por lo general, para un solo departamento o línea de negocio). Es por eso que es más fácil establecer un data mart que un data warehouse. Sin embargo, suelen introducir incoherencias, ya que es difícil administrar y controlar los datos de manera uniforme en muchos data marts.

Los ODS solo admiten operaciones diarias, por lo que su visión de los datos históricos es muy limitada. Aunque funcionan muy bien como fuentes de datos actuales y los almacenes de datos los emplean de ese modo, no admiten consultas avanzadas de datos históricos.

¿Qué es un data warehouse en la nube?

Un data warehouse en la nube utiliza la nube para asimilar y almacenar datos de fuentes de datos dispares.

Los almacenes de datos originales se crearon en servidores ubicados en entornos locales. Estos almacenes de datos locales siguen ofreciendo enormes ventajas en la actualidad. En muchos casos, brindan una mejor gobernanza, seguridad, soberanía de datos y latencia. Sin embargo, los data warehouses in-situ no son tan elásticos y requieren una previsión compleja para determinar cómo escalar el data warehouse para futuras necesidades. La gestión de estos data warehouses también puede resultar muy compleja.

Por otro lado, entre las ventajas de los almacenes de datos en la nube se pueden enumerar las siguientes:

Los mejores data warehouses en la nube son totalmente gestionados y autónomos; de este modo, incluso los principiantes puedan crear y utilizar un data warehouse con unos cuantos clics. Para iniciar la migración a un almacén de datos en la nube de manera sencilla, puedes ejecutar tu almacén de datos en la nube en un entorno local, con la protección del firewall del centro de datos, que cumple con todos los requisitos en materia de soberanía y seguridad de datos.

Asimismo, la mayoría de los almacenes de datos en la nube siguen un modelo de pago por consumo, que permite a los clientes generar nuevos ahorros de costos.

¿Qué es un data warehouse moderno?

No importa si forman parte de los equipos de TI, ingeniería de datos, análisis de negocio o ciencia de datos; todos los usuarios de una organización necesitan cosas distintas de un almacén de datos.

Una arquitectura de datos moderna aborda estas diferentes necesidades, ya que proporciona un modo de gestionar todos los tipos de datos, cargas de trabajo y análisis. Consiste en patrones de arquitectura con componentes necesarios integrados para trabajar juntos en alineación con las mejores prácticas de la industria. El data warehouse moderno incluye:

  • Una base de datos convergente que simplifica la gestión de todos los tipos de datos y proporciona diferentes formas de utilizar los datos.
  • Servicios de transformación y asimilación de datos de autoservicio
  • Compatibilidad para SQL, machine learning, grafos y procesamiento espacial
  • Varias opciones de analítica que facilitan el uso de datos sin moverlos
  • Gestión automatizada para un aprovisionamiento, escalado y administración sencillos

Un data warehouse moderno puede optimizar de manera eficiente los flujos de trabajo de datos de modo que otros almacenes no pueden. Esto significa que todos, desde analistas e ingenieros de datos hasta data scientists y equipos de TI, pueden realizar su trabajo de manera más efectiva y realizar el trabajo innovador que hace avanzar a la organización, sin innumerables retrasos y complejidad.

El diseño de un almacén de datos

Cuando una organización se propone diseñar un almacén de datos, debe comenzar por definir sus requisitos comerciales específicos, acordar el alcance y preparar un diseño conceptual. A partir de aquí, la empresa podrá crear el diseño lógico y físico para el data warehouse. El diseño lógico abarca las relaciones entre los objetos y el diseño físico consiste en encontrar la mejor manera de almacenar y extraer los objetos. El diseño físico también incluye las tareas de transporte, copia de seguridad y recuperación.

Cualquier diseño de data warehouse debe incluir los siguientes conceptos:

  • Contenido específico de datos.
  • Relaciones dentro de los grupos de datos y entre ellos.
  • El entorno de sistemas que dará soporte al data warehouse.
  • Los tipos de transformaciones de datos necesarios.
  • La frecuencia de actualización de los datos.

Un factor primordial en el diseño son las necesidades de los usuarios finales. La mayoría de usuarios finales quiere realizar análisis y ver los datos en conjunto, en lugar de realizar transacciones individuales. Sin embargo, es común que los usuarios finales no tengan claro lo que realmente quieren hasta que surja una necesidad específica. Por lo tanto, el proceso de planificación debe incluir una exploración suficientemente amplia como para prever las necesidades. Finalmente, el diseño del data warehouse debe dejar espacio para la ampliación y evolución a fin de seguir el paso de las cambiantes necesidades de los usuarios finales.

La nube y el data warehouse

Los data warehouses en la nube ofrecen las mismas características y ventajas que los data warehouses in-situ, pero con los beneficios adicionales del cloud computing, como la flexibilidad, la escalabilidad, la agilidad, la seguridad y el costo reducido. Con los almacenes de datos en la nube, las empresas pueden centrarse únicamente en extraer valor de sus datos, en lugar de tener que construir y administrar la infraestructura de hardware y software para dar soporte al almacén de datos.

¿Necesito un data lake?

Cuando las organizaciones tienen que gestionar grandes volúmenes de datos de diversas fuentes, utilizan tanto data lakes como data warehouses. La opción de usar un sistema u otro depende de lo que la organización quiera hacer con los datos. A continuación, describimos cómo utilizar uno y otro:

  • Los data lakes almacenan una gran cantidad de datos sin filtrar y de todo tipo, a fin de usarlos más adelante para un fin determinado. En un data lake, los datos de aplicaciones de áreas de negocio, aplicaciones móviles, redes sociales, dispositivos de IoT, etc. se obtienen como datos sin procesar. La estructura, la integridad, la selección y el formato de los diversos conjuntos de datos se adquiere en el momento del análisis por parte de la persona que lo realiza. Cuando las organizaciones necesitan un almacenamiento de bajo costo para datos sin estructura ni formato y de múltiples fuentes (a fin de usarlos en el futuro para algún propósito en particular), los data lakes podrían ser la opción ideal.
  • Los data warehouses están diseñados específicamente para analizar datos. Dentro de un almacén de datos, el procesamiento analítico se lleva a cabo con datos previamente preparados para su análisis —recopilados, contextualizados y transformados— con el fin de generar conocimientos basados en análisis. Los data warehouses también son perfectos para gestionar grandes cantidades de datos de diversas fuentes. Cuando las organizaciones necesitan una analítica de datos avanzada o un análisis que se base en datos históricos de múltiples fuentes de toda la empresa, es probable que el almacén de datos sea la mejor opción.

Analítica en entornos OLTP, ¿por qué no?

Los almacenes de datos son entornos relacionales que se utilizan para el análisis de datos, sobre todo para datos históricos. Las organizaciones utilizan los data warehouses para descubrir en sus datos patrones y relaciones que se desarrollan con el tiempo.

En contraste, los entornos transaccionales se utilizan para procesar transacciones de forma continua, y se utilizan comúnmente para la entrada de pedidos y las transacciones financieras y de ventas. No se basan en datos históricos. De hecho, en los entornos OLTP, los datos históricos a menudo se archivan o simplemente se eliminan para mejorar el rendimiento.

Los data warehouses y los sistemas OLTP son muy diferentes.

Almacén de datos Sistema OLTP
Carga de trabajo Permite consultas ad-hoc y análisis de datos Solo permite operaciones predefinidas
Modificaciones de datos Actualizaciones automáticas de forma regular Las actualizaciones las realizan los usuarios finales al emitir declaraciones individuales
Diseño de esquemas Utiliza esquemas parcialmente desnormalizados para optimizar el rendimiento Utiliza esquemas completamente normalizados para garantizar la uniformidad de los datos
Escaneo de datos Abarca miles de millones de filas Solo puede acceder a unos pocos registros al mismo tiempo
Datos históricos Almacena meses o años de datos Solo almacena datos de las últimas semanas o meses

Despliegue exento de complejidades: Autonomous Data Warehouse

La iteración más reciente del data warehouse es el data warehouse autónomo, que se basa en la inteligencia artificial y el aprendizaje automático para eliminar las tareas manuales y simplificar la configuración, la implementación y la gestión de datos. Un data warehouse autónomo como servicio en la nube no precisa de participación humana en la administración de la base de datos, la configuración o gestión del hardware ni la instalación del software.

La creación del data warehouse, las copias de seguridad, la aplicación de parches y la actualización, y la ampliación o la reducción de la base de datos se realizan automáticamente y con los mismos costos reducidos y la misma flexibilidad, escalabilidad y agilidad que ofrecen las plataformas en la nube. El data warehouse autónomo elimina la complejidad, acelera la implementación y libera recursos para que las empresas puedan centrarse en actividades que aporten valor a la actividad comercial.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse es un data warehouse totalmente autónomo y fácil de usar, con escalabilidad flexible, que ofrece un alto rendimiento en consultas y no requiere administración de la base de datos. La configuración para Oracle Autonomous Data Warehouse es rápida y muy sencilla.

Por qué elegir Oracle Autonomous Data Warehouse en lugar de Snowflake

  • Automatización. El único almacén de datos que automatiza completamente la administración de la base de datos.
  • Facilidad de uso. Autonomous Data Warehouse es más fácil de implementar y gestionar, con capacidades integradas que eliminan la necesidad de servicios independientes adicionales
  • Costo de la solución. Nuestro moderno almacén de datos y la función mejorada tienen costos similares para requisitos de carga de trabajo parecidos.
  • Seguridad de los datos. Proporcionamos protocolos de seguridad integrados más robustos que protegen tus datos frente a las ciberamenazas.
  • Control de datos. Nuestra plataforma de almacén de datos facilita a las organizaciones la gestión de las necesidades de soberanía de datos.