Qu’est-ce qu’un data warehouse ?

Définition d’un data warehouse

Un data warehouse est un type de système de gestion de données conçu pour permettre et faciliter les activités de business intelligence (BI), en particulier l’analytique. Les data warehouses sont uniquement destinés à effectuer des requêtes et des analyses. Ils contiennent souvent de grandes quantités de données historiques. Les données contenues dans un data warehouse proviennent généralement d’un large éventail de sources telles que les fichiers journaux d’application et les applications transactionnelles.

Un data warehouse centralise et consolide de grandes quantités de données provenant de plusieurs sources. Ses capacités analytiques permettent aux entreprises de tirer de leurs données de précieuses informations commerciales leur permettant d’améliorer leur processus de prise de décision. Au fil du temps, il crée un enregistrement historique qui peut s’avérer inestimable pour les data scientists et les analystes métiers. En raison de ces capacités, un data warehouse peut être considéré comme la source unique d’informations fiables d’une entreprise.


Vidéo : Data Warehouse

 

Un data warehouse classique comprend souvent les éléments suivants :

  • Une base de données relationnelle pour stocker et gérer les données
  • Une solution d’extraction, de chargement et de transformation pour la préparation des données en vue de l’analyse
  • Des capacités d’analyse statistique, de reporting et d’exploration de données
  • Des outils d’analyse client pour la visualisation et la présentation de données aux utilisateurs professionnels
  • Autres applications analytiques plus sophistiquées qui génèrent des informations exploitables avec des algorithmes de data science et d'intelligence artificielle (IA), ou des graphes et des fonctionnalités spatiales qui permettent d'analyser davantage de données à grande échelle

Les entreprises peuvent également sélectionner une solution combinant le traitement des transactions, les analyses en temps réel dans les data warehouses et les data lakes, et le machine learning dans un service MySQL Database, sans la complexité, la latence, le coût et le risque de duplication d'extraction, de transformation et de chargement (ETL).

Avantages d’un data warehouse

Les data warehouses offrent l’avantage unique et fondamental de permettre aux entreprises d’analyser de grandes quantités de variantes de données et d’en extraire une valeur significative, ainsi que de conserver un enregistrement historique.

Quatre caractéristiques uniques (décrites par l’informaticien William Inmon, considéré comme le père du data warehouse) permettent aux data warehouses d’offrir cet avantage primordial. Selon cette définition, les data warehouses sont

  • Orientés sujet. Ils sont capables d’analyser des données sur un sujet ou un domaine fonctionnel particulier (comme les ventes).
  • Intégrés. Les data warehouses créent une cohérence entre différents types de données provenant de sources disparates.
  • Non volatiles. Une fois que les données sont dans un data warehouse, elles sont stables et ne changent pas.
  • À variante temporelle. L’analyse de data warehouse examine l’évolution dans le temps.

Un data warehouse bien conçu exécutera les requêtes très rapidement, fournira un débit de données élevé et offrira suffisamment de flexibilité aux utilisateurs finaux pour décomposer ou réduire le volume de données et permettre un examen plus approfondi afin de répondre à une variété de demandes, que ce soit à un niveau global ou à un niveau très fin et détaillé. Le data warehouse sert de base fonctionnelle pour les environnements BI de middleware fournissant aux utilisateurs finaux des rapports, des tableaux de bord et d’autres interfaces.

Architecture d’un data warehouse

L’architecture d’un data warehouse est déterminée par les besoins spécifiques de l’entreprise. Les architectures courantes incluent

  • Simplicité. Tous les data warehouses partagent une conception de base dans laquelle les métadonnées, les données de synthèse et les données brutes sont stockées dans leur référentiel central. Le référentiel est alimenté par des sources de données à une extrémité et il est accessible par les utilisateurs finaux à des fins d’analyse, de reporting et d’exploration à l’autre extrémité.
  • Simple avec une zone de transfert. Les données opérationnelles doivent être nettoyées et traitées avant d’être placées au sein du data warehouse. Bien que cela puisse être réalisé par l’intermédiaire d’un programme, de nombreux data warehouses ajoutent une zone de transfert intermédiaire pour les données avant leur entrée dans le data warehouse, afin de simplifier leur préparation.
  • Structure en étoile. L’ajout de data marts entre le référentiel central et les utilisateurs finaux permet à une entreprise de personnaliser son data warehouse afin de desservir divers secteurs d’activité. Lorsque les données sont prêtes à être utilisées, elles sont déplacées vers le data mart approprié.
  • Bacs à sable. Les sandboxes sont des zones privées et sécurisées qui permettent aux entreprises d’explorer rapidement et de manière informelle de nouveaux jeux de données ou de nouvelles méthodes d’analyse des données qui ne nécessitent pas de se conformer aux règles et au protocole formels du data warehouse.

L’évolution des data warehouses : de l’analytique des données à l’IA et au machine learning

Lorsque les data warehouses ont fait leur apparition à la fin des années 1980, leur objectif était de faciliter la circulation des données des systèmes opérationnels vers les systèmes d’aide à la décision (SAD). Ces premiers data warehouses nécessitaient un volume de redondance énorme. La plupart des entreprises disposaient de plusieurs environnements SAD adaptés à leurs différents utilisateurs. Bien que les environnements SAD utilisaient en grande partie les mêmes données, la collecte, le nettoyage et l’intégration des données étaient souvent répliqués pour chaque environnement.

À mesure que les data warehouses devenaient plus efficaces, ils passaient de magasins d’informations prenant en charge les plateformes de BI classiques à de larges infrastructures analytiques prenant en charge une grande variété d’applications, telles que les analyses opérationnelles et la gestion des performances.

Les itérations de data warehouses ont progressé au fil du temps pour fournir une valeur supplémentaire incrémentielle à l’entreprise avec un data warehouse d'entreprise.

Étape Capacité Valeur commerciale
1 Reporting transactionnel Fournit des informations relationnelles pour créer des instantanés des performances commerciales
2 Décomposition, requête ad hoc, outils de BI Étend les capacités pour des informations plus approfondies et une analyse plus robuste
3 Prédiction des performances futures (exploration de données) Développe des visualisations et la business intelligence prospective
4 Analyse tactique (spatiale, statistique) Propose des scénarios hypothétiques pour éclairer les décisions pratiques basées sur une analyse plus complète
5 Stocke de nombreux mois ou années de données Stocke les données pour quelques semaines ou mois seulement

La prise en charge de chacune de ces cinq étapes a nécessité une variété croissante de jeux de données. Les trois dernières étapes en particulier créent l’impératif d’une gamme encore plus étendue de capacités en matière de données et d’analyse.

Aujourd’hui, l’IA et le machine learning bouleversent presque tous les secteurs d’activité, services et ressources d’entreprise, et les data warehouses ne font pas exception. L’expansion de Big Data et l’application de nouvelles technologies digitales entraînent une modification des exigences et des capacités des data warehouses.

Le data warehouse autonome représente la dernière étape de cette évolution. Il offre aux entreprises la possibilité d’extraire encore plus de valeur de leurs données tout en réduisant les coûts et en améliorant la fiabilité et les performances du data warehouse.

Découvrez-en davantage sur les data warehouses autonomes et démarrez avec votre propre data warehouse autonome.

Data Warehouses, Data Marts et magasins de données opérationnels

Bien qu’ils remplissent des rôles similaires, les data warehouses sont différents des data marts et des magasins de données opérationnels (MDO). Un data mart remplit les mêmes fonctions qu’un data warehouse mais dans un champ beaucoup plus limité, généralement un seul service ou une seule branche d’activité. Cela rend les data marts plus faciles à établir que les data warehouses. Cependant, ils ont tendance à introduire des incohérences, car il peut s’avérer difficile de gérer et de contrôler de manière uniforme les données dans de nombreux data marts.

Les MDO ne prenant en charge que les opérations quotidiennes, leur vue sur les données historiques est très limitée. Bien qu’ils fonctionnent très bien comme sources de données actuelles et soient souvent utilisées comme tels par les data warehouses, ils ne prennent pas en charge les requêtes riches en historique.

Qu’est-ce qu’un data warehouse Cloud ?

Un data warehouse Cloud utilise le Cloud pour ingérer et stocker des données provenant de sources de données disparates.

À l'origine, les data warehouses étaient mis en place sur des serveurs sur site. Ces data warehouses sur site continuent de présenter de multiples avantages aujourd’hui. Dans de nombreux cas, ils peuvent améliorer la gouvernance, la sécurité, la souveraineté des données et la latence. Cependant, les data warehouses sur site ne sont pas aussi élastiques et nécessitent des prévisions complexes pour déterminer comment faire évoluer le data warehouse pour les besoins futurs. La gestion de ces data warehouses peut également être très complexe.

Néanmoins, les data warehouses cloud présentent plusieurs avantages :

Les meilleurs data warehouses Cloud sont entièrement gérés et autonomes, garantissant que même les débutants peuvent créer et utiliser un data warehouse en quelques clics. Pour démarrer facilement votre migration vers un data warehouse cloud, vous pouvez exécuter votre data warehouse cloud sur site, derrière votre pare-feu de data center, afin de respecter les exigences en matière de sécurité et de souveraineté des données.

En outre, la plupart des data warehouses cloud suivent un modèle de paiement à l’utilisation, ce qui permet aux clients de réaliser des économies supplémentaires.

Qu’est-ce qu’un data warehouse innovant ?

Qu’ils fassent partie d’une équipe informatique, d’ingénierie des données, d’analyse commerciale ou de data science, les différents utilisateurs de l’entreprise ont des besoins différents en matière de data warehouse.

Une architecture de données innovante répond à ces différents besoins en offrant un moyen de gérer tous les types de données, les charges de travail et les analyses. Elle se compose de modèles d’architecture avec les composants nécessaires intégrés pour travailler ensemble conformément aux meilleures pratiques du secteur. Le data warehouse innovant comprend :

  • Une base de données convergente qui simplifie la gestion de tous les types de données et propose différentes manières d’utiliser les données
  • Services d’ingestion et de transformation de données en libre accès
  • Prise en charge de SQL, du machine learning, des graphes et du traitement spatial
  • Plusieurs options d’analyse qui facilitent l’utilisation des données sans les déplacer
  • Gestion automatisée pour un approvisionnement, une évolutivité et une administration simples

Un data warehouse innovant peut rationaliser efficacement les flux de travail de données d’une manière que d’autres entrepôts ne peuvent pas. Cela signifie que tout le monde, des analystes et ingénieurs de données aux data scientists et aux équipes informatiques, peut effectuer son travail plus efficacement et poursuivre le travail innovant qui fait avancer l’entreprise, sans délais et sans complexité.

Conception d’un data warehouse

Lorsqu’une entreprise entreprend de concevoir un data warehouse, elle doit commencer par définir ses besoins métier spécifiques, définir le champ d’application et élaborer un concept. L’entreprise peut ensuite créer à la fois la conception logique et physique pour le data warehouse. La conception logique implique les relations entre les objets et la conception physique représente le meilleur moyen de stocker et de récupérer les objets. La conception physique intègre également les processus de transport, de sauvegarde et de récupération.

Toute conception de data warehouse doit prendre en considération les éléments suivants :

  • Contenu de données spécifique
  • Relations au sein des groupes de données et entre eux
  • Environnement système qui prendra en charge le data warehouse
  • Types de transformations de données nécessaires
  • Fréquence d’actualisation des données

Les besoins des utilisateurs finaux constituent un facteur primordial dans la conception. La plupart des utilisateurs finaux sont intéressés par l’analyse et par l’examen de données agrégées plutôt que par des transactions individuelles. Cependant, les utilisateurs finaux ne savent souvent pas vraiment ce qu’ils veulent avant qu’un besoin spécifique ne survienne. Par conséquent, le processus de planification doit inclure une exploration suffisante pour anticiper les besoins. Enfin, la conception du data warehouse doit permettre une expansion et une évolution permettant de répondre aux besoins en constante évolution des utilisateurs finaux.

Le Cloud et le data warehouse

Les data warehouses dans le Cloud offrent les mêmes caractéristiques et avantages que les data warehouses sur site, mais avec les avantages supplémentaires du cloud computing, tels que la flexibilité, l’évolutivité, l’agilité, la sécurité et des coûts réduits. Les data warehouses dans le Cloud permettent aux entreprises de se concentrer exclusivement sur l’extraction de valeur de leurs données plutôt que de devoir créer et gérer l’infrastructure matérielle et logicielle nécessaire à la prise en charge du data warehouse.

Ai-je besoin d’un lac de données ?

Les entreprises utilisent à la fois des lacs de données et des data warehouses pour des volumes de données importants provenant de différentes sources. Le choix du moment d’utilisation de l’un ou de l’autre dépend de ce que l’entreprise a l’intention de faire avec les données. Les paragraphes suivants décrivent la meilleure utilisation de chaque option :

  • Les lacs de données stockent une énorme quantité de données disparates non filtrées à utiliser ultérieurement dans un but particulier. Les données provenant d’applications sectorielles, d’applications mobiles, des réseaux sociaux, de terminaux IoT, et ainsi de suite, sont capturées sous forme de données brutes dans un lac de données. La structure, l’intégrité, la sélection et le format des divers jeux de données sont dérivés au moment de l’analyse par la personne qui effectue l’analyse. Lorsque les entreprises ont besoin d’une solution de stockage à faible coût pour les données non formatées et non structurées provenant de plusieurs sources et qu’elles comptent utiliser à l’avenir, un lac de données peut constituer le choix approprié.
  • Les data warehouses sont spécifiquement destinés à l’analyse de données. Le traitement analytique au sein d’un data warehouse est effectué sur les données préparées pour l’analyse (rassemblées, contextualisées et transformées) dans le but de générer des informations exploitables basées sur l’analyse. Les data warehouses sont également aptes à traiter de grandes quantités de données provenant de diverses sources. Lorsque les entreprises ont besoin d’analyses de données avancées ou d’une analyse qui s’appuie sur des données historiques provenant de plusieurs sources au sein de leur entreprise, l’option data warehouse est probablement le bon choix.

Pourquoi ne pas exécuter d’analyses par rapport à votre environnement OLTP ?

Les data warehouses sont des environnements relationnels utilisés pour l’analyse des données, en particulier des données historiques. Les entreprises utilisent des data warehouses pour découvrir au sein de leurs données des tendances et des relations qui se développent au fil du temps.

En revanche, les environnements transactionnels permettent de traiter les transactions en continu et sont couramment utilisés pour la saisie des commandes et les transactions financières et de détail. Ils ne reposent pas sur des données historiques. En fait, dans les environnements OLTP, les données historiques sont souvent archivées ou simplement supprimées afin d'améliorer les performances.

Les data warehouses et les systèmes OLTP diffèrent considérablement.

Data warehouse Système OLTP
Workload Prend en charge les requêtes ad hoc et l’analyse des données Prend en charge uniquement les opérations prédéfinies
Modifications de données Mises à jour automatiques et régulières Mises à jour par les utilisateurs finaux émettant des relevés individuels
Conception de schémas Utilise des schémas partiellement dénormalisés pour optimiser les performances Utilise des schémas entièrement normalisés pour garantir la cohérence des données
Balayage de données Englobe des milliers à des millions de lignes Accède à seulement une poignée d’enregistrements à la fois
Données historiques Stocke de nombreux mois ou années de données Stocke les données pour quelques semaines ou mois seulement

Déploiement sans complexité : Autonomous Data Warehouse

L’itération la plus récente du data warehouse est la data warehouse autonome, qui repose sur l’IA et le machine learning pour éliminer les tâches manuelles et simplifier la configuration, le déploiement et la gestion des données. Une data warehouse autonome en tant que service dans le Cloud ne nécessite aucune intervention humaine pour l’administration de base de données, la configuration ou la gestion du matériel, ni l’installation de logiciel.

La création du data warehouse, la sauvegarde, l’application de correctifs et la mise à niveau de la base de données, ainsi que l’extension ou la réduction de la base de données sont effectuées automatiquement, avec le même niveau de flexibilité, d’évolutivité, d’agilité et de coûts réduits qu’offrent les plates-formes cloud. Le data warehouse autonome élimine la complexité, accélère le déploiement et libère des ressources pour que les entreprises puissent se concentrer sur des activités qui ajoutent de la valeur à l’entreprise.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse est un data warehouse facile à utiliser, entièrement autonome, évolutif de manière élastique, offrant des performances de requête rapides et ne nécessitant aucune administration de base de données. La configuration d’Oracle Autonomous Data Warehouse est très simple et rapide.

Pourquoi choisir Oracle Autonomous Data Warehouse plutôt que Snowflake

  • Automatisation. Le seul data warehouse qui automatise entièrement l'administration de la base de données.
  • Facilité d’utilisation. La solution d'Autonomous Data Warehouse est plus simple à déployer et à gérer grâce à des fonctionnalités intégrées qui éliminent le besoin de services autonomes supplémentaires
  • Coût de la solution. Notre data warehouse moderne et nos fonctionnalités améliorées ont des coûts similaires à ceux de workloads analogues.
  • Sécurité des données. Nous fournissons des protocoles de sécurité intégrés plus solides qui protègent vos données contre les cybermenaces.
  • Gouvernance des données. Notre plateforme de data warehouse permet aux entreprises de gérer facilement leurs besoins en matière de souveraineté des données.