Un data warehouse est un type de système de gestion de données conçu pour permettre et faciliter les activités de business intelligence (BI), en particulier l’analytique. Les data warehouses sont uniquement destinés à effectuer des requêtes et des analyses. Ils contiennent souvent de grandes quantités de données historiques. Les données contenues dans un data warehouse proviennent généralement d’un large éventail de sources telles que les fichiers journaux d’application et les applications transactionnelles.
Un data warehouse centralise et consolide de grandes quantités de données provenant de plusieurs sources. Ses capacités analytiques permettent aux entreprises de tirer de leurs données de précieuses informations commerciales leur permettant d’améliorer leur processus de prise de décision. Au fil du temps, il crée un enregistrement historique qui peut s’avérer inestimable pour les data scientists et les analystes métiers. En raison de ces capacités, un data warehouse peut être considéré comme la source unique d’informations fiables d’une entreprise.
Un data warehouse classique comprend souvent les éléments suivants :
Les entreprises peuvent également sélectionner une solution combinant le traitement des transactions, les analyses en temps réel dans les data warehouses et les data lakes, et le machine learning dans un service MySQL Database, sans la complexité, la latence, le coût et le risque de duplication d'extraction, de transformation et de chargement (ETL).
Les data warehouses offrent l’avantage unique et fondamental de permettre aux entreprises d’analyser de grandes quantités de variantes de données et d’en extraire une valeur significative, ainsi que de conserver un enregistrement historique.
Quatre caractéristiques uniques (décrites par l’informaticien William Inmon, considéré comme le père du data warehouse) permettent aux data warehouses d’offrir cet avantage primordial. Selon cette définition, les data warehouses sont
Un data warehouse bien conçu exécutera les requêtes très rapidement, fournira un débit de données élevé et offrira suffisamment de flexibilité aux utilisateurs finaux pour décomposer ou réduire le volume de données et permettre un examen plus approfondi afin de répondre à une variété de demandes, que ce soit à un niveau global ou à un niveau très fin et détaillé. Le data warehouse sert de base fonctionnelle pour les environnements BI de middleware fournissant aux utilisateurs finaux des rapports, des tableaux de bord et d’autres interfaces.
L’architecture d’un data warehouse est déterminée par les besoins spécifiques de l’entreprise. Les architectures courantes incluent
Lorsque les data warehouses ont fait leur apparition à la fin des années 1980, leur objectif était de faciliter la circulation des données des systèmes opérationnels vers les systèmes d’aide à la décision (SAD). Ces premiers data warehouses nécessitaient un volume de redondance énorme. La plupart des entreprises disposaient de plusieurs environnements SAD adaptés à leurs différents utilisateurs. Bien que les environnements SAD utilisaient en grande partie les mêmes données, la collecte, le nettoyage et l’intégration des données étaient souvent répliqués pour chaque environnement.
À mesure que les data warehouses devenaient plus efficaces, ils passaient de magasins d’informations prenant en charge les plateformes de BI classiques à de larges infrastructures analytiques prenant en charge une grande variété d’applications, telles que les analyses opérationnelles et la gestion des performances.
Les itérations de data warehouses ont progressé au fil du temps pour fournir une valeur supplémentaire incrémentielle à l’entreprise avec un data warehouse d'entreprise.
Étape | Capacité | Valeur commerciale |
---|---|---|
1 | Reporting transactionnel | Fournit des informations relationnelles pour créer des instantanés des performances commerciales |
2 | Décomposition, requête ad hoc, outils de BI | Étend les capacités pour des informations plus approfondies et une analyse plus robuste |
3 | Prédiction des performances futures (exploration de données) | Développe des visualisations et la business intelligence prospective |
4 | Analyse tactique (spatiale, statistique) | Propose des scénarios hypothétiques pour éclairer les décisions pratiques basées sur une analyse plus complète |
5 | Stocke de nombreux mois ou années de données | Stocke les données pour quelques semaines ou mois seulement |
La prise en charge de chacune de ces cinq étapes a nécessité une variété croissante de jeux de données. Les trois dernières étapes en particulier créent l’impératif d’une gamme encore plus étendue de capacités en matière de données et d’analyse.
Aujourd’hui, l’IA et le machine learning bouleversent presque tous les secteurs d’activité, services et ressources d’entreprise, et les data warehouses ne font pas exception. L’expansion de Big Data et l’application de nouvelles technologies digitales entraînent une modification des exigences et des capacités des data warehouses.
Le data warehouse autonome représente la dernière étape de cette évolution. Il offre aux entreprises la possibilité d’extraire encore plus de valeur de leurs données tout en réduisant les coûts et en améliorant la fiabilité et les performances du data warehouse.
Découvrez-en davantage sur les data warehouses autonomes et démarrez avec votre propre data warehouse autonome.
Bien qu’ils remplissent des rôles similaires, les data warehouses sont différents des data marts et des magasins de données opérationnels (MDO). Un data mart remplit les mêmes fonctions qu’un data warehouse mais dans un champ beaucoup plus limité, généralement un seul service ou une seule branche d’activité. Cela rend les data marts plus faciles à établir que les data warehouses. Cependant, ils ont tendance à introduire des incohérences, car il peut s’avérer difficile de gérer et de contrôler de manière uniforme les données dans de nombreux data marts.
Les MDO ne prenant en charge que les opérations quotidiennes, leur vue sur les données historiques est très limitée. Bien qu’ils fonctionnent très bien comme sources de données actuelles et soient souvent utilisées comme tels par les data warehouses, ils ne prennent pas en charge les requêtes riches en historique.
Un data warehouse Cloud utilise le Cloud pour ingérer et stocker des données provenant de sources de données disparates.
À l'origine, les data warehouses étaient mis en place sur des serveurs sur site. Ces data warehouses sur site continuent de présenter de multiples avantages aujourd’hui. Dans de nombreux cas, ils peuvent améliorer la gouvernance, la sécurité, la souveraineté des données et la latence. Cependant, les data warehouses sur site ne sont pas aussi élastiques et nécessitent des prévisions complexes pour déterminer comment faire évoluer le data warehouse pour les besoins futurs. La gestion de ces data warehouses peut également être très complexe.
Néanmoins, les data warehouses cloud présentent plusieurs avantages :
Les meilleurs data warehouses Cloud sont entièrement gérés et autonomes, garantissant que même les débutants peuvent créer et utiliser un data warehouse en quelques clics. Pour démarrer facilement votre migration vers un data warehouse cloud, vous pouvez exécuter votre data warehouse cloud sur site, derrière votre pare-feu de data center, afin de respecter les exigences en matière de sécurité et de souveraineté des données.
En outre, la plupart des data warehouses cloud suivent un modèle de paiement à l’utilisation, ce qui permet aux clients de réaliser des économies supplémentaires.
Qu’ils fassent partie d’une équipe informatique, d’ingénierie des données, d’analyse commerciale ou de data science, les différents utilisateurs de l’entreprise ont des besoins différents en matière de data warehouse.
Une architecture de données innovante répond à ces différents besoins en offrant un moyen de gérer tous les types de données, les charges de travail et les analyses. Elle se compose de modèles d’architecture avec les composants nécessaires intégrés pour travailler ensemble conformément aux meilleures pratiques du secteur. Le data warehouse innovant comprend :
Un data warehouse innovant peut rationaliser efficacement les flux de travail de données d’une manière que d’autres entrepôts ne peuvent pas. Cela signifie que tout le monde, des analystes et ingénieurs de données aux data scientists et aux équipes informatiques, peut effectuer son travail plus efficacement et poursuivre le travail innovant qui fait avancer l’entreprise, sans délais et sans complexité.
Lorsqu’une entreprise entreprend de concevoir un data warehouse, elle doit commencer par définir ses besoins métier spécifiques, définir le champ d’application et élaborer un concept. L’entreprise peut ensuite créer à la fois la conception logique et physique pour le data warehouse. La conception logique implique les relations entre les objets et la conception physique représente le meilleur moyen de stocker et de récupérer les objets. La conception physique intègre également les processus de transport, de sauvegarde et de récupération.
Toute conception de data warehouse doit prendre en considération les éléments suivants :
Les besoins des utilisateurs finaux constituent un facteur primordial dans la conception. La plupart des utilisateurs finaux sont intéressés par l’analyse et par l’examen de données agrégées plutôt que par des transactions individuelles. Cependant, les utilisateurs finaux ne savent souvent pas vraiment ce qu’ils veulent avant qu’un besoin spécifique ne survienne. Par conséquent, le processus de planification doit inclure une exploration suffisante pour anticiper les besoins. Enfin, la conception du data warehouse doit permettre une expansion et une évolution permettant de répondre aux besoins en constante évolution des utilisateurs finaux.
Les data warehouses dans le Cloud offrent les mêmes caractéristiques et avantages que les data warehouses sur site, mais avec les avantages supplémentaires du cloud computing, tels que la flexibilité, l’évolutivité, l’agilité, la sécurité et des coûts réduits. Les data warehouses dans le Cloud permettent aux entreprises de se concentrer exclusivement sur l’extraction de valeur de leurs données plutôt que de devoir créer et gérer l’infrastructure matérielle et logicielle nécessaire à la prise en charge du data warehouse.
Les entreprises utilisent à la fois des lacs de données et des data warehouses pour des volumes de données importants provenant de différentes sources. Le choix du moment d’utilisation de l’un ou de l’autre dépend de ce que l’entreprise a l’intention de faire avec les données. Les paragraphes suivants décrivent la meilleure utilisation de chaque option :
Les data warehouses sont des environnements relationnels utilisés pour l’analyse des données, en particulier des données historiques. Les entreprises utilisent des data warehouses pour découvrir au sein de leurs données des tendances et des relations qui se développent au fil du temps.
En revanche, les environnements transactionnels permettent de traiter les transactions en continu et sont couramment utilisés pour la saisie des commandes et les transactions financières et de détail. Ils ne reposent pas sur des données historiques. En fait, dans les environnements OLTP, les données historiques sont souvent archivées ou simplement supprimées afin d'améliorer les performances.
Les data warehouses et les systèmes OLTP diffèrent considérablement.
Data warehouse | Système OLTP | |
---|---|---|
Workload | Prend en charge les requêtes ad hoc et l’analyse des données | Prend en charge uniquement les opérations prédéfinies |
Modifications de données | Mises à jour automatiques et régulières | Mises à jour par les utilisateurs finaux émettant des relevés individuels |
Conception de schémas | Utilise des schémas partiellement dénormalisés pour optimiser les performances | Utilise des schémas entièrement normalisés pour garantir la cohérence des données |
Balayage de données | Englobe des milliers à des millions de lignes | Accède à seulement une poignée d’enregistrements à la fois |
Données historiques | Stocke de nombreux mois ou années de données | Stocke les données pour quelques semaines ou mois seulement |
L’itération la plus récente du data warehouse est la data warehouse autonome, qui repose sur l’IA et le machine learning pour éliminer les tâches manuelles et simplifier la configuration, le déploiement et la gestion des données. Une data warehouse autonome en tant que service dans le Cloud ne nécessite aucune intervention humaine pour l’administration de base de données, la configuration ou la gestion du matériel, ni l’installation de logiciel.
La création du data warehouse, la sauvegarde, l’application de correctifs et la mise à niveau de la base de données, ainsi que l’extension ou la réduction de la base de données sont effectuées automatiquement, avec le même niveau de flexibilité, d’évolutivité, d’agilité et de coûts réduits qu’offrent les plates-formes cloud. Le data warehouse autonome élimine la complexité, accélère le déploiement et libère des ressources pour que les entreprises puissent se concentrer sur des activités qui ajoutent de la valeur à l’entreprise.
Oracle Autonomous Data Warehouse est un data warehouse facile à utiliser, entièrement autonome, évolutif de manière élastique, offrant des performances de requête rapides et ne nécessitant aucune administration de base de données. La configuration d’Oracle Autonomous Data Warehouse est très simple et rapide.