A quoi sert un Data Lakehouse ?

Data Warehouse + Data Lake = Data Lakehouse

Un data lakehouse peut être défini comme une plate-forme de données moderne construite à partir d'une combinaison d'un lac de données et d'un entrepôt de données. Plus précisément, un data lakehouse utilise le stockage flexible de données non structurées à partir d'un lac de données, ainsi que les fonctionnalités et les outils de gestion des data warehouses, puis les implémente stratégiquement ensemble en tant que système plus vaste. Cette intégration de deux outils uniques apporte le meilleur des deux mondes aux utilisateurs. Pour décomposer encore plus un data lakehouse, il est important de commencer par bien comprendre la définition des deux termes initiaux.

Data Lakehouse, Data Lake et Data Warehouse

Lorsque nous parlons d'un data lakehouse, nous faisons référence à l'utilisation combinée des plates-formes de référentiel de données actuelles.

Alors, comment un data lakehouse combine ces deux idées ? En général, un data lakehouse supprime les murs de silo entre un lac de données et un entrepôt de données. Cela signifie que les données peuvent être facilement déplacées entre le stockage à faible coût et flexible d'un lac de données vers un entrepôt de données et vice versa, ce qui permet d'accéder facilement aux outils de gestion d'un entrepôt de données pour l'implémentation du schéma et de la gouvernance, souvent alimentés par l'apprentissage automatique et l'intelligence artificielle pour le nettoyage des données. Le résultat crée un référentiel de données qui intègre la collection abordable et non structurée de lacs de données et la solide préparation d'un data warehouse. En fournissant l'espace nécessaire à la collecte à partir de sources de données organisées tout en utilisant des outils et des fonctionnalités qui préparent les données pour une utilisation professionnelle, un data lakehouse accélère les processus. D'une certaine manière, les data lakehouses sont des data warehouses, conceptuellement originaires du début des années 1980, réinitialisés pour notre monde moderne axé sur les données.

Caractéristiques d'un data warehouse

Avec une compréhension du concept général d'un data lakehouse, examinons un peu plus en détail les éléments spécifiques impliqués. Un data lakehouse offre de nombreux éléments familiers des concepts historiques de lac de données et d'entrepôt de données, mais d'une manière qui les fusionne en quelque chose de nouveau et plus efficace pour le monde numérique d'aujourd'hui.

Caractéristiques de Data Management

Un data warehouse offre généralement des fonctionnalités de gestion des données telles que le nettoyage des données, ETL et l'application du schéma. Elles sont intégrées dans un data lakehouse afin de préparer rapidement les données, ce qui permet aux données provenant de sources sélectionnées de collaborer naturellement et d'être préparées pour de nouveaux outils d'analyse et de business intelligence (BI).

Formats de stockage ouverts

L'utilisation de formats de stockage ouverts et standardisés signifie que les données provenant de sources de données organisées ont un bon début pour pouvoir travailler ensemble et être prêtes pour l'analyse ou le reporting.

Stockage flexible

La possibilité de séparer le calcul des ressources de stockage facilite l'évolutivité du stockage si nécessaire.

Prise en charge de Streaming

De nombreuses sources de données utilisent la diffusion en continu en temps réel directement à partir des appareils. Un data lakehouse est conçu pour mieux prendre en charge ce type d'ingestion en temps réel par rapport à un data warehouse standard. À mesure que le monde s'intègre davantage aux appareils Internet of Things, le support en temps réel devient de plus en plus important.

Diverses charges de travail

Etant donné qu'un data lakehouse intègre les fonctionnalités d'un data warehouse et d'un lac de données, il s'agit d'une solution idéale pour un certain nombre de charges de travail différentes. Des rapports commerciaux aux équipes de data science en passant par les outils d'analyse, les qualités inhérentes à un data lakehouse peuvent prendre en charge différentes charges de travail au sein d'une entreprise.

Avantages d'un data lakehouse : une plate-forme de données innovante

En créant un data lakehouse, les entreprises peuvent rationaliser leur processus global de gestion des données avec une plate-forme de données unifiée. Un data lakehouse peut remplacer des solutions individuelles en décomposant les murs en silo entre plusieurs référentiels. Cette intégration crée un processus de bout en bout beaucoup plus efficace que les sources de données organisées. Cela crée plusieurs avantages.

  • Moins d'administration : en utilisant un data lakehouse, toutes les sources qui y sont connectées peuvent rendre leurs données accessibles et consolidées pour l'utilisation, plutôt que de les extraire des données brutes et de les préparer à travailler dans un data warehouse.
  • Meilleure gouvernance des données : les data lakehouses simplifient et améliorent la gouvernance en consolidant les ressources et les sources de données. Ils sont construits avec un schéma ouvert standardisé, qui permet un meilleur contrôle sur la sécurité, les indicateurs, l'accès basé sur les rôles et d'autres éléments de gestion essentiels.
  • Normes simplifiées : les entrepôts de données ont été créés dans les années 1980, lorsque la connectivité était extrêmement limitée, ce qui signifie que des normes de schéma localisées ont souvent été créées au sein d'organisations, voire de services. Aujourd'hui, il existe des normes de schéma ouvertes pour de nombreux types de données, et les data lakehouses en tirent parti en ingérant plusieurs sources de données avec un schéma standardisé qui se chevauche pour simplifier les processus.
  • Augmentation de la rentabilité : les data lakehouses sont construits avec une infrastructure qui sépare le calcul et le stockage, ce qui permet d'ajouter facilement du stockage sans avoir à augmenter la puissance de calcul. Cela permet une mise à l'échelle rentable grâce à l'utilisation simple du stockage de données à faible coût.

Bien que certaines organisations construisent un data lakehouse, d'autres achètent un service cloud de data lakehouse.

Nos clients témoignent : Data Lakehouse

Miniature de la vidéo expérimentale
Experian

Experian a amélioré ses performances de 40 % et réduit ses coûts de 60 % lorsqu'il a migré des workloads de données critiques d'autres clouds vers un data lakehouse sur OCI, accélérant le traitement des données et l'innovation produit tout en élargissant les opportunités de crédit dans le monde entier.

Miniature de Generali
Generali

Generali Group est une compagnie d'assurance italienne avec l'une des plus grandes bases de clients au monde. Generali disposait de nombreuses sources de données, issues d'Oracle Cloud HCM et d'autres sources locales et régionales. Leur processus de décision RH et l'implication des employés ont heurté les obstacles, et l'entreprise a cherché une solution pour améliorer l'efficacité. L'intégration d'Oracle Autonomous Data Warehouse aux sources de données de Generali a éliminé les silos et créé une ressource unique pour toutes les analyses RH. Cela a permis d'améliorer l'efficacité et d'augmenter la productivité du personnel RH, ce qui leur permet de se concentrer sur les activités à valeur ajoutée plutôt que sur l'attrition de la génération de rapports.

Miniature de Lyft
Lyft

L'un des principaux fournisseurs de covoiturage au monde, Lyft s'occupait de 30 systèmes financiers cloisonnés différents. Cette séparation a entravé la croissance de l'entreprise et ralenti les processus. En intégrant Oracle Cloud ERP et Oracle Cloud EPM à Oracle Autonomous Data Warehouse, Lyft a pu consolider ses finances, ses opérations et ses analyses sur un seul système. Cela a réduit le temps de fermer ses livres de 50%, avec le potentiel d'une rationalisation encore plus poussée des processus. Cela a également permis d'économiser sur les coûts en réduisant les heures d'inactivité.

Miniature vidéo Agroscout
Agroscout

Agroscout est un développeur logiciel qui travaille avec aide les agriculteurs à maximiser les cultures saines et sûres. Pour augmenter la production alimentaire, Agroscout a utilisé un réseau de drones pour enquêter sur les cultures pour des bugs ou des maladies. L'organisation avait besoin d'un moyen efficace de consolider les données et de les traiter pour identifier les signes de danger pour les cultures. Grâce au lac de données Oracle Object Storage, les drones ont directement téléchargé des cultures. Des modèles de machine learning ont été créés avec OCI Data Science pour traiter les images. Il en résulte un processus considérablement amélioré qui a permis une réponse rapide à l'augmentation de la production alimentaire.

Découvrez pourquoi OCI est le meilleur endroit pour construire un Lakehouse

Chaque jour, de plus en plus de sources de données envoient de plus en plus de volumes de données à travers le monde. Pour toute organisation, cette combinaison de données structurées et non structurées reste un défi. Les data lakehouses relient, corrélent et analysent ces sorties variées en un seul système gérable.