Voici une définition simple : un lac de données est un endroit où stocker vos données structurées et non structurées, ainsi qu'une méthode pour organiser de gros volumes de données très diverses provenant de sources diverses.
Les lacs de données prennent de plus en plus d'importance car les gens, notamment dans le monde des affaires et de la technologie, veulent effectuer une large exploration et découverte des données. Le fait de rassembler les données en un seul endroit ou la plupart d'entre elles en un seul endroit simplifie les choses.
En fonction de votre plateforme, le lac de données peut rendre cela beaucoup plus facile. Il peut gérer de nombreuses structures de données, telles que les données non structurées et multistructurées, et il peut vous aider à tirer de la valeur de vos données.
La principale différence entre un lac de données et un data warehouse est que le lac de données a tendance à ingérer les données très rapidement et à les préparer ultérieurement à la volée au fur et à mesure que les gens y accèdent. Avec un data warehouse, d'autre part, vous préparez les données très soigneusement en amont avant de les laisser dans le data warehouse.
Les utilisateurs ont tendance à vouloir ingérer des données dans le lac de données aussi rapidement que possible, afin que les entreprises ayant des cas d'utilisation opérationnelle, notamment en matière de rapports opérationnels, d'analyse et de surveillance des activités, disposent des données les plus récentes. Cela leur permet d'avoir accès aux données les plus récentes et de voir les informations les plus actualisées.
Avec le lac de données, les utilisateurs ingèrent souvent les données sous leur forme originale sans les modifier. Cela peut être pour des raisons de rapidité, mais aussi pour d'autres raisons, notamment le désir d'effectuer des analyses avancées qui peuvent dépendre de données sources détaillées. Il s'agit d'analyses basées sur n'importe quel type d'exploitation minière, que ce soit :
Pour offrir tous les avantages que les lacs de données peuvent offrir, une solution adéquate doit être en mesure de proposer de meilleurs moyens :
Un lac de données est plus utile lorsqu'il fait partie d'une plus grande plateforme de gestion des données, et il devrait bien s'intégrer aux données et outils existants pour un lac de données plus puissant.
L'utilisation du lac de données pour étendre le data warehouse est un phénomène souvent observé dans le cadre du marketing omnicanal, parfois appelé marketing multicanal. La façon de penser à l'écosystème de données dans le marketing est que chaque canal peut être sa propre base de données, et chaque point de contact peut l'être également. Et puis, de nombreux spécialistes du marketing achètent également des données à des tiers.
Par exemple, un spécialiste du marketing pourrait vouloir acheter des données contenant des informations supplémentaires sur la démographie et les préférences des consommateurs concernant les clients et les prospects, ce qui l'aiderait à avoir une vision complète de chaque client, et donc à créer des campagnes de marketing plus personnalisées et ciblées.
Il s'agit d'un écosystème de données complexe, dont le volume et la complexité ne cessent de croître. Le lac de données est souvent utilisé pour capturer les données provenant de plusieurs canaux et points de contact. Et certains d'entre eux sont en fait des données en continu.
Les entreprises qui proposent une application pour smartphone à leurs clients peuvent recevoir ces données en temps réel ou presque, au fur et à mesure que les clients utilisent l'application. Souvent, l'entreprise n'a pas vraiment besoin de données en temps réel. Il peut s'agir d'une heure ou deux. Mais il permet au département marketing d'effectuer un suivi très précis de l'activité et de créer des promotions, des incitations, des remises et des micro-campagnes.
La supply chain digitale est un environnement de données tout aussi diversifié et le lac de données peut y contribuer, en particulier lorsqu'il repose sur Hadoop. Hadoop est en grande partie un système basé sur des fichiers, car il a été conçu à l'origine pour des fichiers journaux très volumineux et très nombreux provenant de serveurs web. Dans la supply chain, il y a souvent une grande quantité de données sous forme de fichiers. Pensez aux données basées sur des fichiers et des documents provenant de systèmes EDI, de XML et, bien sûr, de JSON, qui s'imposent aujourd'hui dans la supply chain digitale. Ce sont des informations très diverses.
Il faut également tenir compte des informations internes. Les fabricants disposent souvent de données provenant de l'atelier, de l'expédition et de la facturation qui sont très pertinentes pour la supply chain. Le lac peut aider les fabricants à rassembler ces données et à les gérer sous forme de fichiers.
L'Internet of Things crée de nouvelles sources de données presque quotidiennement dans certaines entreprises. Et bien sûr, à mesure que ces sources se diversifient, elles créent encore plus de données. Il y a de plus en plus de capteurs sur de plus en plus de machines, en permanence. Par exemple, chaque véhicule de fret ferroviaire ou de fret routier dispose d'un grand nombre de capteurs qui permettent à l'entreprise de suivre ce véhicule dans l'espace et dans le temps, ainsi que de savoir comment il est utilisé. Est-il utilisé en toute sécurité ? Est-il exploité de manière optimale par rapport à la consommation de carburant ? D'énormes quantités d'informations proviennent de ces endroits, et le lac de données est très populaire parce qu'il fournit un référentiel pour toutes ces données.
Il s'agit là d'exemples d'utilisations assez ciblées du lac de données dans certains départements ou programmes informatiques, mais une approche différente consiste, pour l'informatique centralisée, à fournir un grand lac de données unique et multitenant. Il peut être utilisé par de nombreux départements, unités commerciales et programmes technologiques différents. Au fur et à mesure que les gens s'habituent au lac, ils découvrent comment l'optimiser pour divers usages et opérations, l'analytique et même la conformité.
Le lac de données peut être utilisé de nombreuses façons, et il existe également de nombreuses plateformes qui peuvent s'y rattacher. Hadoop est la plateforme la plus courante, mais pas la seule.
Hadoop est attrayant. Son évolutivité linéaire a été démontrée. Le coût de l'évolutivité est faible par rapport à une base de données relationnelle, par exemple. Mais Hadoop n'est pas seulement un stockage bon marché. C'est aussi une puissante plateforme de traitement. Et pour ceux qui essaient de faire de l'analyse algorithmique, Hadoop peut être très utile.
Le système de gestion de base de données relationnelle peut également être une plateforme pour le lac de données, car certaines personnes ont des quantités massives de données qu'elles veulent mettre dans le lac qui est structuré et aussi relationnel. Donc, si vos données sont intrinsèquement relationnelles, une approche SGBD pour le lac de données serait parfaitement logique. De même, si vous avez des cas d'utilisation où vous voulez faire des fonctionnalités relationnelles, comme le SQL ou des jointures de tables complexes, alors le SGBD est parfaitement logique.
Mais la tendance est aux systèmes basés sur le cloud, et surtout au stockage basé sur le cloud. Le grand avantage des clouds est l'extensibilité élastique. Ils peuvent regrouper les ressources des serveurs et d'autres ressources à mesure que les charges de travail augmentent. Et par rapport à de nombreux systèmes sur site, les clouds peuvent être peu coûteux. C'est en partie parce qu'il n'y a pas d'intégration de système.
Si vous voulez faire quelque chose sur place, vous ou quelqu'un d'autre doit intégrer le système pendant plusieurs mois, alors que pour de nombreux systèmes, il existe un fournisseur de services cloud qui a déjà intégré le système. En fait, vous achetez une licence et vous pouvez être opérationnel en quelques heures au lieu de quelques mois. En outre, l'approche du cloud par le magasin d'objets, que nous avons mentionnée dans un précédent billet sur les bonnes pratiques en matière de lac de données, présente de nombreux avantages.
Et bien sûr, vous pouvez avoir un mélange hybride de plateformes avec un lac de données. Si vous êtes familier avec ce que nous appelons le data warehouse logique, vous pouvez également avoir une chose similaire comme un data warehouse logique, et c'est le lac de données logique. Il s'agit d'une situation où les données sont physiquement réparties sur plusieurs plateformes. Et il y a quelques défis à relever, comme la nécessité de disposer d'outils spéciaux qui soient adaptés aux requêtes fédérées ou à la virtualisation des données pour les requêtes analytiques de grande envergure.
Mais cette technologie est disponible au niveau des outils, et de nombreuses personnes l'utilisent.
Dans leur quête pour extraire davantage de valeur de leurs données, les entreprises repoussent sans cesse les limites. Grâce à l'informatique cloud, elles combinent désormais souvent les technologies de lac de données et les data warehouses dans une architecture unique appelée « data lakehouse ». Les avantages d'un data lakehouse incluent une meilleure intégration, moins de mouvements de données, une meilleure gouvernance des données et la prise en charge d'un plus grand nombre de cas d'utilisation.
Le lac de données est votre réponse pour organiser tous ces grands volumes de données diverses provenant de sources différentes. Et si vous êtes prêt à commencer à jouer avec un lac de données, nous pouvons vous offrir Oracle Free Tier pour commencer.