Qu’est-ce qu’un catalogue de données et pourquoi en avez-vous besoin ?

En termes simples, un catalogue de données est un inventaire organisé des actifs de données de l’organisation. Il utilise des métadonnées pour aider les organisations à gérer leurs données. Il aide également les professionnels des données à collecter, organiser, accéder à et enrichir les métadonnées pour prendre en charge la découverte et la gouvernance des données.

Définition et analogie du catalogue de données

Nous avons défini le catalogue de données comme un outil qui utilise des métadonnées pour aider les organisations à gérer leurs données. Mais développons cela en faisant un parallèle avec une bibliothèque.

Lorsque vous allez dans une bibliothèque et que vous avez besoin de trouver un livre, vous utilisez le catalogue pour déterminer si le livre est dans les rayonnages, quelle est l’édition, dans quelle section il se trouve, consulter un descriptif. Ces informations vous permettent de décider si vous le souhaitez emprunter le livre, et, si c’est la, comment le trouver.

Ce sont les possibilités que proposent aujourd’hui de nombreux stockages de niveau objet, bases de données et data warehouses.

Reprenons l’analogie de la bibliothèque et son catalogue. Supposons maintenant que le catalogue couvre toutes les bibliothèques du pays. Imaginez qu’avec une seule interface vous puissiez trouver chaque bibliothèque du pays qui a l’exemplaire du livre que vous recherchez, ainsi que toutes les informations dont vous pouvez avoir besoin sur chacun des livres qu’elles contiennent.

C’est ce que fait un catalogue de données d’entreprise pour toutes vos données. Il propose une vue d’ensemble unique et une visibilité plus approfondie de l’ensemble de vos données, pas seulement de chaque stockage individuel.

Peut-être vous demandez-vous quelle serait l’utilité de cette vue d’ensemble ?

Défis qu’un catalogue de données peut relever

Étant donné le volume inédit de données actuel, trouver les bonnes données est devenu plus difficile que jamais. Parallèlement, les règles et réglementations sont plus nombreuses que jamais, le RGPD n’étant qu’un parmi tant d’autres.

Ainsi, non seulement l’accès aux données devient un défi, mais la gouvernance des données l’est aussi. Il est essentiel de comprendre le type de données dont vous disposez actuellement, qui les transfère, à quoi elles servent et comment elles doivent être protégées. Mais vous devez également éviter de placer trop de couches et de wrappers autour de vos données, car les données ne présentent aucune utilité si elles sont trop difficiles à utiliser.

Malheureusement, trouver et accéder aux bonnes données présente certaines difficultés. notamment :

  • Perte de temps et d’énergie lors de la recherche et de l’accès aux données
  • Les lacs de données deviennent des marais de données
  • Pas de vocabulaire métier commun
  • Difficulté à comprendre la structure et la diversité des « données obscures »
  • Difficulté à évaluer la provenance, la qualité, la fiabilité
  • Aucun moyen de capturer des connaissances de communautés ou manquantes
  • Difficulté à réutiliser les connaissances et les actifs de données
  • Efforts manuels et ponctuels de préparation des données

Utilisateurs du catalogue de données

Tous ces problèmes de gestion des données frustrent les utilisateurs tels que les ingénieurs de données, les scientifiques des données, les gestionnaires de données et les directeurs des données. En effet, ces groupes de personnes souhaitent accéder facilement à des données fiables. Voici quelques-uns des défis rencontrés :

Les ingénieurs de données veulent savoir comment les modifications affecteront le système dans son ensemble. Ils peuvent demander :

  • Quel sera l’impact d’un changement de schéma dans notre application CRM ?
  • Dans quelle mesure les structures de données PeopleSoft et HCM sont-elles différentes ?

Les data scientists souhaitent pouvoir accéder facilement aux données et ils veulent en savoir plus sur la qualité des données. Ils recherchent des réponses à des questions telles que :

  • Où puis-je trouver et explorer certaines données de géolocalisation ?
  • Comment accéder facilement aux données d’un lac de données ?

Les gestionnaires de données sont chargés d’un processus de gestion des données. Ils se préoccupent des concepts, des accords entre parties prenantes et de la gestion du cycle de vie des données mêmes. Ils posent des questions telles que :

  • Améliorons-nous vraiment la qualité de nos données opérationnelles ?
  • Avons-nous défini des référentiels pour les éléments de données clés importants ?

Les directeurs des données se préoccupent de qui fait quoi au sein d’une organisation. Ce ne sont généralement pas eux qui utilisent un catalogue de données, mais ils veulent tout de même connaître les réponses à des questions telles que :

  • Qui peut accéder aux informations personnelles des clients ?
  • Avons-nous des stratégies de conservation définies pour toutes les données ?

Entrez dans le catalogue de données.

Cas d’utilisation d’un catalogue de données

Au cours des dernières années, le concept de catalogue de données a gagné en popularité en raison des quantités croissantes de données qui doivent être gérées et accessibles. Cloud, analyses du big data, intelligence artificielle et machine learning ont commencé à changer la façon dont nous devons voir, gérer et exploiter nos données, mais également les utiliser pleinement et y accéder.

Utiliser correctement un catalogue de données signifie mieux exploiter les données, ce qui permet de :

  • Économies de coûts
  • augmenter l’efficacité opérationnelle ;
  • bénéficier d’avantages concurrentiels ;
  • améliorer l’expérience client ;
  • gérer la fraude et le risque ;
  • et bien plus encore.

Voici quelques exemples d’utilisation d’un catalogue de données. Mais en réalité, un catalogue de données peut être utilisé de bien d’autres façons car, fondamentalement, il s’agit d’avoir une visibilité plus large et un accès plus approfondi à vos données.

Analytiques en libre accès. De nombreux utilisateurs de données ont du mal à trouver les données adéquates. Nous ne parlons pas seulement de trouver les données adéquates, mais également de comprendre si elles sont utiles. Vous pouvez découvrir un fichier appelé customer_info.csv. Et vous pouvez avoir besoin d’un fichier sur les clients. Mais cela ne signifie pas que c’est le bon, car il peut être l’un de 50 fichiers similaires. Il peut contenir de nombreux champs et il se peut que vous ne compreniez pas tous ces éléments de données. Vous pouvez avoir besoin d’un contexte pour savoir, par exemple, s’il s’agit d’une ressource gérée, provenant du stockage de données adéquat, ou de quelle est le lien avec d’autres artefacts de données.

La découverte pourrait également consister à comprendre la forme et les caractéristiques des données, à partir d’éléments aussi simple que la distribution des valeurs, des informations statistiques ou des éléments aussi importants et complexes que les informations personnelles identifiables ou les informations personnelles sur la santé.

Audit ,conformité et gestion des changements. Avec les réglementations gouvernementales de plus en plus nombreuses en matière de données, vous devez souvent démontrer la provenance des données. Vous devez déclarer si certains artefacts de données proviennent de telle ou telle source ou de quelle manière ils sont transformés avant d’atteindre leur cible finale. Lorsqu’ils consultent un tableau, un rapport ou un fichier, les utilisateurs de vos données veulent souvent comprendre d’où proviennent les données et les différentes façons dont elles se déplacent au sein de l’organisation. Du point de vue de la gestion des changements, il est important de voir comment les modifications apportées à une partie d’un pipeline de données affectent d’autres parties du système. C’est pourquoi les clients recherchent un lignage de données détaillé.

Soutenir la gouvernance des données avec des glossaires métier. La plupart des organisations utilisent un vocabulaire sur lequel tout le monde s’accorde et une compréhension cohérente des concepts commerciaux. Mais souvent, ceux-ci sont consignés dans des feuilles Excel que personne ne parvient à localiser exactement. Un catalogue de données est un moyen plus efficace de stocker et de gérer ces informations commerciales vitales.

Un catalogue de données permet également d’établir des liens entre des termes commerciaux pour établir une taxonomie. Il peut également consigner les relations entre les termes et les actifs physiques tels que des tables et des colonnes. De plus, il permet aux utilisateurs de comprendre quels concepts commerciaux sont pertinents pour quels artefacts techniques. Cette fonction peut être utilisée pour classer les actifs de données avec des lignes de concepts commerciaux, puis pour utiliser ces concepts au lieu des noms techniques pour la recherche et la découverte. Les utilisateurs ont ainsi davantage confiance en les données qu’ils consultent, car ils voient tous les éléments qui leur sont associés, ce qui constitue souvent un bon point de départ pour la gouvernance des données.

Quels sont les éléments nécessaire pour exploiter pleinement les données d’un catalogue de données ?

Prenons donc du recul et expliquons rapidement ce que sont les métadonnées. Que sont les métadonnées ? Il existe trois types de métadonnées :

  • Métadonnées techniques : schémas, tables, colonnes, noms de fichiers, noms de rapports, etc. tout ce qui est documenté dans le système source
  • Métadonnées métier : il s'agit généralement des connaissances métier que les utilisateurs possèdent sur les actifs de l'entreprise. Il peut s’agir de descriptions commerciales, de commentaires, d’annotations, de classifications, d’adéquation à un usage, d’évaluations, etc.
  • Métadonnées opérationnelles : quand cet objet a-t-il été actualisé ? Quelle tâche ETL l’a créé ? Combien de fois les utilisateurs ont-ils accédé à une table, et laquelle ?

Ces dernières années, nous avons assisté à une mini-révolution de la façon dont nous pouvons utiliser ces précieuses métadonnées. Autrefois, les métadonnées étaient principalement utilisées uniquement à des fins d’audit, de lignage et de reporting. Mais aujourd’hui, les innovations technologiques telles que le traitement sans serveur, les bases de données orientées graphe, et plus particulièrement les techniques nouvelles ou plus accessibles d’IA et d’apprentissage automatique repoussent les limites et rendent possibles certaines opérations impliquant des métadonnées qui n’étaient tout simplement pas possibles à cette échelle auparavant.

À l’heure actuelle, les métadonnées peuvent être utilisées pour améliorer la gestion des données. Elles en concernent tous les aspects, de la préparation des données en libre accès au contrôle d’accès à la base de contenu des rôles et des données, en passant par l’intégration automatisée des données, la surveillance et l’envoi d’alertes concernant les anomalies, la mise en service et la mise à l’échelle automatiques des ressources, etc. Toutes ces opérations peuvent maintenant être augmentées grâce aux métadonnées.

Le catalogue de données utilise des métadonnées pour vous aider à mieux gérer vos données.

Que doit offrir un catalogue de données ?

Un bon catalogue de données doit offrir :

Des fonctionnalités de recherche et découverte. Un catalogue de données doit proposer des options de recherche et de filtrage flexibles afin de permettre aux utilisateurs de trouver rapidement des ensembles de données pertinents pour la data science, les analytiques ou l’ingénierie des données, mais aussi de parcourir les métadonnées en fonction d’une hiérarchie technique d’actifs de données. Le fait de permettre aux utilisateurs de saisir des informations techniques, des balises définies par l’utilisateur ou des termes commerciaux améliore également les capacités de recherche.

Récolter des métadonnées provenant de diverses sources. Assurez-vous que votre catalogue de données puisse collecter des métadonnées techniques à partir de divers actifs de données connectés, notamment le stockage d’objets, les bases de données autonomes, les systèmes on-premise et bien plus encore.

Organisation des métadonnées. Offrez un moyen aux experts d’ajouter des connaissances commerciales sous la forme d’un glossaire métier d’entreprise, de balises, d’associations, d’annotations définies par l’utilisateur, de classifications, d’évaluations, etc.

Automatisation et data intelligence. Aux échelles de données que nous avons mentionnées, l’IA et le machine learning s’imposent souvent. Toutes les tâches manuelles qui peuvent être automatisées doivent l’être grâce à l’application de techniques d’IA et d’apprentissage automatique sur les métadonnées collectées. En outre, l’intelligence artificielle et le machine learning peuvent véritablement augmenter les capacités de traitement des données, par exemple en offrant des recommandations aux utilisateurs de catalogues de données et aux utilisateurs d’autres services dans une plateforme de données moderne.

Fonctionnalités d’entreprise. Vos données sont importantes et vous avez besoin de fonctionnalités d’entreprise pour les utiliser correctement, grâce, par exemple, à la gestion des identités et des accès, ainsi que d’autres fonctionnalités délivrées via les API REST. Cela signifie également que les clients et les partenaires peuvent ajouter des métadonnées (avec des outils d’extraction personnalisés) et présenter les fonctionnalités de catalogue de données dans leurs propres applications via REST.

En plus de tout cela, votre catalogue de données doit devenir votre catalogue système de facto, en proposant une abstraction sur l’ensemble de vos couches de persistance telles que le stockage en mode objet, Hadoop, les bases de données, le data warehouse et pour interroger les services qui fonctionnent dans tous vos magasins de données.

Et c’est aussi la raison pour laquelle un catalogue de données n’est plus utile. Il est indispensable.

Pourquoi choisir Oracle Cloud Infrastructure Data Catalog ?

Chaque organisation doit disposer d’un catalogue de données fiable. Mais pourquoi opter pour Oracle Cloud Infrastructure Data Catalog ?

Oracle Cloud Infrastructure Data Catalog est inclus avec tous les abonnements Oracle Cloud Infrastructure ; il aide les clients à organiser et à gérer leurs actifs de données. Il s’agit d’une solution collaborative unique pour les professionnels des données qui leur permet d’organiser et gérer les données, mais également de collecter, d’accéder à, d’enrichir et d’activer des métadonnées techniques, commerciales et opérationnelles pour prendre en charge la découverte et la gouvernance des données en libre accès pour les actifs de données de confiance dans Oracle Cloud et au-delà.

D’un point de vue pratique, la solution permet les opérations suivantes :

  • Recueillir des métadonnées techniques sur les actifs de données contenus dans Oracle Cloud Infrastructure, comme Oracle Cloud Infrastructure Object Storage, Oracle Autonomous Database, Oracle Database.
  • Rechercher et explorer des données provenant de diverses sources différentes grâce à une fonctionnalité de recherche et des filtres à multiples facettes
  • Gérer un glossaire métier pour capturer le vocabulaire commercial de l’entreprise
  • Approfondir la compréhension des données disponibles en capturant les connaissances communautaires sous la forme de balises et d’annotations définies par l’utilisateur
  • Obtenir une vue d’ensemble des actifs de données en associant des balises et des termes commerciaux
  • Intégrer des fonctionnalités dans d’autres applications grâce aux API et au SDK REST
  • Sécuriser l’accès grâce aux stratégies de groupe IAM

Conclusion

Les organisations s’efforcent d’être axées sur les données. Elles sont à la recherche d’analytiques plus efficace et rapides, sans compromettre la gouvernance. Et c’est ce qui rend la gestion des données encore plus importante et stimulante. Un catalogue de données facilite la gestion des données et permet de répondre plus facilement à de nombreuses demandes. Grâce à Oracle Cloud Infrastructure Data Catalog, Oracle aide chacun à découvrir et à utiliser les données comme il l’a toujours souhaité.