Qu’est-ce que la gestion des données ?

Une définition de la gestion des données

La gestion de données est la pratique consistant à recueillir, conserver et utiliser des données de manière sécurisée, efficace et rentable. L’objectif de la gestion des données est d’aider les personnes, les entreprises et les objets connectés à optimiser l’utilisation des données dans les limites des politiques et des réglementations afin qu’ils puissent prendre des décisions et mener des actions qui optimisent les avantages pour l’entreprise. Une stratégie de gestion des données robuste devient plus importante que jamais, car les entreprises comptent de plus en plus sur les ressources incorporelles pour créer de la valeur.

Une définition de la gestion des données

La gestion des données digitales dans une entreprise implique un large éventail de tâches, de politiques, de procédures et de pratiques. Le travail de gestion des données porte sur un champ étendu, couvrant des facteurs tels que la manière d’effectuer les opérations suivantes :

  • Créer, mettre à jour des données et y accéder sur l’ensemble d’une couche de données diversifiée
  • Stocker des données sur plusieurs Clouds et sur site
  • Fournir une haute disponibilité et une capacité de reprise après sinistre
  • Utiliser les données dans un nombre croissant d’applications, d’analyses et d’algorithmes
  • Garantir la confidentialité et la sécurité des données
  • Archiver et détruire les données conformément aux calendriers de conservation et aux exigences de conformité

Une stratégie formelle de gestion des données répond aux besoins suivants : l’activité des utilisateurs et des administrateurs, les capacités des technologies de gestion des données, les contraintes des exigences réglementaires et la nécessité pour l’entreprise d’obtenir de la valeur à partir de ses données.

Le capital données est le capital commercial

Dans l’économie digitale d’aujourd’hui, les données sont une sorte de capital, un facteur économique de production de biens et de services digitaux. Tout comme un constructeur automobile ne peut fabriquer un nouveau modèle s’il ne dispose pas du capital financier nécessaire, il ne peut rendre ses voitures autonomes s’il ne dispose pas des données lui permettant d’alimenter les algorithmes embarqués. Ce nouveau rôle des données a des implications pour la stratégie concurrentielle ainsi que pour l’avenir de l’informatique.

Compte tenu de ce rôle central et stratégiques des données, de bonnes pratiques de gestion et un système de gestion robuste sont essentiels pour chaque entreprise, indépendamment de sa taille ou de son type.

Systèmes de gestion de données aujourd’hui

Les entreprises d’aujourd’hui ont besoin d’une solution de gestion des données offrant un moyen efficace de gérer les données sur une couche de données diversifiée mais unifiée. Les systèmes de gestion de données reposent sur des plates-formes de gestion de données et peuvent inclure notamment des bases de données, des data lakes , des data warehouses, des systèmes de gestion big data et des analyses de données.

Tous ces composants fonctionnent de concert comme un « utilitaire de données » pour fournir les fonctionnalités de gestion de données dont une entreprise a besoin pour ses applications, ainsi que les capacités analytiques et les algorithmes utilisant les données générées par ces applications. Bien que les outils actuels aident les administrateurs de base de données à automatiser de nombreuses tâches de gestion classiques, une intervention manuelle est toujours souvent nécessaire en raison de la taille et de la complexité de la plupart des déploiements de bases de données. Chaque fois qu’une intervention manuelle est requise, le risque d’erreur augmente. Réduire le besoin de gestion manuelle des données est l’un des objectifs clés d’une nouvelle technologie de gestion de données, la base de données autonome.

Systèmes de gestion de données aujourd’hui

Plateformes de gestion des données

L’étape la plus critique pour une livraison continue du software est l’intégration continue (CI). L’intégration continue est une pratique de développement dans laquelle les développeurs valident leurs modifications de code (généralement petite et incrémentielle) dans un référentiel source centralisé, ce qui déclenche un ensemble de tests et de compilations automatisés. Ce référentiel permet aux développeurs de capturer les bugs en avance et automatiquement avant de les mettre en production. Le pipeline d'intégration continue comprend généralement une série d'étapes, allant de la validation de code à l'exécution d'une analyse statique/de lint automatisée de base, à la capture des dépendances, et enfin à la création du software et à l'exécution de certains tests unitaires essentiels avant la création d'un artefact de construction. Les systèmes de gestion de code source tels que Github, Gitlab, etc., offrent une intégration de webhooks à laquelle des outils d'intégration continues tels que Jenkins peuvent s'abonner pour commencer à exécuter des versions et des tests automatisés après chaque enregistrement de code.

Une plateforme de gestion de données est le système fondamental pour la collecte et l’analyse d’importants volumes de données dans une entreprise. Les plateformes de données commerciales incluent généralement des outils logiciels de gestion, développés par le fournisseur de base de données ou par des fournisseurs tiers. Ces solutions de gestion de données aident les équipes informatiques et les administrateurs de bases de données à effectuer des tâches classiques telles que :

  • Identification, alerte, diagnostic et résolution des erreurs dans le système de base de données ou l’infrastructure sous-jacente
  • Allocation de la mémoire de base de données et des ressources de stockage
  • Application de modifications à la conception de la base de données
  • Optimisation des réponses aux requêtes de base de données pour des performances plus rapides des applications

Les plates-formes de base de données cloud, dont la popularité ne cesse de croître, permettent aux entreprises de revoir leurs besoins à la hausse ou à la baisse rapidement, et ce, à moindre coût. Certaines sont disponibles en tant que service, ce qui permet aux entreprises de réaliser encore davantage d’économies.


Qu’est-ce qu’une base de données autonome ?

Basée dans le Cloud, une base de données autonome utilise l’intelligence artificielle (AI) et le machine learning pour automatiser de nombreuses tâches de gestion de données effectuées par les administrateurs de base de données, notamment la gestion des sauvegardes, de la sécurité et de l’optimisation des performances de base de données.

Aussi appelée base de données à pilotage automatique, une base de données autonome offre des avantages importants pour la gestion des données, notamment :

  • Complexité réduite
  • Diminution du potentiel d’erreur humaine
  • Plus grande fiabilité et sécurité de la base de données
  • Amélioration de l’efficacité opérationnelle
  • Coûts réduits

De plus en plus populaires, les plateformes de données basées sur le Cloud permettent aux entreprises de mettre en œuvre une évolutivité ascendante ou descendante rapidement et à moindre coût. Certaines sont disponibles en tant que service, ce qui permet aux entreprises de réaliser encore davantage d’économies.

Systèmes de gestion Big Data

À certains égards, le Big Data, comme son nom l’indique, désigne d’énormes quantités de données. Mais le Big Data se présente également sous une plus grande variété de formes que les données classiques, et sa collecte s’effectue à une vitesse plus élevée. Pensez à toutes les données qui arrivent chaque jour ou chaque minute à partir d’une source de réseau social tel que Facebook. La quantité, la variété et la rapidité de ces données sont ce qui les rend si précieuses pour les entreprises, mais elles rendent également leur gestion très complexe.

De plus en plus de données sont collectées à partir de sources aussi disparates que les caméras vidéo, les médias sociaux, les enregistrements audio et les terminaux de l’IoT (Internet of Things). C’est dans ce contexte que les systèmes de gestion du Big Data ont fait leur apparition. Ces systèmes sont spécialisés dans trois domaines généraux.

  • L’intégration du Big Data amène différents types de données, qu’il s’agisse de données de traitement par lot ou de données de transmission en continu, et les transforme afin que ces données puissent être consommées.
  • La gestion du Big Data stocke et traite les données issues d’un lac de données ou d’un data warehouse de façon plus efficace, plus sûre et plus fiable, souvent en utilisant le stockage objet.
  • L'analyse du big data révèle de nouvelles informations exploitables grâce à l'analyse, notamment l'analyse de graphes, et utilise la visualisation du machine learning and de l'IA pour créer des modèles.

Les entreprises utilisent le Big Data pour améliorer et accélérer le développement de produits, la maintenance prédictive, l’expérience client, la sécurité, l’efficacité opérationnelle et bien plus encore. Au fur et à mesure que le Big Data continuera de croître, les opportunités se multiplieront.

Défis de la gestion des données

La plupart des défis concernant aujourd’hui la gestion des données résultent de l’accélération du rythme des affaires et de la prolifération croissante des données. La variété, la vélocité et le volume, en perpétuelle croissance, des données à la disposition des entreprises poussent ces dernières à rechercher des outils de gestion plus efficaces pour se maintenir à niveau. Les principaux défis auxquels les entreprises sont confrontées sont notamment les suivants :

L'absence d'informations sur les données

Des données provenant d’un nombre et d’une variété croissants de sources telles que des capteurs, des terminaux intelligents, des médias sociaux et des caméras vidéo sont recueillies et stockées. Mais aucune de ces données n’est utile si l’entreprise ne sait pas quelles données elle possède, où elles se trouvent, et comment les utiliser. Les solutions de gestion des données nécessitent une évolutivité et des performances pour fournir des informations pertinentes en temps opportun.

La difficulté de maintenir les niveaux de performances de gestion des données

Les organisations collectent, stockent et utilisent en permanence toujours davantage de données. Pour maintenir des temps de réponse de pointe sur cette couche en expansion, les entreprises doivent surveiller en permanence le type de questions auxquelles répond la base de données et modifier les index à mesure que les requêtes changent, le tout sans préjudice en termes de performances.

Les difficultés liées à l'évolution des exigences en matière de données

Les règles de conformité sont complexes et multi-juridictionnelles, et évoluent constamment. Les entreprises doivent pouvoir examiner facilement leurs données et identifier tout ce qui relève des exigences nouvelles ou modifiées. En particulier, les informations personnelles identifiables (PII) doivent être détectées, suivies et contrôlées pour assurer la conformité aux réglementations de plus en plus strictes en matière de confidentialité.

La nécessité de traiter et de convertir facilement les données

La collecte et l’identification des données elles-mêmes ne fournissent aucune valeur ajoutée. L’entreprise doit traiter ces données. Si beaucoup de temps et d’efforts sont nécessaires afin de convertir les données pour les besoins de l’analyse, cette analyse n’aura pas lieu. Par conséquent, la valeur potentielle de ces données est perdue.

Le besoin de stocker constamment des données efficacement

Dans le nouveau monde de la gestion des données, les entreprises stockent leurs données dans plusieurs systèmes, y compris des data warehouses et des lacs de données non structurés qui stockent toutes les données, quel que soit leur format, dans un référentiel unique. Les data scientists d’une entreprise ont besoin d’un moyen de transformer rapidement et facilement les données à partir de leur format d’origine de sorte à obtenir la forme, le format ou le modèle dont ils ont besoin pour un large éventail d’analyses.

La demande d'optimisation continue de l'agilité et des coûts informatiques

Grâce à la disponibilité des systèmes de gestion des données dans le cloud, les entreprises peuvent désormais choisir entre conserver et analyser les données dans les environnements sur site, dans le cloud ou dans un environnement hybride alliant les deux. Les départements informatiques doivent évaluer le niveau d'identité entre les environnements sur site et cloud afin de maintenir une flexibilité informatique maximale et de réduire les coûts.

Principes de gestion des données et confidentialité des données

Le règlement général sur la protection des données (RGPD) promulgué par l’Union européenne et mis en œuvre en mai 2018 comprend sept principes clés pour la gestion et le traitement des données à caractère personnel. Ces principes incluent la licéité, l’équité et la transparence, la limitation de la finalité, l’exactitude, la limitation de la durée de stockage, l’intégrité et la confidentialité, et plus.

Le RGPD et d’autres lois qui lui ont succédé, comme le California Consumer Privacy Act (CCPA), sont en train de modifier le paysage de la gestion des données. Ces exigences fournissent des lois normalisées sur la protection des données qui permettent aux individus de contrôler leurs données personnelles et leur utilisation. En effet, cela transforme les consommateurs en parties prenantes des données disposant d’un véritable recours juridique lorsque les entreprises ne parviennent pas à obtenir un consentement éclairé lors de la collecte des données, exercent un contrôle médiocre sur l’utilisation ou la localité des données, ou encore ne respectent pas les exigences en matière d’effacement ou de portabilité des données.

Meilleures pratiques en matière de gestion des données

Relever les défis de la gestion des données nécessite un ensemble complet et bien conçu de meilleures pratiques. Bien que les meilleures pratiques spécifiques varient en fonction du type de données impliqué et du secteur d’activité, les meilleures pratiques suivantes traitent des principaux problèmes de gestion des données auxquels les entreprises sont aujourd’hui confrontées :

Créez une couche de découverte pour identifier vos données

Une couche de découverte sus-jacente à la couche de données de votre entreprise permet aux analystes et aux data scientists de rechercher et de parcourir des jeux de données afin de rendre vos données utilisables.

Développez un environnement de data science pour reconvertir efficacement vos données

Un environnement de data science automatise autant que possible le travail de transformation des données, en rationalisant la création et l’évaluation de modèles de données. Un ensemble d’outils qui élimine le besoin de transformation manuelle des données peut accélérer la formulation d’hypothèses et les tests de nouveaux modèles.

Utilisez une technologie autonome pour maintenir les niveaux de performances de votre couche de données en expansion

Les capacités de données autonomes utilisent l’intelligence artificielle et le machine learning pour surveiller en permanence les requêtes de base de données et optimiser les index à mesure que les requêtes évoluent. Cela permet à la base de données de maintenir des temps de réponse rapides et libère les administrateurs de base de données et les data scientists des tâches manuelles chronophages.

Utilisez la découverte pour maîtriser les exigences de conformité

De nouveaux outils utilisent la découverte de données pour examiner les données et identifier les chaînes de connexion qui doivent être détectées, suivies et surveillées pour assurer la conformité multi-juridictionnelle. À mesure que les exigences de conformité augmentent à l’échelle mondiale, cette capacité revêtira une importance croissante pour les responsables des risques et de la sécurité.

Veillez à utiliser une base de données convergée

Une base de données convergée est une base de données qui prend en charge nativement tous les types de données modernes et les derniers modèles de développement regroupés en un seul produit. Les bases de données convergées les plus performantes peuvent exécuter de nombreux types de workloads, notamment les graphes, l'IoT, la blockchain et le machine learning.

Assurez-vous que votre plate-forme de base de données dispose des performances, de l'évolutivité et de la disponibilité nécessaires pour votre entreprise

Si vous rassemblez des données, c'est pour pouvoir les analyser afin de prendre des décisions plus rapides et plus judicieuses. Une plate-forme de base de données évolutive et à hautes performances permet aux entreprises d'analyser rapidement des données provenant de plusieurs sources à l'aide d'analyses avancées et de machine learning afin de prendre de meilleures décisions commerciales.

Utilisez une couche de requête commune pour gérer des formes de stockage de données plurielles et diversifiées

Les nouvelles technologies permettent aux référentiels de gestion de données de fonctionner ensemble, faisant disparaître leurs différences. Une couche de requête commune couvrant les nombreux types de stockage de données permet aux data scientists, aux analystes et aux applications d’accéder aux données sans avoir besoin de savoir où elles sont stockées, ni de les transformer manuellement en un format utilisable.


La valeur d’un environnement de data science

La data science est un domaine interdisciplinaire qui utilise des méthodes scientifiques, des processus, des algorithmes et des systèmes pour valoriser les données. Les data scientists associent diverses compétences (connaissances en statistiques, informatique et commerce) pour analyser les données collectées à partir du Web, des smartphones, des capteurs, auprès des clients et d’autres sources.

La gestion des données évolue

Étant donné que les données font désormais partie du capital d'entreprise, les entreprises découvrent ce que les startups et les innovateurs numériques savaient déjà : les données sont un atout précieux pour identifier les tendances, prendre des décisions et agir avant les autres. La nouvelle position des données dans la chaîne de valeur entraîne les entreprises à rechercher activement de meilleurs moyens d’extraire de la valeur de ce nouveau capital.

Découvrez ce que la meilleure gestion des données peut vous apporter, notamment les avantages d'une stratégie autonome dans le cloud et des fonctionnalités évolutives de cloud de base de données à hautes performances.

Produits liés à la gestion des données