Le Data Mining est défini comme un processus utilisé pour extraire des données utilisables d'un ensemble plus large de données brutes. Les entreprises peuvent en apprendre davantage sur leurs clients et élaborer des stratégies plus efficaces liées aux diverses fonctions de l'entreprise, ce qui leur permet de tirer parti des ressources de façon plus optimale et plus judicieuse. Cela aide les entreprises à se rapprocher de leurs objectifs et à prendre de meilleures décisions. Le Data Mining implique la collecte et l'entreposage efficaces des données ainsi que le traitement informatique. Pour segmenter les données et évaluer la probabilité d'événements futurs, le Data Mining utilise des algorithmes mathématiques sophistiqués.
Webinar Oracle Technology Data Week
Temps de lecture : 5 mn
Le Data mining est la pratique consistant à rechercher automatiquement de grandes quantités de données afin de découvrir des tendances et des modèles qui vont au-delà de la simple analyse. Il est souvent couplé au Deep Learning et au machine learning. Data Mining utilise des algorithmes mathématiques sophistiqués pour segmenter les données et évaluer la probabilité d'événements futurs. Data Mining est également connue sous le nom de découverte de connaissances dans les données.
Les propriétés clés de Data Mining sont :
Data Mining peut répondre à des questions qui ne peuvent être résolues par de simples techniques d'interrogation et de rapport.
Le traitement analytique en ligne (OLAP) peut être défini comme une analyse rapide de données multidimensionnelles partagées. L’OLAP et le Data Mining sont des activités différentes mais complémentaires.
Les opérations OLAP prennent en charge des activités telles que la compression des données, l'affectation des coûts, l'analyse des séries chronologiques et l'analyse par simulation. Cependant, la plupart des systèmes OLAP n'ont pas de capacités d'inférence inductive au-delà de la prise en charge des prévisions de séries chronologiques. L'inférence inductive, c'est-à-dire le processus consistant à tirer une conclusion générale à partir d'exemples précis, est une caractéristique du Data Mining. L'inférence inductive est également connue sous le nom d'apprentissage computationnel.
Les systèmes OLAP fournissent une vue multidimensionnelle des données, y compris un support complet des hiérarchies. Cette vue des données est un moyen naturel d'analyser les entreprises et les organisations. Le Data Mining, par contre, n'a généralement pas de concept de dimensions et de hiérarchies.
Le Data Mining et l'OLAP peuvent être intégrés de plusieurs façons. Par exemple, Le Data Mining peut être utilisée pour sélectionner les dimensions d'un cube, créer de nouvelles valeurs pour une dimension ou créer de nouvelles mesures pour un cube. L’OLAP peut être utilisé pour analyser les résultats du data mining à différents niveaux de granularité.
Le Data Mining peut vous aider à construire des cubes plus intéressants et plus utiles. Par exemple, les résultats du Data Mining prédictive pourraient être ajoutés à un cube en tant que mesures personnalisées. De telles mesures pourraient fournir des informations telles que "susceptibles de faire défaut" ou "susceptibles d'acheter" pour chaque client. Le traitement OLAP pourrait alors agréger et résumer les probabilités.
Data Mining est un outil puissant qui peut vous aider à trouver des modèles et des relations dans vos données. Mais Data Mining ne fonctionne pas d'elle-même. Cela n'élimine pas le besoin de connaître votre entreprise, de comprendre vos données ou de comprendre les méthodes d'analyse. Data Mining permet de découvrir des informations cachées dans vos données, mais elle ne peut pas vous dire la valeur de ces informations pour votre organisation.
Il se peut que vous soyez déjà au courant de tendances importantes découlant de l'utilisation de vos données au fil du temps. Le Data Mining peut confirmer ou nuancer de telles observations empiriques en plus de trouver de nouvelles tendances qui ne sont peut-être pas immédiatement perceptibles par une simple observation.
Il est important de se rappeler que les relations prédictives découvertes par le data mining ne sont pas nécessairement les causes d'une action ou d'un comportement. Par exemple, Data Mining pourrait déterminer que les hommes ayant un revenu entre 50 000 $ et 65 000 $ qui sont abonnés à certains magazines sont susceptibles d'acheter un produit donné. Vous pouvez utiliser ces renseignements pour vous aider à élaborer une stratégie de marketing. Cependant, vous ne devez pas supposer que la population identifiée par Data Mining achètera le produit parce qu'elle appartient à cette population.
Poser les bonnes questions
Le Data Mining ne découvre pas automatiquement des solutions sans guide. Les modèles que vous découvrirez grâce au Data Mining seront très différents selon la façon dont vous formulerez le problème.
Pour obtenir des résultats significatifs, vous devez apprendre à poser les bonnes questions. Par exemple, plutôt que d'essayer d'apprendre comment " améliorer la réponse à une sollicitation par publipostage ", vous pourriez essayer de trouver les caractéristiques des personnes qui ont répondu à vos sollicitations dans le passé.
Comprendre vos données
Pour garantir des résultats d'exploration de données significatifs, vous devez comprendre vos données. Les algorithmes d'exploration de données sont souvent sensibles à des caractéristiques spécifiques des données : valeurs aberrantes (valeurs de données très différentes des valeurs typiques de votre base de données), colonnes non pertinentes, colonnes qui varient ensemble (comme l'âge et la date de naissance), codage des données et données que vous choisissez d'inclure ou d'exclure. Oracle Data Mining peut effectuer automatiquement une grande partie de la préparation des données requise par l'algorithme. Mais une partie de la préparation des données est généralement spécifique au domaine ou au problème de data mining. Quoi qu'il en soit, vous devez comprendre les données qui ont été utilisées pour construire le modèle afin d'interpréter correctement les résultats lorsque le modèle est appliqué.
Ce guide complet donne un aperçu détaillé sur la façon dont Oracle Autonomous Database permet aux entreprises d’optimiser la gestion de leur base de données. Ce guide décrit également comment Autonomous Database permet de capitaliser sur les technologies émergentes (machine learning et IA) pour créer de nouvelles applications et exploiter la valeur de leurs données.