Michael Chen | Content Strategest | 17 juillet 2024
L'apprentissage non supervisé est une technique de machine learning qui utilise des jeux de données non étiquetés pour l'entraînement. Avec l'apprentissage non supervisé, un modèle n'a pas de lignes directrices établies pour les résultats ou les relations souhaités. Au lieu de cela, l'objectif est d'explorer les données et, ce faisant, de découvrir des modèles, des tendances et des relations.
L'apprentissage non supervisé est le choix optimal pour un projet de machine learning avec une grande quantité de données non étiquetées, souvent diverses, où les modèles et les relations ne sont pas encore connus. L'algorithme révèle souvent des informations qui n'auraient peut-être pas été trouvées autrement. Par exemple, l'examen d'un jeu de données d'historique d'achats peut révéler des clusters de clients qui achètent de manière similaire, une donnée auparavant inconnue. Les décideurs pourraient utiliser ces informations pour développer de nouveaux programmes de vente.
En raison de sa nature exploratoire, l'apprentissage non supervisé fonctionne mieux pour des scénarios spécifiques. Ces avantages comprennent :
Analyse des données brutes : les algorithmes d'apprentissage non supervisés peuvent explorer de très grands volumes de données non structurées, tels que du texte, pour trouver des modèles et des tendances. Un exemple provient des demandes d'e-mails client historiques, où un algorithme de formation non supervisée peut explorer un jeu de données non structurées d'e-mails client. Bien qu'il n'y ait pas d'étiquetage pour définir la qualité ou le but de ces interactions, l'algorithme peut détecter des modèles qui pourraient mettre en évidence des opportunités d'amélioration, telles qu'un volume élevé de demandes de renseignements sur le même problème technique.
Groupes : pour la segmentation des données, l'apprentissage non supervisé peut examiner les caractéristiques des points de données afin de déterminer les points communs et les modèles et de créer des groupes. Un exemple provient d'un projet d'entraînement d'un grand modèle de langage (LLM) pour répondre aux entrées du client. En utilisant les commentaires non structurés des clients provenant des chatbots et des messages, l'algorithme peut apprendre à identifier les catégories en fonction du texte, telles que la question de facturation, les commentaires positifs ou négatifs, la question technique ou la demande d'emploi. Cette catégorisation aide ensuite le modèle à identifier les réponses appropriées en termes de langage et de ton.
Relations : Comme pour les regroupements, l'entraînement non supervisé peut examiner le poids (l'importance des fonctionnalités ou des entrées qui chevauchent des points de données), la distance (la mesure de la similarité globale entre les points de données) et la qualité des relations pour déterminer la façon dont les points de données sont connectés entre eux. Considérez un algorithme de détection de fraude qui va au-delà du marquage binaire d'enregistrements douteux en examinant différents points de données connexes, tels que les achats similaires effectués par des comptes précédemment marqués ou d'autres achats par le compte en question. L'analyse des relations fournit un contexte, permettant aux établissements de déterminer si l'enregistrement marqué était une instance unique, une partie d'un modèle de comportement plus large ou une fraude.
Dans chacun de ces cas, l'apprentissage non supervisé identifie les modèles et les caractéristiques au sein des données. Ce processus peut conduire à une meilleure compréhension de ce qui peut être appris pour stimuler la prise de décision.
L'apprentissage non supervisé est un type de machine learning où l'algorithme est entraîné sur des données non étiquetées. Un projet d'apprentissage non supervisé commence par l'établissement du problème à résoudre ou d'un autre objectif. Avec ces informations, les pistes du projet peuvent choisir le type d'algorithme pour le projet. Cette sélection est généralement basée sur le résultat souhaité : regroupement, relations ou dimensionnalité, processus d'identification et de définition de fonctions ou de variables au sein d'un jeu de données. Les objectifs déterminent également la recherche de jeux de données d'entraînement appropriés, car les objectifs et les types d'algorithme du projet déterminent le type de données nécessaires.
Une fois ces éléments définis, l'algorithme suit un entraînement , en utilisant l'essai et l'erreur pour imiter les relations d'entrée/sortie établies jusqu'à ce qu'une norme de performance acceptable soit respectée. Les experts en données analysent les résultats pour voir si le modèle a découvert les informations souhaitées et les itèrent en les affinant et en ajustant les paramètres pour améliorer les performances.
La décision d'utiliser l'apprentissage non supervisé vient avec des mises en garde. Étant donné que l'apprentissage non supervisé est une méthode d'entraînement plus complexe que l'apprentissage supervisé ou semi-supervisé, en raison du manque de données étiquetées qui aideraient à valider les résultats, il nécessite généralement une surveillance par des experts qui peuvent vérifier la performance du modèle. Ainsi, alors que l'apprentissage non supervisé est un processus pratique du point de vue de l'étiquetage et de la préparation des données, il a besoin d'une supervision étroite pour rester sur la bonne voie. Par exemple, dans un modèle d'IA générative chargé de produire des illustrations réalistes, les experts du domaine devront examiner les résultats de près pour s'assurer que les modèles et les relations qui alimentent la génération d'images soient précis dans des domaines tels que l'éclairage, l'anatomie et la faisabilité structurelle. Sinon, vous pourriez finir avec des doigts ou des orteils supplémentaires.
Les types d'apprentissage non supervisé les plus courants sont les suivants :
Clustering : lorsque l'algorithme recherche des groupes de données similaires et les points communs entre eux. Les exemples concrets incluent la segmentation des clients et le filtrage automatique des e-mails.
Règle d'association : lorsque l'algorithme examine les relations entre les points de données, qu'il s'agisse d'un niveau de surface ou de plusieurs couches cachées en profondeur. Les exemples concrets incluent les modèles d'achat des clients et les relations de symptômes pour le diagnostic médical.
Réduction de dimensionnalité : lorsque le modèle examine un jeu de données pour réduire le nombre de fonctionnalités non pertinentes (dimensions) utilisées. Les exemples réels incluent la reconnaissance d'images et les algorithmes de compression de données.
Le machine learning non supervisé permet aux entreprises de découvrir des modèles et des informations dans des jeux de données volumineux, diversifiés et non structurés qui ne disposent pas de catégories ou d'étiquettes prédéfinies, sans intervention humaine. C'est comme passer au crible des milliers de grains de sable pour trouver des mouchetures d'or, ouvrant potentiellement de nouvelles opportunités de croissance et d'innovation.
Quel cas d'utilisation de l'IA convient le mieux à l'apprentissage non supervisé ? Allez plus loin grâce à cet e-book
Quels sont les deux types d'apprentissage non supervisé ?
Les techniques d'apprentissage non supervisé sont généralement classées parmi deux types différents. Le clustering fait référence au processus de regroupement des données en fonction de caractéristiques, avec des algorithmes utilisant des méthodes d'analyse telles que le clustering hiérarchique (création de clusters dans des arborescences hiérarchiques, telles que le pouvoir d'achat du client basé sur le code postal) et le clustering probabiliste, qui utilise des scores de probabilité qui calculent la probabilité d'appartenance, tels que les caractéristiques de risque d'un client dans l'analyse de prêt. L'apprentissage de la règle d'association fait référence au processus d'identification des relations entre les points de données pour déterminer les modèles et les tendances, avec des algorithmes utilisant des méthodes telles que l'association quantitative - relations associées sur la base d'attributs numériques ou quantitatifs entre les points de données (telles que les tendances d'achat par âge et l'association multirelationnelle), c'est-à-dire les relations associées entre plusieurs variables possibles entre les points de données (telles que la performance d'un athlète professionnel en fonction de l'âge, de la qualité des coéquipiers, du salaire et du programme universitaire).
Quel est un bon exemple d'apprentissage non supervisé ?
Un bon exemple d'apprentissage non supervisé est un LLM en intelligence artificielle pour le secteur des soins de santé. Dans ce cas, le LLM s'entraîne sur des jeux de données non structurés, tels que des manuels médicaux, des dossiers patient et des données d'étude. En utilisant un entraînement itératif, le LLM apprend les relations et les modèles, avec l'objectif final que le LLM réponde aux requêtes en utilisant un langage médical approprié avec un haut niveau de précision.
Quelle est la différence entre l'apprentissage supervisé et l'apprentissage non supervisé ?
L'apprentissage supervisé utilise des jeux de données étiquetés dans l'entraînement des algorithmes. Avec des étiquettes d'entrée et de sortie claires, l'apprentissage supervisé repose sur une base de définitions établies. Par exemple, un algorithme pour identifier des chats entraîne des photos clairement étiquetées comme ayant des chats ou n'ayant pas de chats. L'apprentissage non supervisé utilise des jeux de données non étiquetés dans l'entraînement. Sans étiquettes, l'algorithme explore les jeux de données pour identifier les modèles et les tendances. En utilisant le même exemple d'identification de chats, le système pourrait se pré-entraîner avec de grands jeux de données non étiquetées de texte et d'images assimilés au style d'encyclopédies générales pour apprendre des modèles visuels et des concepts liés aux chats, puis affiner en s'entraînant sur des jeux de données d'images plus petits pour des éléments spécifiques, tels que les museaux de chats, les pattes et les queues.
Qu'est-ce qu'un exemple d'apprentissage non supervisé ?
Dans le machine learning, les fonctionnalités sont des variables trouvées dans un jeu de données. Un exemple de fonctionnalité pour un algorithme météorologique est le jour de l'année. Dans le cas spécifique de l'apprentissage non supervisé, les fonctionnalités sont identifiées au fur et à mesure que l'algorithme explore les données. En revenant à cet exemple météorologique, le modèle peut trouver par exploration que la date est un facteur important pour faire des prédictions et donc déterminer qu'il s'agit d'une fonctionnalité d'entrée requise pour le modèle.