What is unsupervised learning?

Unsupervised learning is a type of machine learning where the algorithm is trained on unlabeled data. An unsupervised learning project starts with establishing the problem to be solved or other goal. With that information, the project’s leads can choose the type of algorithm for the project. This selection is usually based on the desired outcome: clustering, relationships, or dimensionality—the process of identifying and defining features or variables within a data set. Goals also drive the search for appropriate training data sets, as the project’s goals and algorithm types drive the type of data needed.

What are the two types of unsupervised learning?

Unsupervised learning techniques are generally classified as one of two different types. Clustering refers to the process of grouping data based on traits, with algorithms using analysis methods such as hierarchical clustering—creating clusters in hierarchical trees, such as customer purchasing power based on zip code—and probabilistic clustering, which uses probability scores that calculate the likelihood of belonging, such as a customer’s risk characteristics in loan analysis. Association rule learning refers to the process of identifying relationships between data points to determine patterns and trends, with algorithms using methods such as quantitative association—relationships associated based on numerical or quantitative attributes between data points, such as purchasing trends by age—and multirelational association, that is, relationships associated among multiple possible variables between data points, such as a pro athlete’s performance based on age, quality of teammates, salary, and college program.

What’s a good example of unsupervised learning?

A good example of unsupervised learning is an artificial intelligence LLM for the health care industry. In this case, the LLM trains on unstructured data sets, such as medical textbooks, patient records, and study data. Using iterative training, the LLM learns relationships and patterns, with the eventual goal for the LLM to answer queries using appropriate medical language with a high level of accuracy.

What’s the difference between supervised and unsupervised learning?

Supervised learning uses labeled data sets in algorithm training. With clear input and output labels, supervised learning builds off a foundation of established definitions. For example, an algorithm for identifying cats trains off photos clearly labeled as either having cats or not having cats. Unsupervised learning uses unlabeled data sets in training. Without labels, the algorithm explores the data sets to identify patterns and trends. Using the same example of identifying cats, the system could pretrain with large unlabeled data sets of general encyclopedia-style text and images to learn visual patterns and concepts related to cats, then refine by training on smaller image data sets for specific items, such as cat faces, paws, and tails.

What’s an example of unsupervised feature learning?

In machine learning, features are variables found in a data set. An example of a feature for a weather algorithm is the day of the year. In the specific case of unsupervised learning, features are identified as the algorithm explores the data. Going back to that weather example, the model may find via exploration that date is an important factor in making predictions and thus determine that’s a required input feature for the model.

Qu'est-ce que l'apprentissage non supervisé ?

Michael Chen | Content Strategest | 17 juillet 2024

Contenu de l'article

Qu'est-ce que l'apprentissage non supervisé ?
FAQ sur l'apprentissage non supervisé

L'apprentissage non supervisé est une technique de machine learning qui utilise des jeux de données non étiquetés pour l'entraînement. Avec l'apprentissage non supervisé, un modèle n'a pas de lignes directrices établies pour les résultats ou les relations souhaités. Au lieu de cela, l'objectif est d'explorer les données et, ce faisant, de découvrir des modèles, des tendances et des relations.

L'apprentissage non supervisé est le choix optimal pour un projet de machine learning avec une grande quantité de données non étiquetées, souvent diverses, où les modèles et les relations ne sont pas encore connus. L'algorithme révèle souvent des informations qui n'auraient peut-être pas été trouvées autrement. Par exemple, l'examen d'un jeu de données d'historique d'achats peut révéler des clusters de clients qui achètent de manière similaire, une donnée auparavant inconnue. Les décideurs pourraient utiliser ces informations pour développer de nouveaux programmes de vente.

En raison de sa nature exploratoire, l'apprentissage non supervisé fonctionne mieux pour des scénarios spécifiques. Ces avantages comprennent :

Analyse des données brutes : les algorithmes d'apprentissage non supervisés peuvent explorer de très grands volumes de données non structurées, tels que du texte, pour trouver des modèles et des tendances. Un exemple provient des demandes d'e-mails client historiques, où un algorithme de formation non supervisée peut explorer un jeu de données non structurées d'e-mails client. Bien qu'il n'y ait pas d'étiquetage pour définir la qualité ou le but de ces interactions, l'algorithme peut détecter des modèles qui pourraient mettre en évidence des opportunités d'amélioration, telles qu'un volume élevé de demandes de renseignements sur le même problème technique.

Groupes : pour la segmentation des données, l'apprentissage non supervisé peut examiner les caractéristiques des points de données afin de déterminer les points communs et les modèles et de créer des groupes. Un exemple provient d'un projet d'entraînement d'un grand modèle de langage (LLM) pour répondre aux entrées du client. En utilisant les commentaires non structurés des clients provenant des chatbots et des messages, l'algorithme peut apprendre à identifier les catégories en fonction du texte, telles que la question de facturation, les commentaires positifs ou négatifs, la question technique ou la demande d'emploi. Cette catégorisation aide ensuite le modèle à identifier les réponses appropriées en termes de langage et de ton.

Relations : Comme pour les regroupements, l'entraînement non supervisé peut examiner le poids (l'importance des fonctionnalités ou des entrées qui chevauchent des points de données), la distance (la mesure de la similarité globale entre les points de données) et la qualité des relations pour déterminer la façon dont les points de données sont connectés entre eux. Considérez un algorithme de détection de fraude qui va au-delà du marquage binaire d'enregistrements douteux en examinant différents points de données connexes, tels que les achats similaires effectués par des comptes précédemment marqués ou d'autres achats par le compte en question. L'analyse des relations fournit un contexte, permettant aux établissements de déterminer si l'enregistrement marqué était une instance unique, une partie d'un modèle de comportement plus large ou une fraude.

Dans chacun de ces cas, l'apprentissage non supervisé identifie les modèles et les caractéristiques au sein des données. Ce processus peut conduire à une meilleure compréhension de ce qui peut être appris pour stimuler la prise de décision.

Qu'est-ce que l'apprentissage non supervisé ?

L'apprentissage non supervisé est un type de machine learning où l'algorithme est entraîné sur des données non étiquetées. Un projet d'apprentissage non supervisé commence par l'établissement du problème à résoudre ou d'un autre objectif. Avec ces informations, les pistes du projet peuvent choisir le type d'algorithme pour le projet. Cette sélection est généralement basée sur le résultat souhaité : regroupement, relations ou dimensionnalité, processus d'identification et de définition de fonctions ou de variables au sein d'un jeu de données. Les objectifs déterminent également la recherche de jeux de données d'entraînement appropriés, car les objectifs et les types d'algorithme du projet déterminent le type de données nécessaires.

Une fois ces éléments définis, l'algorithme suit un entraînement , en utilisant l'essai et l'erreur pour imiter les relations d'entrée/sortie établies jusqu'à ce qu'une norme de performance acceptable soit respectée. Les experts en données analysent les résultats pour voir si le modèle a découvert les informations souhaitées et les itèrent en les affinant et en ajustant les paramètres pour améliorer les performances.

La décision d'utiliser l'apprentissage non supervisé vient avec des mises en garde. Étant donné que l'apprentissage non supervisé est une méthode d'entraînement plus complexe que l'apprentissage supervisé ou semi-supervisé, en raison du manque de données étiquetées qui aideraient à valider les résultats, il nécessite généralement une surveillance par des experts qui peuvent vérifier la performance du modèle. Ainsi, alors que l'apprentissage non supervisé est un processus pratique du point de vue de l'étiquetage et de la préparation des données, il a besoin d'une supervision étroite pour rester sur la bonne voie. Par exemple, dans un modèle d'IA générative chargé de produire des illustrations réalistes, les experts du domaine devront examiner les résultats de près pour s'assurer que les modèles et les relations qui alimentent la génération d'images soient précis dans des domaines tels que l'éclairage, l'anatomie et la faisabilité structurelle. Sinon, vous pourriez finir avec des doigts ou des orteils supplémentaires.

Les types d'apprentissage non supervisé les plus courants sont les suivants :

Clustering : lorsque l'algorithme recherche des groupes de données similaires et les points communs entre eux. Les exemples concrets incluent la segmentation des clients et le filtrage automatique des e-mails.

Règle d'association : lorsque l'algorithme examine les relations entre les points de données, qu'il s'agisse d'un niveau de surface ou de plusieurs couches cachées en profondeur. Les exemples concrets incluent les modèles d'achat des clients et les relations de symptômes pour le diagnostic médical.

Réduction de dimensionnalité : lorsque le modèle examine un jeu de données pour réduire le nombre de fonctionnalités non pertinentes (dimensions) utilisées. Les exemples réels incluent la reconnaissance d'images et les algorithmes de compression de données.

Le machine learning non supervisé permet aux entreprises de découvrir des modèles et des informations dans des jeux de données volumineux, diversifiés et non structurés qui ne disposent pas de catégories ou d'étiquettes prédéfinies, sans intervention humaine. C'est comme passer au crible des milliers de grains de sable pour trouver des mouchetures d'or, ouvrant potentiellement de nouvelles opportunités de croissance et d'innovation.

Quel cas d'utilisation de l'IA convient le mieux à l'apprentissage non supervisé ? Allez plus loin grâce à cet e-book

Consulter l'e-book

FAQ sur l'apprentissage non supervisé

Quels sont les deux types d'apprentissage non supervisé ?

Les techniques d'apprentissage non supervisé sont généralement classées parmi deux types différents. Le clustering fait référence au processus de regroupement des données en fonction de caractéristiques, avec des algorithmes utilisant des méthodes d'analyse telles que le clustering hiérarchique (création de clusters dans des arborescences hiérarchiques, telles que le pouvoir d'achat du client basé sur le code postal) et le clustering probabiliste, qui utilise des scores de probabilité qui calculent la probabilité d'appartenance, tels que les caractéristiques de risque d'un client dans l'analyse de prêt. L'apprentissage de la règle d'association fait référence au processus d'identification des relations entre les points de données pour déterminer les modèles et les tendances, avec des algorithmes utilisant des méthodes telles que l'association quantitative - relations associées sur la base d'attributs numériques ou quantitatifs entre les points de données (telles que les tendances d'achat par âge et l'association multirelationnelle), c'est-à-dire les relations associées entre plusieurs variables possibles entre les points de données (telles que la performance d'un athlète professionnel en fonction de l'âge, de la qualité des coéquipiers, du salaire et du programme universitaire).

Quel est un bon exemple d'apprentissage non supervisé ?

Un bon exemple d'apprentissage non supervisé est un LLM en intelligence artificielle pour le secteur des soins de santé. Dans ce cas, le LLM s'entraîne sur des jeux de données non structurés, tels que des manuels médicaux, des dossiers patient et des données d'étude. En utilisant un entraînement itératif, le LLM apprend les relations et les modèles, avec l'objectif final que le LLM réponde aux requêtes en utilisant un langage médical approprié avec un haut niveau de précision.

Quelle est la différence entre l'apprentissage supervisé et l'apprentissage non supervisé ?

L'apprentissage supervisé utilise des jeux de données étiquetés dans l'entraînement des algorithmes. Avec des étiquettes d'entrée et de sortie claires, l'apprentissage supervisé repose sur une base de définitions établies. Par exemple, un algorithme pour identifier des chats entraîne des photos clairement étiquetées comme ayant des chats ou n'ayant pas de chats. L'apprentissage non supervisé utilise des jeux de données non étiquetés dans l'entraînement. Sans étiquettes, l'algorithme explore les jeux de données pour identifier les modèles et les tendances. En utilisant le même exemple d'identification de chats, le système pourrait se pré-entraîner avec de grands jeux de données non étiquetées de texte et d'images assimilés au style d'encyclopédies générales pour apprendre des modèles visuels et des concepts liés aux chats, puis affiner en s'entraînant sur des jeux de données d'images plus petits pour des éléments spécifiques, tels que les museaux de chats, les pattes et les queues.

Qu'est-ce qu'un exemple d'apprentissage non supervisé ?

Dans le machine learning, les fonctionnalités sont des variables trouvées dans un jeu de données. Un exemple de fonctionnalité pour un algorithme météorologique est le jour de l'année. Dans le cas spécifique de l'apprentissage non supervisé, les fonctionnalités sont identifiées au fur et à mesure que l'algorithme explore les données. En revenant à cet exemple météorologique, le modèle peut trouver par exploration que la date est un facteur important pour faire des prédictions et donc déterminer qu'il s'agit d'une fonctionnalité d'entrée requise pour le modèle.