Michael Chen | Content Strategist | 17 juillet 2024
L'apprentissage supervisé est une forme de machine learning qui utilise des jeux de données étiquetés pour entraîner des algorithmes. Avec l'apprentissage supervisé, les jeux de données étiquetés permettent à l'algorithme de déterminer les relations entre les informations entrantes et sortantes. Au fur et à mesure que l'algorithme utilise ses données d'entraînement, il identifie des modèles susceptibbles d'affiner les modèles prédictifs ou éclairer les décisions lors des workflows automatisés. En substance, les jeux de données étiquetés servent d'exemples à l'algorithme pour apprendre, comme un étudiant dans une salle de classe structurée.
L'apprentissage supervisé est le choix idéal pour un éventail de missions et de circonstances. Si un projet a un objectif bien défini, l'apprentissage supervisé peut aider les équipes à terminer plus rapidement par rapport à l'utilisation de l'apprentissage non supervisé, où l'algorithme ingère un jeu de données non étiqueté sans paramètres ni objectifs et détermine des modèles et des relations dans les données par lui-même. Dans l'apprentissage supervisé, les jeux de données étiquetés servent de repères pour l'entraînement des algorithmes.
En outre, par rapport à d'autres formes de machine learning, l'entraînement d'un algorithme d'apprentissage supervisé présente l'avantage de traiter des quantités connues, telles que les fonctionnalités et les résultats. Cela peut accélérer le processus d'examen car les mesures standard permettent aux formateurs de comprendre de manière tangible l'état actuel d'un projet.
Grâce à l'entraînement supervisé, les entreprises peuvent bénéficier de plusieurs avantages. En intégrant la capacité à traiter efficacement le big data, les entreprises peuvent identifier des modèles et des informations beaucoup plus rapidement pour éclairer des décisions plus opportunes. En outre, les algorithmes d'apprentissage supervisés peuvent alimenter les efforts d'automatisation des tâches, améliorant et accélérant potentiellement les workflows. Par exemple, un algorithme de machine learning dans une opération de fabrication pourrait s'entraîner à l'aide de jeux de données historiques pour identifier les cycles de maintenance typiques de divers équipements. Ensuite, le système pourrait appliquer ces connaissances aux données en temps réel provenant de capteurs qui suivent l'utilisation et les performances d'un outil. L'algorithme pourrait alors signaler des signes d'usure ou avertir de la fin de vie des pièces critiques afin que des remplacements puissent être commandés avant qu'un dysfonctionnement de l'outil ne ferme une ligne de production.
Le machine learning supervisé commence par l'organisation de jeux de données d'entraînement étiquetés avec des informations entrantes et sortantes clairement et systématiquement identifiées. L'algorithme prend ces données pour apprendre les relations ; cet apprentissage conduit à un modèle mathématique de prédiction. Le processus d'entraînement est itératif et se répète pour affiner l'algorithme jusqu'à ce que le modèle atteigne un niveau de précision souhaité. À ce stade, différents jeux de données peuvent être utilisés pour évaluer et confirmer que le modèle est prêt à utiliser des données actives.
Les algorithmes d'apprentissage supervisé appartiennent généralement à l'une des deux catégories suivantes :
Classification : les algorithmes de classification prennent les données et placent les entrées dans des sorties catégorisées. Par exemple, un algorithme financier de détection des fraudes examine l'historique des achats d'un client de carte de crédit et utilise ces données pour décider si une nouvelle transaction est probablement légitime ou doit être marquée pour une inspection ultérieure des fraudes.
Régression : les algorithmes de régression utilisent des jeux de données d'entraînement étiquetés pour identifier la relation la mieux adaptée entre les informations entrantes et sortantes afin que des prédictions mathématiques puissent être faites pour les nouvelles entrées. Par exemple, un algorithme météorologique peut prendre en compte des variables telles que la saison, les tendances récentes, les modèles historiques et les mesures environnementales actuelles pour créer un résultat prévisionnel.
Bien que l'apprentissage supervisé soit une approche de machine learning éprouvée et efficace, il présente plusieurs défis. Les équipes devraient examiner les questions suivantes avant de décider de poursuivre l'apprentissage supervisé.
Sélection de modèles : Les algorithmes d'apprentissage supervisés varient en complexité et en intensité de ressources. Par exemple, un arbre décisionnel, essentiellement un organigramme de points de décision et de résultats possibles, peut fonctionner avec une empreinte légère, mais ne dispose pas des capacités nécessaires pour une précision stricte dans un domaine complexe. D'autre part, un réseau neuronal profond nécessitera bien plus de ressources pour l'entraînement et la production, mais pourra éventuellement effectuer des prévisions précises et bien plus encore. Trouver le bon équilibre est la clé d'un projet réussi.
Qualité des données de l'entraînement : tout projet de machine learning nécessite des données propres provenant de sources de qualité. Pour les données d'entraînement supervisé, cela signifie spécifiquement des données avec un étiquetage précis et cohérent qui est compatible avec d'autres sources utilisées pour l'entraînement. Si les jeux de données d'entraînement ne sont pas dans des formats compatibles, les techniques d'intégration et de transformation des données doivent être appliquées avant l'entraînement, ce qui rajoute du temps et des dépenses.
Compréhension des contraintes du projet. Des facteurs tels que le budget, les ressources de l'environnement d'entraînement et les délais peuvent créer des contraintes pratiques qui dicteront les réalités d'un projet de machine learning. Etant donné que ces contraintes peuvent affecter la sélection d'algorithmes, les équipes doivent identifier les paramètres avant de commencer.
En fin de compte, l'apprentissage supervisé peut être la bonne approche de machine learning pour les projets où des jeux de données étiquetés sont disponibles. Par ailleurs, les équipes devraient comprendre que l'apprentissage supervisé fonctionne mieux lorsque l'objectif implique des prédictions ou des décisions précises basées sur des modèles identifiés. Pensez à la fraude ou à la détection de spams, où l'algorithme peut être entraîné sur des exemples de résultats corrects et incorrects. Enfin, la compréhension de différents types de modèles d'apprentissage supervisé, tels que les arbres décisionnels et la régression linéaire, permettra de déterminer si c'est la bonne approche pour tel ou tel projet.
Quel cas d'utilisation de l'IA convient le mieux à l'apprentissage supervisé ? Lisez cet e-book.
Quel est l'exemple d'un algorithme d'apprentissage supervisé ?
Un exemple d'algorithme d'apprentissage supervisé est la création d'un modèle qui prédit la probabilité d'une maladie en fonction du dossier patient informatisé. Le modèle est entraîné sur un ensemble étiqueté de données patient, en utilisant des facteurs tels que les symptômes, l'âge, les résultats de tests, les antécédents et d'autres facteurs. Cela permet au système de saisir les données d'un patient et d'identifier ce qui, le cas échéant, pourrait correspondre à une condition médicale non diagnostiquée et de suggérer un examen plus approfondi.
Qu'est-ce qu'un exemple d'apprentissage non supervisé ?
Contrairement à l'apprentissage supervisé, les algorithmes d'apprentissage non supervisé sont entraînés à l'aide de jeux de données sans étiquette. L'objectif de l'apprentissage non supervisé est de permettre à l'algorithme d'explorer les données et d'identifier des modèles par lui-même. Ce modèle résultant peut ensuite être appliqué aux données entrantes. Un exemple d'apprentissage non supervisé est un modèle de segmentation client qui peut prendre des modèles dans de grands jeux de données d'utilisation des clients et d'historique des achats pour regrouper les clients en groupes à des fins marketing.
CNN est-il surveillé ou non ?
Un réseau neuronal convolutionnel (CNN) est une technique d'apprentissage supervisé formée sur des jeux de données étiquetés à des fins telles que l'analyse d'images ou de vidéos, en plus d'applications avec des modèles similaires tels que le traitement du langage naturel. Les CNN utilisent plusieurs couches pour séparer les tâches, telles que l'identification des fonctionnalités/spécificités ou l'application de la classification, et optimisent les ressources de calcul.