Qu'est-ce que le renforcement de l'apprentissage ?

Michael Chen | Responsable de la stratégie de contenu | 3 avril 2024

Le renforcement de l'apprentissage est une forme de machine learning (ML) qui permet aux modèles d'IA d'affiner leur processus de prise de décision en fonction de commentaires positifs, neutres et négatifs qui les aident à décider de répéter une action dans des circonstances similaires. L'apprentissage par renforcement se produit dans un environnement exploratoire alors que les développeurs poursuivent un objectif défini, ce qui le rend différent de l'apprentissage supervisé et non supervisé.

Dans l'apprentissage par renforcement, l'algorithme fonctionne avec un jeu de données sans étiquette axé sur un résultat spécifique. Chaque étape effectuée par l'algorithme pour explorer le jeu de données crée une rétroaction, positive, négative ou neutre. Cette rétroaction est la partie « renforcement » du processus d'apprentissage. Au fur et à mesure qu'elle s'accumule, elle soutient la décision d'aller de l'avant en prenant un chemin positif ou au contraire d'éviter un chemin négatif. Finalement, le modèle peut déterminer la meilleure stratégie pour atteindre un résultat. Étant donné que l'algorithme considère l'objectif principal dans son ensemble, cette voie peut inclure un processus de gratification différée, en accumulant des conséquences négatives moins importantes afin d'atteindre le résultat souhaité.

Si cela vous semble familier, c'est parce que l'apprentissage par renforcement imite le processus d'apprentissage naturel. Les éloges et les récompenses, ainsi que les conséquences négatives définissent les limites des esprits en développement en renforçant les lignes directrices pour interagir et réussir dans le monde, qu'il s'agisse d'un jeune animal à la recherche de nourriture ou d'un enfant humain qui apprend à identifier des symboles. Parce que l'apprentissage par renforcement fonctionne comme un apprentissage dans le monde réel, il est utile pour des scénarios complexes et ouverts où la stratégie à long terme peut être plus importante qu'un résultat immédiat.

Dans des environnements régis par les règles, limites ou relations connectées ou dynamiques, le renforcement de l'apprentissage apporte des nuances à la prise de décision de modèle en favorisant une compréhension des conséquences des actions. Sur le plan technique, l'apprentissage par renforcement offre beaucoup plus de flexibilité que l'apprentissage supervisé car il ne repose pas sur des jeux de données étiquetés. Au lieu de cela, les modèles apprennent par l'expérimentation, créant une adaptabilité qui conduit à une gamme plus large de solutions sur tout un éventail de succès. Les modèles peuvent s'adapter aux circonstances.

Qu'est-ce que le renforcement de l'apprentissage ?

L'apprentissage par renforcement permet aux modèles d'affiner leur processus de prise de décision sur la base de renforcements positifs, neutres et négatifs. C'est un choix efficace pour entraîner des modèles de machine learning dans plusieurs circonstances. L'apprentissage par renforcement est particulièrement approprié lorsque l'objectif est de comprendre les stratégies qui sous-tendent les résultats positifs plutôt que de produire des arbres décisionnels plus simples.

Par exemple, si un modèle d'IA termine avec succès un niveau dans un jeu, il peut être récompensé par des points bonus ou un changement de niveau. Le renforcement neutre, en revanche, se réfère à des situations où aucune récompense ou pénalité n'est donnée et est généralement utilisé lorsque les actions du modèle n'ont pas d'impact significatif sur l'objectif global. Le renforcement négatif implique des pénalités lorsque le modèle effectue des actions indésirables ou ne parvient pas à atteindre le résultat souhaité. Par exemple, si l'IA effectue un déplacement non autorisé ou non réussi dans un jeu, il peut être pénalisé par une soustraction de points ou par une rétrogradation d'un niveau.

Les cas d'utilisation idéaux pour l'apprentissage du renforcement incluent

  • Jeux : les premiers adversaires aux échecs informatiques ont été construits sur une série de règles si/alors. Avec l'apprentissage par renforcement, le modèle reçoit un apport plus large et plus organique de situations, de choix et de résultats, créant un processus de prise de décision complexe qui se traduit par un adversaire du processeur plus sophistiqué.
  • IA générative : l'apprentissage par renforcement peut faire partie de la base du machine learning pour un modèle d'IA générative. Que le modèle génère des images, du texte ou de l'audio, l'apprentissage par renforcement permet une approche d'essais et d'erreurs pour déterminer et affiner la précision des invites et des résultats.
  • Marketing : chaque engagement marketing est une chance de renforcer l'apprentissage. Que les clients ouvrent, cliquent et restent sur les pages ou non permet d'offrir un renforcement positif ou négatif qui alimente le modèle pour créer un profil client plus précis.
  • Moteurs de recommandation : un modèle de recommandation obtient un renforcement positif grâce à l'engagement reçu pour chaque suggestion. Cela donne lieu à des modèles qui construisent un modèle plus précis pour les profils client.
  • Auto-conduite : en apprenant dans des environnements contrôlés et simulés, les modèles de voitures autonomes peuvent acquérir une compréhension approfondie des circonstances complexes d'un point de vue situationnel. Parce que la conduite crée tant de décisions instantanées avec des facteurs tels que la proximité, la vitesse, la météo et les dangers, l'apprentissage par renforcement permet une gamme de réponses pour affiner la prise de décision dans les modèles.

Dans tous ces cas, les premières étapes de la formation s'apparentent à un tout-petit qui commence à comprendre le monde. Au moment où le modèle atteint la phase de production, il peut être considéré comme mature ou adulte, capable de prendre des décisions généralement précises tout en apprenant continuellement à affiner ce niveau de précision. Avec les bonnes circonstances et ressources, il peut même atteindre la maîtrise du sujet, que ce soit jouer à un jeu comme les échecs ou fournir des recommandations qui intéresseront toujours un client.

L'IA peut aider les DSI à analyser les données pour optimiser les dépenses liées au cloud et à suggérer des ajustements de code à l'architecte pour limiter les sorties. Découvrez comment exploiter la puissance de l'intelligence artificielle pour relever les défis liés aux talents, à la sécurité et bien plus encore.

FAQ sur l'apprentissage par renforcement

L'apprentissage par renforcement est-il du ML ou de l'IA ?

L'apprentissage par renforcement est une technique de machine learning qui peut être utilisée pour former les systèmes à prendre des décisions en fonction de la réception de commentaires positifs, neutres ou négatifs. Un modèle de ML utilisant l'apprentissage par renforcement peut faire partie d'un modèle d'intelligence artificielle plus étendu conçu pour simuler des réactions humaines à une circonstance ou une situation particulière.

Quels sont les trois principaux types d'apprentissage du renforcement ?

Les trois principaux types d'apprentissage du renforcement sont

  • Basé sur un modèle : un environnement est créé pour que le modèle puisse être exploré librement lorsqu'il détermine ses paramètres afin d'élaborer la meilleure voie vers le succès.
  • Basé sur une stratégie : les relations entre les tactiques potentielles (stratégies), les actions (valeurs) et les résultats sont examinées avant que le modèle ne détermine la stratégie qui atteint le plus haut niveau de réussite.
  • Basé sur la valeur : l'environnement actuel par rapport à des actions spécifiques (valeurs) est examiné avant que le modèle ne détermine la valeur qui atteint le plus haut niveau de succès.

Quelle est la différence entre l'apprentissage supervisé et l'apprentissage par renforcement ?

L'apprentissage supervisé utilise des jeux de données étiquetés pour entraîner des modèles afin qu'ils puissent atteindre avec précision les résultats attendus. L'apprentissage par renforcement utilise une approche plus exploratoire, offrant un environnement ouvert pour que le modèle puisse explorer différentes stratégies et choix jusqu'à ce que le résultat souhaité soit atteint.