Qu'est-ce qu'un grand modèle de langage (LLM) ?

Mark Jackley | Responsable de la stratégie du contenu | 16 février 2024

Un grand modèle de langage (LLM) est un type d'intelligence artificielle de plus en plus populaire conçu pour générer des réponses écrites de type humain aux requêtes. Les LLM sont formés à de grandes quantités de données textuelles et apprennent à prédire le mot suivant, ou séquence de mots, en fonction du contexte fourni. Ils peuvent même imiter le style d'écriture d'un auteur ou d'un genre particulier.

Les LLM sont sortis des laboratoires et ont fait l'actualité au début des annés 2020 et se sont depuis transformés en produits autonomes et en fonctionnalités à valeur ajoutée intégrées dans de nombreux types de logiciels d'entreprise. Grâce à leur impressionnante capacité à interpréter les demandes et à produire des réponses utiles, les LLM sont utilisés dans un large éventail d'applications, y compris le traitement du langage naturel, la traduction automatique, la génération de contenu, les chatbots et la synthèse de documents.

Qu'est-ce qu'un grand modèle de langage ?

Un grand modèle de langage (LLM) est un système d'intelligence artificielle qui a été entraîné sur un vaste jeu de données, souvent composé de milliards de mots extraits de livres, du Web et d'autres sources, pour générer des réponses humaines pertinentes sur le plan contextuel aux requêtes. Comme les LLM sont conçus pour comprendre les questions (appelées « invites » dans la terminologie LLM) et générer des réponses en langage naturel, ils peuvent effectuer des tâches telles que répondre aux questions des clients, résumer les informations dans un rapport, générer des premières ébauches d'e-mails, voire écrire de la poésie et du code informatique. Les LLM ont généralement une compréhension approfondie de la grammaire et de la sémantique de la langue dans laquelle ils sont formés, et ils peuvent être affinés à l'aide des données d'une entreprise.

Parce qu'ils peuvent reconnaître et interpréter le langage humain – bien qu'ils ne le comprennent pas vraiment tel que le font les humains – les LLM représentent une avancée significative dans le traitement du langage naturel. Le LLM le plus connu est probablement ChatGPT, le programme d'IA de OpenAI entraîné sur des milliards de mots provenant de livres, d'articles et de sites Web. L'entreprise offre un accès direct à ChatGPT via un navigateur Web ou une application mobile, ou elle peut être liée à des logiciels d'entreprise via des API programmables. D'autres LLM courants comprennent Cohere, GPT-4 et BARD.

Les données textuelles utilisées pour entraîner un LLM peuvent être structurées, comme dans une base de données, ou non structurées. La plupart des entreprises disposent de grandes quantités de données non structurées, y compris des sms, des e-mails et des documents.

Les utilisations commerciales populaires des LLM comprennent les chatbots de service client, les assistants numériques et les services de traduction qui sont plus contextuels, familiers et naturels que les outils traditionnels de traduction mot à mot. Les LLM peuvent également effectuer des tâches assez avancées, telles que la prédiction des structures protéiques et l'écriture de code logiciel. Les secteurs de la santé, des produits pharmaceutiques, de la finance et du retail font partie des secteurs qui font bon usage des LLM. Par exemple, un fournisseur de soins de santé peut utiliser un LLM pour trier les patients qui font appel à une ligne d'assistance téléphonique, tandis qu'une entreprise d'investissement peut en utiliser une pour passer en revue et résumer les rapports sur les revenus, les actualités et les publications sur les réseaux sociaux afin de repérer les tendances des actions. Les LLM peuvent aider les entreprises à gérer et à analyser les données, en dérivant des informations susceptibles de créer de la valeur pour l'entreprise. Et dans les deux scénarios, le LLM effectue la tâche plus rapidement que les analystes humains ne le pourraient.

Cela a suscité un grand intérêt pour la technologie, à tel point que le marché mondial des LLM devrait croître à un taux de croissance annuel composé de 21,4% pour atteindre 40,8 milliards de dollars américains d'ici 2029, selon les recherches de Valuates Reports de 2023.

Il y a quelques concepts clés à comprendre lorsque vous pensez aux LLM. Celles-ci comprennent :

  • Langage naturel. Tout langage que les humains utilisent dans des situations ordinaires, telles que des conversations ou des rapports écrits, non développé à des fins techniques, telles que le code informatique.
  • Traitement du langage naturel. Une sorte de traitement de données qui peut analyser la structure et la signification du texte écrit ou parlé.
  • Modèle de langage. Modèle d'un langage naturel qui peut prédire le meilleur mot suivant dans une phrase ou une phrase dans le contexte souhaité.

Comme les humains, les LLM ne sont pas parfaits. La qualité de leur production dépend de la qualité de leur entrée, c'est-à-dire des informations utilisées pour les former. Des données obsolètes peuvent entraîner des erreurs, comme un chatbot qui donne une mauvaise réponse sur les produits d'une entreprise. Un manque de données suffisantes peut amener les LLM à inventer des réponses, ou « halluciner". Bien que les LLM soient excellents dans la prédiction, pour l'instant, ils sont moins doués pour expliquer comment ils sont arrivés à une conclusion donnée. Et de nombreux LLM sont formés avec des livres, des articles de journaux et même des pages Wikipédia, ce qui suscite des inquiétudes concernant la violation du droit d'auteur. Lorsqu'ils ne sont pas gérés de manière rigoureuse, les LLM peuvent présenter des problèmes de sécurité en utilisant, par exemple, des informations sensibles ou privées dans une réponse.

Une technique d'IA appelée génération augmentée par récupération (RAG) peut aider à résoudre certains de ces problèmes en améliorant la précision et la pertinence de la sortie d'un LLM. La RAG permet d'ajouter des informations ciblées sans modifier le modèle sous-jacent. Les modèles de RAG créent des référentiels de connaissances, généralement basés sur les données d'une entreprise, qui peuvent être continuellement mis à jour pour fournir des réponses contextuelles et opportunes. Par exemple, les chatbots et autres systèmes conversationnels peuvent utiliser le RAG pour s'assurer que leurs réponses aux questions des clients soient basées sur les informations actuelles sur les stocks, les préférences de l'acheteur et les achats précédents, et pour exclure les informations obsolètes ou non pertinentes pour le contexte opérationnel prévu du LLM.

La création d'un centre d'excellence en matière d'IA avant le début de l'entraînement spécifique à l'organisation augmente les chances de réussite. Notre e-book explique pourquoi et propose des conseils pour créer un centre d'excellence (CDE) efficace.

FAQ sur les grands modèles de langages

Quels sont les cinq grands modèles de langage ?

Les experts ne sont pas d'accord sur les grands LLM, mais cinq que beaucoup vantent sont GPT-4 de OpenAI, Claude 2 d'Anthropic, Llama 2 de Meta, Orca 2 de Microsoft Research et Command de Cohere. ChatGPT provient également d'OpenAI.

Quelle est la différence entre les LLM et l'IA ?

L'intelligence artificielle est un terme large qui englobe de nombreuses technologies qui peuvent imiter le comportement ou les capacités de type humain. Les grands modèles de langage sont un type d'IA générative, terme générique pour les modèles d'IA qui génèrent du contenu, notamment du texte, des images, des vidéos, des langues parlées et de la musique.

Oracle Chatbot
Disconnected