O que é um grande modelo de linguagem (LLM)?

Mark Jackley | Estrategista de Conteúdo | 16 de fevereiro de 2024

Um grande modelo de linguagem (LLM) é um tipo de inteligência artificial cada vez mais popular, projetado para gerar respostas semelhantes às humanas a consultas digitadas. Os LLMs são treinados em grandes quantidades de dados de texto e aprendem a prever a próxima palavra, ou sequência de palavras, com base no contexto fornecido. Eles podem até imitar o estilo de escrita de um determinado autor ou gênero.

Os LLMs surgiram em laboratórios e viraram notícia no início de 2020 e, desde então, se transformaram em produtos independentes e recursos de valor agregado integrados a diversos tipos de software de negócios. Graças à sua impressionante capacidade de interpretar solicitações e produzir respostas úteis, os LLMs são usados em uma ampla gama de aplicações, incluindo processamento de linguagem natural, tradução automática, geração de conteúdo, chatbots e resumo de documentos.

O que é um grande modelo de linguagem?

Um grande modelo linguagem (LLM) é um sistema de inteligência artificial que foi treinado em um vasto conjunto de dados, geralmente composto por bilhões de palavras extraídas de livros, da Web e de outras fontes, para gerar respostas contextualmente relevantes para consultas e semelhantes às humanas. Como os LLMs são projetados para compreender perguntas, chamadas de "prompts" na terminologia de LLM, e gerar respostas em linguagem natural, eles podem realizar tarefas como responder perguntas de clientes, resumir informações em um relatório, gerar primeiros rascunhos de emails, até mesmo escrever poesia e códigos de computador. Os LLMs normalmente têm um profundo conhecimento da gramática e semântica do idioma em que foram treinados, e podem ser refinados usando os dados da própria empresa.

Como eles podem reconhecer e interpretar a linguagem humana – embora não a entendam verdadeiramente da maneira como os humanos o fazem – os LLMs representam um avanço significativo no processamento da linguagem natural. O LLM mais conhecido é provavelmente o ChatGPT, o programa de IA do OpenAI treinado em bilhões de palavras de livros, artigos e sites. A empresa oferece acesso direto ao ChatGPT por meio de um navegador da Web ou aplicativo móvel, ou pode ser vinculado a um software de negócios por meio de APIs programáveis. Outros LLMs comuns incluem Cohere, GPT-4 e BARD.

Os dados textuais usados para treinar um LLM podem ser estruturados, como em um banco de dados ou não estruturados. A maioria das empresas tem grandes quantidades de dados não estruturados, incluindo mensagens de texto, emails e documentos.

Os usos comerciais mais populares de LLMs incluem chatbots de atendimento ao cliente, assistentes digitais e serviços de tradução que são mais contextuais, coloquiais e naturais do que as ferramentas tradicionais de tradução literal. Os LLMs também podem executar tarefas bastante avançadas, como prever estruturas de proteínas e escrever código de software. Assistência médica, produtos farmacêuticos, finanças e varejo estão entre os setores que fazem bom uso dos LLMs. Por exemplo, um profissional de saúde pode usar um LLM para fazer a triagem de pacientes que ligam para uma linha direta, enquanto uma empresa de investimento pode usá-lo para filtrar e resumir relatórios de ganhos, notícias e publicações em redes sociais para identificar tendências de ações. Os LLMs podem ajudar as organizações a gerenciar e analisar dados, derivando insights que podem gerar valor comercial. E em ambos os cenários, o LLM está realizando a tarefa mais rápido do que os analistas humanos poderiam fazer.

Isso levou a um grande interesse na tecnologia, tanto que o mercado global de LLMs deve crescer a uma taxa anual composta de 21,4% para atingir US $ 40,8 bilhões até 2029, de acordo com a pesquisa da Valuates Reports de 2023.

Existem alguns conceitos fundamentais a serem compreendidos quando se pensa em LLMs. São eles:

  • Linguagem natural. Qualquer linguagem que os humanos usem em situações comuns, como em conversas ou relatórios escritos, não desenvolvida para fins técnicos, como o código de computador.
  • Processamento de linguagem natural. Um tipo de processamento de dados que pode analisar a estrutura e o significado do texto escrito ou falado.
  • Modelo de linguagem. Um modelo de linguagem natural que pode prever a próxima melhor palavra em uma frase dentro do contexto desejado.

Assim como os seres humanos, os LLMs não são perfeitos. A qualidade dos resultados depende da qualidade dos dados inseridos, ou seja, da informação utilizada para treiná-los. Dados desatualizados podem resultar em erros, como um chatbot que fornece uma resposta errada sobre os produtos de uma empresa. A falta de dados pode fazer com que os LLMs formulem respostas, ou tenham "alucinações". Embora os LLMs sejam ótimos para prever, ainda não são tão bons em explicar como chegaram a uma determinada conclusão. E muitos LLMs são treinados com livros, artigos de jornal e até páginas da Wikipedia, levando a preocupações sobre violação de direitos autorais. Quando não são rigorosamente gerenciados, os LLMs podem apresentar desafios de segurança, por exemplo, usando informações confidenciais ou privadas em uma resposta.

Uma técnica de IA chamada geração aumentada de recuperação (RAG) pode ajudar com alguns desses problemas, melhorando a precisão e a relevância dos resultados de um LLM. A RAG fornece uma maneira de adicionar informações direcionadas sem alterar o modelo subjacente. Os modelos RAG criam repositórios de conhecimento, normalmente baseados nos próprios dados da organização, que podem ser continuamente atualizados para fornecer respostas contextuais e em tempo hábil. Por exemplo, chatbots e outros sistemas de conversação podem usar RAG para garantir que suas respostas às perguntas dos clientes sejam baseadas em informações atuais sobre estoque, preferências do comprador e compras anteriores, e para excluir informações desatualizadas ou irrelevantes para o contexto operacional previsto do LLM.

Estabelecer um centro de excelência em IA antes do início do treinamento específico da organização aumenta a probabilidade de sucesso. Nosso ebook explica o porquê e oferece dicas sobre como construir um CoE eficaz.

Perguntas frequentes sobre grandes modelos de linguagem

Quais são os cinco principais grandes modelos de linguagem?

Especialistas não chegaram a um consenso sobre os melhores LLMs, mas cinco modelos amplamente comercializados são o GPT-4 da OpenAI, Claude 2 da Anthropic, Llama 2 da Meta, Orca 2 da Microsoft Research e Command da Cohere. O ChatGPT também é da OpenAI.

Qual é a diferença entre LLMs e IA?

A inteligência artificial é um termo amplo que engloba muitas tecnologias que podem imitar comportamento ou capacidades semelhantes às humanas. Os grandes modelos de linguagem são um tipo de IA generativa, o termo geral para modelos de IA que geram conteúdo, incluindo texto, imagens, vídeo, linguagem falada e música.

Oracle Chatbot
Disconnected