Michael Chen | Estratégia de conteúdo | 17 de julho de 2024
O aprendizado não supervisionado é uma técnica de machine learning que usa conjuntos de dados não rotulados para treinamento. Com o aprendizado não supervisionado, um modelo não tem diretrizes estabelecidas para resultados ou relacionamentos desejados. Em vez disso, o objetivo é explorar os dados e, consequentemente, descobrir padrões, tendências e relacionamentos.
O aprendizado não supervisionado é a escolha ideal para um projeto de machine learning com uma grande quantidade de dados não rotulados, geralmente diversos, em que os padrões e as relações ainda não são conhecidos. O algoritmo frequentemente revelará insights que, de outra forma, não seriam encontrados. Por exemplo, examinar um conjunto de dados de históricos de compras pode revelar grupos de clientes que compram de maneiras semelhantes, até então desconhecidas. Os tomadores de decisão podem usar essas informações para desenvolver novos programas de vendas.
Devido à sua natureza exploratória, o aprendizado não supervisionado funciona melhor para cenários específicos. Eles incluem:
Análise bruta de dados: algoritmos de aprendizado não supervisionados podem explorar volumes de dados muito grandes e não estruturados, como texto, para encontrar padrões e tendências. Um exemplo disso é o histórico de consultas de emails de clientes, em que um algoritmo de aprendizado não supervisionado pode explorar um conjunto de dados não estruturados de emails de clientes. Embora não haja rotulagem para definir a qualidade ou a finalidade dessas interações, o algoritmo pode detectar padrões que podem destacar oportunidades de melhoria, como um alto volume de consultas sobre o mesmo problema técnico.
Agrupamentos: para segmentação de dados, o aprendizado não supervisionado pode examinar as características dos pontos de dados para determinar semelhanças e padrões, além de criar grupos. Um exemplo disso vem de um projeto para treinar um grande modelo de linguagem (LLM) para responder à entrada do cliente. Usando feedback não estruturado de clientes de chatbots e mensagens, o algoritmo pode aprender a identificar categorias com base no texto, como pergunta sobre cobrança, feedback positivo ou negativo, pergunta técnica ou consulta de emprego. Essa categorização ajuda o modelo a identificar respostas apropriadas em termos de linguagem e tom.
Relacionamentos: assim como os agrupamentos, o aprendizado não supervisionado pode analisar o peso (a importância de recursos ou entradas que se sobrepõem a pontos de dados), a distância (a medida da similaridade geral entre pontos de dados) e a qualidade dos relacionamentos para determinar como os pontos de dados são conectados. Considere um algoritmo de detecção de fraude que vai além da sinalização binária de registros questionáveis, examinando diferentes pontos de dados relacionados, como compras semelhantes feitas por contas sinalizadas anteriormente ou outras compras pela conta em questão. A análise de relacionamento fornece contexto, permitindo que as instituições determinem se o registro sinalizado era uma instância única, parte de um padrão de comportamento maior ou fraude.
Em cada um desses casos, o aprendizado não supervisionado identifica padrões e características nos dados. Esse processo pode levar a uma melhor compreensão do que pode ser aprendido para impulsionar a tomada de decisões.
O aprendizado não supervisionado é um tipo de machine learning em que o algoritmo é treinado em dados não rotulados. Um projeto de aprendizado não supervisionado começa com a definição do problema a ser resolvido ou de outro objetivo. Com essas informações, os leads do projeto podem escolher o tipo de algoritmo para o projeto. Essa seleção geralmente se baseia no resultado desejado: agrupamento, relações ou dimensionalidade, processo de identificação e definição de recursos ou variáveis em um conjunto de dados. As metas também orientam a busca por conjuntos de dados de treinamento adequados, pois as metas do projeto e os tipos de algoritmo orientam o tipo de dados necessários.
Depois que essas peças são definidas, o algoritmo passa por treinamento, usando tentativa e erro para imitar relacionamentos de entrada/saída estabelecidos até que um padrão de desempenho aceitável seja atendido. Os especialistas em dados analisam os resultados para ver se o modelo revelou os insights desejados e iteram refinando o modelo e ajustando os parâmetros para melhorar o desempenho.
A decisão de usar o aprendizado não supervisionado traz algumas ressalvas. Como o aprendizado não supervisionado é um método de treinamento mais complexo do que o aprendizado supervisionado ou semissupervisionado, devido à falta de dados rotulados que ajudariam a validar os resultados, ele geralmente requer a supervisão de especialistas que possam verificar o desempenho do modelo. Assim, embora o aprendizado não supervisionado seja um processo sem intervenção, do ponto de vista da rotulagem e da preparação dos dados, ele precisa de supervisão rigorosa para permanecer no caminho certo. Por exemplo, em um modelo de IA generativa encarregado de produzir ilustrações realistas, os especialistas no domínio precisarão analisar minuciosamente os resultados para garantir que os padrões e contextos que alimentam a geração de imagens sejam precisos em áreas como iluminação, anatomia e viabilidade estrutural. Caso contrário, você pode acabar com algumas surpresas negativas.
Os tipos mais comuns de aprendizado não supervisionado são os seguintes:
Agrupamento: quando o algoritmo procura grupos de dados semelhantes e os compara. Exemplos do mundo real incluem segmentação de clientes e filtragem de email de classificação automática.
Regra de associação: quando o algoritmo examina relacionamentos entre pontos de dados, sejam eles superficiais ou ocultos sob várias camadas. Exemplos do mundo real incluem padrões de compra do cliente e associações de sintomas para diagnóstico médico.
Redução da dimensionalidade: quando o modelo examina um conjunto de dados para reduzir o número de recursos irrelevantes (dimensões) usados. Exemplos do mundo real incluem reconhecimento de imagem e algoritmos de compactação de dados.
O machine learning não supervisionado permite que as empresas descubram padrões e insights em conjuntos de dados grandes, diversos e não estruturados que não possuem categorias ou rótulos predefinidos, sem intervenção humana. É como peneirar milhares de grãos de areia em busca de partículas de ouro, o que pode abrir novas oportunidades de crescimento e inovação.
Qual caso de uso de IA é o mais adequado para o aprendizado não supervisionado? Descubra isso e muito mais neste ebook
Quais são os dois tipos de aprendizado não supervisionado?
As técnicas de aprendizado não supervisionado geralmente são classificadas como um dos dois tipos a seguir. Clustering se refere ao processo de agrupamento de dados com base em características, com algoritmos usando métodos de análise, como clusterização hierárquica – criando clusters em árvores hierárquicas, como poder de compra do cliente com base no CEP – e clusterização probabilística, que usa pontuações de probabilidade que calculam a chance de pertencimento, como as características de risco de um cliente na análise de empréstimo. O aprendizado de regra de associação se refere ao processo de identificação de relacionamentos entre pontos de dados para determinar padrões e tendências, onde os algoritmos usam métodos como associação quantitativa – relacionamentos que são associados de acordo com características numéricas ou quantitativas entre pontos de dados, como como tendências de compra por idade – e múltiplas relações de associação, ou seja, relações associadas entre diversas variáveis possíveis entre pontos de dados, como desempenho de um atleta profissional de acordo com a idade, qualidade dos colegas de equipe, salário e ensino superior.
O que seria um bom exemplo de aprendizado não supervisionado?
Um bom exemplo de aprendizado não supervisionado é um LM de inteligência artificial para o setor de saúde. Nesse caso, o LLM treina em conjuntos de dados não estruturados, como livros didáticos de medicina, registros de pacientes e dados de estudos. Usando treinamento iterativo, o LLM aprende relacionamentos e padrões, com o objetivo de responder a consultas usando a linguagem médica apropriada com um alto nível de precisão.
Qual é a diferença entre aprendizado supervisionado e não supervisionado?
O aprendizado supervisionado usa conjuntos de dados rotulados no treinamento de algoritmos. Com rótulos claros de entrada e saída, o aprendizado supervisionado se baseia em definições estabelecidas. Por exemplo, um algoritmo de detecção de gatos é treinado em imagens claramente rotuladas como imagens que contêm gatos ou não. O aprendizado não supervisionado usa conjuntos de dados não rotulados no treinamento. Sem rótulos, o algoritmo explora os conjuntos de dados para identificar padrões e tendências. Usando o mesmo exemplo de identificação de gatos, o sistema poderia fazer um pré-treinamento com grandes conjuntos de dados não rotulados de textos e imagens gerais no estilo de enciclopédia para aprender padrões visuais e conceitos relacionados a gatos e, em seguida, refinar o treinamento com conjuntos de dados de imagens menores para itens específicos, como cabeça, patas e rabo.
O que seria um exemplo de aprendizado de recursos não supervisionado?
No machine learning, os recursos são variáveis encontradas em um conjunto de dados. Um exemplo de recurso para um algoritmo meteorológico é o dia do ano. No caso específico de aprendizado não supervisionado, os recursos são identificados à medida que o algoritmo explora os dados. Voltando ao exemplo do clima, o modelo pode descobrir, por meio da exploração, que a data é um fator importante para fazer previsões e, assim, determinar que esse é um recurso de entrada obrigatório para o modelo.