¿Qué es el aprendizaje no supervisado?

Michael Chen | Estratega de contenido | 17 de julio de 2024

El aprendizaje no supervisado es una técnica de aprendizaje automático que utiliza conjuntos de datos sin etiquetas para el entrenamiento. Con el aprendizaje no supervisado, un modelo no tiene directrices establecidas para los resultados o relaciones deseadas. En su lugar, el objetivo es explorar los datos y, al hacerlo, descubrir patrones, tendencias y relaciones.

El aprendizaje no supervisado es la opción óptima para un proyecto de aprendizaje automático con una gran cantidad de datos sin etiquetar, a menudo diversos, donde los patrones y las relaciones aún no se conocen. El algoritmo a menudo descubrirá insights que de otro modo no se habrían encontrado. Por ejemplo, examinar un conjunto de datos de historiales de compras puede revelar grupos de clientes que compran de formas similares, anteriormente desconocidas. Los responsables de la toma de decisiones pueden utilizar esa información para desarrollar nuevos programas de ventas.

Debido a su naturaleza exploratoria, el aprendizaje no supervisado funciona mejor para escenarios específicos. Estos incluyen lo siguiente:

Análisis de datos sin supervisión: los algoritmos de aprendizaje no supervisados pueden explorar volúmenes de datos muy grandes y no estructurados, como texto, para encontrar patrones y tendencias. Un ejemplo de esto proviene de consultas históricas de correo electrónico de clientes, donde un algoritmo de aprendizaje no supervisado puede explorar un conjunto de datos no estructurados de correos electrónicos de clientes. Aunque no hay etiquetado para definir la calidad o el propósito de estas interacciones, el algoritmo puede detectar patrones que podrían resaltar oportunidades de mejora, como un gran volumen de consultas sobre el mismo problema técnico.

Agrupaciones: para la segmentación de datos, el aprendizaje no supervisado puede examinar los rasgos de los puntos de datos para determinar las similitudes y los patrones y crear grupos. Un ejemplo de esto proviene de un proyecto para entrenar un modelo de lenguaje grande (LLM) para responder a la entrada del cliente. Mediante el uso de comentarios de clientes no estructurados de chatbots y mensajes, el algoritmo puede aprender a identificar categorías basadas en el texto, como preguntas de facturación, comentarios positivos o negativos, preguntas técnicas o consultas de empleo. Esta categorización ayuda entonces al modelo a identificar respuestas apropiadas en términos de lenguaje y tono.

Relaciones: de forma similar a las agrupaciones, el aprendizaje no supervisado puede analizar el peso (la importancia de las funciones o entradas que se superponen a los puntos de datos), la distancia (la medida de la similitud general entre los puntos de datos) y la calidad de las relaciones para determinar cómo se conectan los puntos de datos. Considera un algoritmo de detección de fraude que vaya más allá del marcado binario de registros cuestionables mediante el examen de diferentes puntos de datos relacionados, como compras similares realizadas por cuentas previamente marcadas u otras compras por la cuenta en cuestión. El análisis de relaciones proporciona contexto, lo que permite a las instituciones determinar si el registro marcado era una instancia puntual, parte de un patrón de comportamiento más amplio o fraude.

En cada uno de estos casos, el aprendizaje no supervisado identifica patrones y características dentro de los datos. Este proceso puede conducir a una mejor comprensión de lo que se puede aprender para impulsar la toma de decisiones.

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado es un tipo de aprendizaje automático en el que el algoritmo se entrena en datos sin etiquetar. Un proyecto de aprendizaje no supervisado comienza con el establecimiento del problema que se va a resolver u otro objetivo. Con esa información, las oportunidades potenciales del proyecto pueden elegir el tipo de algoritmo para el proyecto. Esta selección generalmente se basa en el resultado deseado: agrupación en clusters, relaciones o dimensionalidad, el proceso de identificación y definición de características o variables dentro de un conjunto de datos. Los objetivos también impulsan la búsqueda de conjuntos de datos de formación adecuados, ya que los objetivos y los tipos de algoritmos del proyecto controlan el tipo de datos necesarios.

Una vez que estas piezas se establecen, el algoritmo se somete a entrenamiento, utilizando prueba y error para imitar las relaciones establecidas de entrada / salida hasta que se cumpla un estándar de rendimiento aceptable. Los expertos en datos analizan los resultados para ver si el modelo ha descubierto la información deseada y la itera refinando y ajustando los parámetros para mejorar el rendimiento.

La decisión de utilizar el aprendizaje no supervisado viene con advertencias. Dado que el aprendizaje no supervisado es un método de entrenamiento más complejo en comparación con el aprendizaje supervisado o semisupervisado, debido a la falta de datos etiquetados que ayudarían a validar los resultados, generalmente requiere la supervisión de expertos que pueden verificar el rendimiento del modelo. Por lo tanto, si bien el aprendizaje no supervisado es un proceso práctico desde el punto de vista del etiquetado y la preparación de datos, necesita una supervisión cercana para mantenerse en el camino correcto. Por ejemplo, en un modelo de IA generativa encargado de producir ilustraciones realistas, los expertos en la materia deberán revisar los resultados detenidamente para asegurarse de que los patrones y relaciones que impulsan la generación de imágenes sean precisos en áreas como la iluminación, la anatomía y la viabilidad estructural. De lo contrario, podrías terminar con dedos o pies de más.

Los tipos más comunes de aprendizaje no supervisado son los siguientes:

Agrupamiento en clústers (Clustering): cuando el algoritmo busca grupos de datos similares y las características comunes entre ellos. Ejemplos del mundo real incluyen la segmentación de clientes y el filtrado automático de correos electrónicos.

Regla de asociación: cuando el algoritmo examina las relaciones entre puntos de datos, ya sean superficiales o estén ocultas en varias capas. Ejemplos del mundo real incluyen patrones de compra de clientes y relaciones de síntomas para diagnósticos médicos.

Reducción de dimensionalidad: cuando el modelo examina un conjunto de datos para reducir el número de características irrelevantes (dimensiones) utilizadas. Ejemplos del mundo real incluyen algoritmos de reconocimiento de imágenes y compresión de datos.

El aprendizaje automático no supervisado permite a las empresas descubrir patrones e insights en conjuntos de datos grandes, diversos y no estructurados que carecen de categorías o etiquetas predefinidas, sin intervención humana. Es similar a tamizar miles de granos de arena en busca de pepitas de oro, lo que potencialmente desbloquea nuevas oportunidades de crecimiento e innovación.

¿Qué caso de uso de IA es el más adecuado para el aprendizaje no supervisado? Descubre esto y más en este ebook

Preguntas frecuentes sobre el aprendizaje no supervisado

¿Cuáles son los dos tipos de aprendizaje no supervisado?

Las técnicas de aprendizaje no supervisado generalmente se clasifican en dos tipos diferentes. Agrupamiento en clústers: se refiere al proceso de agrupar datos según características, utilizando métodos de análisis como el agrupamiento jerárquico (creación de grupos en árboles jerárquicos, como el poder adquisitivo de los clientes según el código postal) y el agrupamiento probabilístico, que utiliza puntuaciones de probabilidad que calculan la probabilidad de pertenencia, como las características de riesgo de un cliente en el análisis de préstamos. Regla de asociación: se refiere al proceso de identificar relaciones entre puntos de datos para determinar patrones y tendencias, utilizando métodos como la asociación cuantitativa (relaciones basadas en atributos numéricos o cuantitativos entre puntos de datos, como tendencias de compra por edad) y la asociación multirrelacional, es decir, relaciones asociadas entre múltiples variables posibles entre puntos de datos, como el rendimiento de un atleta profesional en función de la edad, la calidad de los compañeros de equipo, el salario y el programa universitario.

¿Cuál es un buen ejemplo de aprendizaje no supervisado?

Un buen ejemplo de aprendizaje no supervisado es un modelo de lenguaje de IA (LLM) para el sector de la salud. En este caso, el LLM se entrena con conjuntos de datos no estructurados, como libros de texto médicos, registros de pacientes y datos de estudios. Mediante entrenamiento iterativo, el LLM aprende relaciones y patrones, con el objetivo final de responder consultas utilizando un lenguaje médico adecuado con un alto nivel de precisión.

¿Cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?

El aprendizaje supervisado utiliza conjuntos de datos etiquetados para entrenar algoritmos. Con entradas y salidas claramente etiquetadas, el aprendizaje supervisado se basa en definiciones establecidas. Por ejemplo, un algoritmo para identificar gatos se entrena con fotos claramente etiquetadas como que tienen o no gatos. El aprendizaje no supervisado utiliza conjuntos de datos no etiquetados para el entrenamiento. Sin etiquetas, el algoritmo explora los conjuntos de datos para identificar patrones y tendencias. Usando el mismo ejemplo de identificación de gatos, el sistema podría preentrenarse con grandes conjuntos de datos no etiquetados de texto e imágenes estilo enciclopedia para aprender patrones visuales y conceptos relacionados con los gatos, y luego refinarse con conjuntos de imágenes más pequeños que muestran elementos específicos, como caras, patas y colas de gatos.

¿Cuál es un ejemplo de aprendizaje no supervisado de características?

En machine learning, las características son variables encontradas en un conjunto de datos. Un ejemplo de una característica para un algoritmo de clima es el día del año. En el caso específico del aprendizaje no supervisado, las características se identifican a medida que el algoritmo explora los datos. Volviendo al ejemplo del clima, el modelo puede descubrir a través de la exploración que la fecha es un factor importante para hacer predicciones y, por lo tanto, determinar que es una característica de entrada necesaria para el modelo.