What is unsupervised learning?

Unsupervised learning is a type of machine learning where the algorithm is trained on unlabeled data. An unsupervised learning project starts with establishing the problem to be solved or other goal. With that information, the project’s leads can choose the type of algorithm for the project. This selection is usually based on the desired outcome: clustering, relationships, or dimensionality—the process of identifying and defining features or variables within a data set. Goals also drive the search for appropriate training data sets, as the project’s goals and algorithm types drive the type of data needed.

What are the two types of unsupervised learning?

Unsupervised learning techniques are generally classified as one of two different types. Clustering refers to the process of grouping data based on traits, with algorithms using analysis methods such as hierarchical clustering—creating clusters in hierarchical trees, such as customer purchasing power based on zip code—and probabilistic clustering, which uses probability scores that calculate the likelihood of belonging, such as a customer’s risk characteristics in loan analysis. Association rule learning refers to the process of identifying relationships between data points to determine patterns and trends, with algorithms using methods such as quantitative association—relationships associated based on numerical or quantitative attributes between data points, such as purchasing trends by age—and multirelational association, that is, relationships associated among multiple possible variables between data points, such as a pro athlete’s performance based on age, quality of teammates, salary, and college program.

What’s a good example of unsupervised learning?

A good example of unsupervised learning is an artificial intelligence LLM for the health care industry. In this case, the LLM trains on unstructured data sets, such as medical textbooks, patient records, and study data. Using iterative training, the LLM learns relationships and patterns, with the eventual goal for the LLM to answer queries using appropriate medical language with a high level of accuracy.

What’s the difference between supervised and unsupervised learning?

Supervised learning uses labeled data sets in algorithm training. With clear input and output labels, supervised learning builds off a foundation of established definitions. For example, an algorithm for identifying cats trains off photos clearly labeled as either having cats or not having cats. Unsupervised learning uses unlabeled data sets in training. Without labels, the algorithm explores the data sets to identify patterns and trends. Using the same example of identifying cats, the system could pretrain with large unlabeled data sets of general encyclopedia-style text and images to learn visual patterns and concepts related to cats, then refine by training on smaller image data sets for specific items, such as cat faces, paws, and tails.

What’s an example of unsupervised feature learning?

In machine learning, features are variables found in a data set. An example of a feature for a weather algorithm is the day of the year. In the specific case of unsupervised learning, features are identified as the algorithm explores the data. Going back to that weather example, the model may find via exploration that date is an important factor in making predictions and thus determine that’s a required input feature for the model.

¿Qué es el aprendizaje no supervisado?

Michael Chen | Estratega de contenido | 17 de julio de 2024

En este artículo

¿Qué es el aprendizaje no supervisado?
Preguntas frecuentes sobre el aprendizaje no supervisado

El aprendizaje no supervisado es una técnica de aprendizaje automático que utiliza conjuntos de datos sin etiquetas para el entrenamiento. Con el aprendizaje no supervisado, un modelo no tiene directrices establecidas para los resultados o relaciones deseadas. En su lugar, el objetivo es explorar los datos y, al hacerlo, descubrir patrones, tendencias y relaciones.

El aprendizaje no supervisado es la opción óptima para un proyecto de aprendizaje automático con una gran cantidad de datos sin etiquetar, a menudo diversos, donde los patrones y las relaciones aún no se conocen. El algoritmo a menudo descubrirá insights que de otro modo no se habrían encontrado. Por ejemplo, examinar un conjunto de datos de historiales de compras puede revelar grupos de clientes que compran de formas similares, anteriormente desconocidas. Los responsables de la toma de decisiones pueden utilizar esa información para desarrollar nuevos programas de ventas.

Debido a su naturaleza exploratoria, el aprendizaje no supervisado funciona mejor para escenarios específicos. Estos incluyen lo siguiente:

Análisis de datos sin supervisión: los algoritmos de aprendizaje no supervisados pueden explorar volúmenes de datos muy grandes y no estructurados, como texto, para encontrar patrones y tendencias. Un ejemplo de esto proviene de consultas históricas de correo electrónico de clientes, donde un algoritmo de aprendizaje no supervisado puede explorar un conjunto de datos no estructurados de correos electrónicos de clientes. Aunque no hay etiquetado para definir la calidad o el propósito de estas interacciones, el algoritmo puede detectar patrones que podrían resaltar oportunidades de mejora, como un gran volumen de consultas sobre el mismo problema técnico.

Agrupaciones: para la segmentación de datos, el aprendizaje no supervisado puede examinar los rasgos de los puntos de datos para determinar las similitudes y los patrones y crear grupos. Un ejemplo de esto proviene de un proyecto para entrenar un modelo de lenguaje grande (LLM) para responder a la entrada del cliente. Mediante el uso de comentarios de clientes no estructurados de chatbots y mensajes, el algoritmo puede aprender a identificar categorías basadas en el texto, como preguntas de facturación, comentarios positivos o negativos, preguntas técnicas o consultas de empleo. Esta categorización ayuda entonces al modelo a identificar respuestas apropiadas en términos de lenguaje y tono.

Relaciones: de forma similar a las agrupaciones, el aprendizaje no supervisado puede analizar el peso (la importancia de las funciones o entradas que se superponen a los puntos de datos), la distancia (la medida de la similitud general entre los puntos de datos) y la calidad de las relaciones para determinar cómo se conectan los puntos de datos. Considera un algoritmo de detección de fraude que vaya más allá del marcado binario de registros cuestionables mediante el examen de diferentes puntos de datos relacionados, como compras similares realizadas por cuentas previamente marcadas u otras compras por la cuenta en cuestión. El análisis de relaciones proporciona contexto, lo que permite a las instituciones determinar si el registro marcado era una instancia puntual, parte de un patrón de comportamiento más amplio o fraude.

En cada uno de estos casos, el aprendizaje no supervisado identifica patrones y características dentro de los datos. Este proceso puede conducir a una mejor comprensión de lo que se puede aprender para impulsar la toma de decisiones.

¿Qué es el aprendizaje no supervisado?

El aprendizaje no supervisado es un tipo de aprendizaje automático en el que el algoritmo se entrena en datos sin etiquetar. Un proyecto de aprendizaje no supervisado comienza con el establecimiento del problema que se va a resolver u otro objetivo. Con esa información, las oportunidades potenciales del proyecto pueden elegir el tipo de algoritmo para el proyecto. Esta selección generalmente se basa en el resultado deseado: agrupación en clusters, relaciones o dimensionalidad, el proceso de identificación y definición de características o variables dentro de un conjunto de datos. Los objetivos también impulsan la búsqueda de conjuntos de datos de formación adecuados, ya que los objetivos y los tipos de algoritmos del proyecto controlan el tipo de datos necesarios.

Una vez que estas piezas se establecen, el algoritmo se somete a entrenamiento, utilizando prueba y error para imitar las relaciones establecidas de entrada / salida hasta que se cumpla un estándar de rendimiento aceptable. Los expertos en datos analizan los resultados para ver si el modelo ha descubierto la información deseada y la itera refinando y ajustando los parámetros para mejorar el rendimiento.

La decisión de utilizar el aprendizaje no supervisado viene con advertencias. Dado que el aprendizaje no supervisado es un método de entrenamiento más complejo en comparación con el aprendizaje supervisado o semisupervisado, debido a la falta de datos etiquetados que ayudarían a validar los resultados, generalmente requiere la supervisión de expertos que pueden verificar el rendimiento del modelo. Por lo tanto, si bien el aprendizaje no supervisado es un proceso práctico desde el punto de vista del etiquetado y la preparación de datos, necesita una supervisión cercana para mantenerse en el camino correcto. Por ejemplo, en un modelo de IA generativa encargado de producir ilustraciones realistas, los expertos en la materia deberán revisar los resultados detenidamente para asegurarse de que los patrones y relaciones que impulsan la generación de imágenes sean precisos en áreas como la iluminación, la anatomía y la viabilidad estructural. De lo contrario, podrías terminar con dedos o pies de más.

Los tipos más comunes de aprendizaje no supervisado son los siguientes:

Agrupamiento en clústers (Clustering): cuando el algoritmo busca grupos de datos similares y las características comunes entre ellos. Ejemplos del mundo real incluyen la segmentación de clientes y el filtrado automático de correos electrónicos.

Regla de asociación: cuando el algoritmo examina las relaciones entre puntos de datos, ya sean superficiales o estén ocultas en varias capas. Ejemplos del mundo real incluyen patrones de compra de clientes y relaciones de síntomas para diagnósticos médicos.

Reducción de dimensionalidad: cuando el modelo examina un conjunto de datos para reducir el número de características irrelevantes (dimensiones) utilizadas. Ejemplos del mundo real incluyen algoritmos de reconocimiento de imágenes y compresión de datos.

El aprendizaje automático no supervisado permite a las empresas descubrir patrones e insights en conjuntos de datos grandes, diversos y no estructurados que carecen de categorías o etiquetas predefinidas, sin intervención humana. Es similar a tamizar miles de granos de arena en busca de pepitas de oro, lo que potencialmente desbloquea nuevas oportunidades de crecimiento e innovación.

¿Qué caso de uso de IA es el más adecuado para el aprendizaje no supervisado? Descubre esto y más en este ebook

Accede al ebook

Preguntas frecuentes sobre el aprendizaje no supervisado

¿Cuáles son los dos tipos de aprendizaje no supervisado?

Las técnicas de aprendizaje no supervisado generalmente se clasifican en dos tipos diferentes. Agrupamiento en clústers: se refiere al proceso de agrupar datos según características, utilizando métodos de análisis como el agrupamiento jerárquico (creación de grupos en árboles jerárquicos, como el poder adquisitivo de los clientes según el código postal) y el agrupamiento probabilístico, que utiliza puntuaciones de probabilidad que calculan la probabilidad de pertenencia, como las características de riesgo de un cliente en el análisis de préstamos. Regla de asociación: se refiere al proceso de identificar relaciones entre puntos de datos para determinar patrones y tendencias, utilizando métodos como la asociación cuantitativa (relaciones basadas en atributos numéricos o cuantitativos entre puntos de datos, como tendencias de compra por edad) y la asociación multirrelacional, es decir, relaciones asociadas entre múltiples variables posibles entre puntos de datos, como el rendimiento de un atleta profesional en función de la edad, la calidad de los compañeros de equipo, el salario y el programa universitario.

¿Cuál es un buen ejemplo de aprendizaje no supervisado?

Un buen ejemplo de aprendizaje no supervisado es un modelo de lenguaje de IA (LLM) para el sector de la salud. En este caso, el LLM se entrena con conjuntos de datos no estructurados, como libros de texto médicos, registros de pacientes y datos de estudios. Mediante entrenamiento iterativo, el LLM aprende relaciones y patrones, con el objetivo final de responder consultas utilizando un lenguaje médico adecuado con un alto nivel de precisión.

¿Cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?

El aprendizaje supervisado utiliza conjuntos de datos etiquetados para entrenar algoritmos. Con entradas y salidas claramente etiquetadas, el aprendizaje supervisado se basa en definiciones establecidas. Por ejemplo, un algoritmo para identificar gatos se entrena con fotos claramente etiquetadas como que tienen o no gatos. El aprendizaje no supervisado utiliza conjuntos de datos no etiquetados para el entrenamiento. Sin etiquetas, el algoritmo explora los conjuntos de datos para identificar patrones y tendencias. Usando el mismo ejemplo de identificación de gatos, el sistema podría preentrenarse con grandes conjuntos de datos no etiquetados de texto e imágenes estilo enciclopedia para aprender patrones visuales y conceptos relacionados con los gatos, y luego refinarse con conjuntos de imágenes más pequeños que muestran elementos específicos, como caras, patas y colas de gatos.

¿Cuál es un ejemplo de aprendizaje no supervisado de características?

En machine learning, las características son variables encontradas en un conjunto de datos. Un ejemplo de una característica para un algoritmo de clima es el día del año. En el caso específico del aprendizaje no supervisado, las características se identifican a medida que el algoritmo explora los datos. Volviendo al ejemplo del clima, el modelo puede descubrir a través de la exploración que la fecha es un factor importante para hacer predicciones y, por lo tanto, determinar que es una característica de entrada necesaria para el modelo.