¿Qué es el aprendizaje de refuerzo?

Michael Chen | Estratega de contenido | 3 de abril de 2024

En este artículo

¿Qué es el aprendizaje de refuerzo?
Preguntas frecuentes sobre el aprendizaje de refuerzo

El aprendizaje de refuerzo es una forma de aprendizaje automático o machine learning (ML) que permite a los modelos de IA refinar su proceso de toma de decisiones basado en retroalimentación positiva, neutral y negativa que les ayuda a decidir si repetir una acción en circunstancias similares. El aprendizaje de refuerzo se produce en un entorno exploratorio a medida que los desarrolladores persiguen un objetivo establecido, haciéndolo diferente del aprendizaje supervisado y no supervisado.

En el aprendizaje de refuerzo, el algoritmo funciona con un conjunto de datos sin etiquetar centrado en un resultado específico. Cada paso dado por el algoritmo para explorar el conjunto de datos crea retroalimentación, ya sea positiva, negativa o neutral. Esa retroalimentación es la parte de "refuerzo" del proceso de aprendizaje: a medida que se acumula, respalda la decisión de avanzar con un camino positivo o evitar un camino negativo. Finalmente, el modelo puede determinar la mejor estrategia para lograr un resultado. Debido a que el algoritmo considera el objetivo principal, este camino puede incluir un proceso de gratificación tardía, acumulando consecuencias negativas más pequeñas para lograr el resultado deseado.

Si esto te suena familiar, es porque el aprendizaje de refuerzo imita el proceso de aprendizaje natural. Las alabanzas y recompensas, junto con las consecuencias negativas, informan los límites de las mentes en desarrollo, reforzando las pautas para interactuar y tener éxito en el mundo, ya sea que eso implique que un animal joven cace alimentos o un niño humano aprenda a identificar símbolos. Debido a que el aprendizaje de refuerzo funciona como el aprendizaje del mundo real, es útil para escenarios complejos y abiertos donde la estrategia a largo plazo puede ser más importante que un resultado inmediato.

En entornos llenos de reglas, limitaciones y relaciones conectadas o dinámicas, el aprendizaje de refuerzo trae matices a la toma de decisiones modelo, al fomentar una comprensión de las consecuencias de las acciones. A nivel técnico, el aprendizaje de refuerzo proporciona mucha más flexibilidad que el aprendizaje supervisado, porque no se basa en conjuntos de datos etiquetados. En cambio, los modelos aprenden a través de la experimentación, creando una adaptabilidad que conduce a una gama más amplia de soluciones en todo un espectro de éxito. Los modelos pueden adaptarse a las circunstancias.

¿Qué es el aprendizaje de refuerzo?

El aprendizaje de refuerzo es donde los modelos refinan su proceso de toma de decisiones basado en el refuerzo positivo, neutral y negativo. Es una opción eficaz para entrenar modelos de machine learning en varias circunstancias. El aprendizaje de refuerzo es particularmente apropiado cuando el objetivo es comprender las estrategias detrás de los resultados exitosos en lugar de producir árboles de decisión más sencillos.

Por ejemplo, si un modelo de IA completa correctamente un nivel en un juego, puede ser recompensado con puntos de bonificación o un avance de nivel. El refuerzo neutral, por otro lado, se refiere a situaciones en las que no se otorgan recompensas o sanciones y se usa típicamente cuando las acciones del modelo no tienen un impacto significativo en el objetivo general. El refuerzo negativo implica sanciones cuando el modelo realiza acciones no deseadas o no logra el resultado deseado. Por ejemplo, si la IA realiza un movimiento no permitido o sin éxito en un juego, puede ser penalizada con una deducción en puntos o ser degradada un nivel.

Los casos de uso ideales para el aprendizaje de refuerzo incluyen:

Juego: los primeros oponentes del ajedrez informático se construyeron sobre una serie de reglas if/then. Con el aprendizaje de refuerzo, el modelo recibe una ingesta más amplia y orgánica de situaciones, elecciones y resultados, creando un proceso de toma de decisiones complejo que resulta en un oponente de CPU más sofisticado.
IA generativa: el aprendizaje de refuerzo puede formar parte de la base del aprendizaje automático para un modelo de IA generativa. Ya sea que el modelo genere imágenes, texto o audio, el aprendizaje de refuerzo permite un enfoque de prueba y error para determinar y refinar la precisión de los prompts y los resultados.
Marketing: cada interacción de marketing es una oportunidad para reforzar el aprendizaje. Ya sea que los clientes hayan abierto, hecho clic y permanecido en las páginas, o no, ofrece un refuerzo tanto positivo como negativo, lo que retroalimenta el modelo para crear un perfil de cliente más preciso.
Motores de recomendación: un modelo de recomendación obtiene un refuerzo positivo a través de la interacción recibida para cada sugerencia. Esto conduce a patrones que se mejoran hasta llegar a un modelo más preciso para los perfiles de clientes.
Coches autónomos: al aprender en entornos controlados y simulados, los modelos de automóviles autónomos pueden obtener una comprensión profunda de las circunstancias situacionalmente complejas. Debido a que la conducción crea tantas decisiones en el momento con factores como la proximidad, la velocidad, el clima y los peligros, el aprendizaje de refuerzo permite una gama de respuestas para refinar la toma de decisiones en los modelos.

En todos estos casos, las etapas iniciales del entrenamiento son similares a un niño que comienza a entender el mundo. Cuando el modelo llega a la etapa de producción, puede considerarse maduro o adulto, capaz de tomar decisiones generalmente precisas mientras aprende continuamente a refinar ese nivel de precisión, y con las circunstancias y los recursos adecuados, incluso alcanzar el dominio del tema, ya sea jugando un juego como el ajedrez o proporcionando recomendaciones que siempre interesan a un cliente.

La IA puede ayudar a los CIO a analizar datos para optimizar el gasto en la nube y sugerir ajustes de código para minimizar la salida de datos. Aprende a aprovechar ahora el poder de la inteligencia artificial para abordar los retos relacionados con el talento, la seguridad y otros.

Accede al ebook

Preguntas frecuentes sobre el aprendizaje de refuerzo

¿El aprendizaje de refuerzo es ML o AI?

El aprendizaje de refuerzo es una técnica de machine learning que se puede utilizar para entrenar sistemas con el fin de tomar decisiones basadas en la recepción de retroalimentación positiva, neutral y negativa. Un modelo de aprendizaje automático que utiliza aprendizaje de refuerzo puede formar parte de un mayor modelo de inteligencia artificial, diseñado para simular reacciones humanas a una circunstancia o situación particular.

¿Cuáles son los tres tipos principales de aprendizaje de refuerzo?

Los tres tipos principales de aprendizaje de refuerzo son:

Basado en modelos: se crea un entorno para que el modelo explore libremente, y él mismo determina sus parámetros para crear el mejor camino hacia el éxito.
Basado en políticas: las relaciones entre estrategias potenciales (políticas), acciones (valores) y resultados se examinan antes de que el modelo determine qué política alcanza el nivel más alto de éxito.
Basado en valores: el entorno actual en relación con acciones específicas (valores) se examina antes de que el modelo determine qué valor alcanza el nivel más alto de éxito.

¿Cuál es la diferencia entre el aprendizaje supervisado y el aprendizaje de refuerzo?

El aprendizaje supervisado utiliza conjuntos de datos etiquetados para entrenar modelos, con el fin de lograr con precisión los resultados esperados. El aprendizaje de refuerzo utiliza un enfoque más exploratorio, proporcionando un entorno abierto para que el modelo explore diferentes estrategias y opciones hasta que se cumpla el resultado deseado.