¿Qué es el aprendizaje por refuerzo? El - Función y varios factores

Introducción al aprendizaje por refuerzo

El aprendizaje de refuerzo es un tipo de aprendizaje automático y, por lo tanto, también es parte de la Inteligencia Artificial, cuando se aplica a los sistemas, los sistemas realizan pasos y aprenden según el resultado de los pasos para obtener un objetivo complejo que se establece para que el sistema lo logre.

Comprender el aprendizaje por refuerzo

Probemos bajo el funcionamiento del aprendizaje por refuerzo con la ayuda de 2 casos de uso simples:

Caso 1

Hay un bebé en la familia y ella acaba de comenzar a caminar y todos están muy contentos con eso. Un día, los padres intentan establecer una meta, dejar que el bebé llegue al sofá y ver si el bebé puede hacerlo.

Resultado del Caso 1: el bebé llega con éxito al sofá y, por lo tanto, todos en la familia están muy contentos de ver esto. El camino elegido ahora viene con una recompensa positiva.

Puntos: Recompensa + (+ n) → Recompensa positiva.

Fuente: https://images.app.goo.gl/pGCXJ1N1bzLAer126

Caso # 2

El bebé no pudo alcanzar el sofá y se cayó. ¡Duele! ¿Cuál podría ser la razón? Puede haber algunos obstáculos en el camino hacia el sofá y el bebé se haya caído en obstáculos.

Resultado del Caso 2: ¡ El bebé cae ante algunos obstáculos y llora! Oh, eso fue malo, aprendió, a no caer en la trampa del obstáculo la próxima vez. El camino elegido ahora viene con una recompensa negativa.

Puntos: Recompensas + (-n) → Recompensa negativa.

Fuente: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7

Esto ahora hemos visto los casos 1 y 2, el aprendizaje por refuerzo, en concepto, hace lo mismo excepto que no es humano sino que se realiza computacionalmente.

Usando refuerzo paso a paso

Comprendamos el aprendizaje de refuerzo al traer un agente de refuerzo de manera gradual. En este ejemplo, nuestro agente de aprendizaje de refuerzo es Mario, que aprenderá a jugar solo:

Fuente: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9

El estado actual del entorno del juego de Mario es S_0. Porque el juego aún no ha comenzado y Mario está en su lugar.
A continuación, se inicia el juego y el Mario se mueve, el agente Mario es decir, RL toma una acción, digamos A_0.
Ahora el estado del entorno del juego se ha convertido en S_1.
Además, el agente RL, es decir, el Mario ahora tiene asignado un punto de recompensa positivo, R_1, probablemente porque el Mario todavía está vivo y no se encontró ningún peligro.

Ahora el bucle anterior seguirá funcionando hasta que Mario finalmente esté muerto o Mario llegue a su destino. Este modelo generará continuamente la acción, la recompensa y el estado.

Recompensas de maximización

El objetivo del aprendizaje de refuerzo es maximizar las recompensas teniendo en cuenta otros factores como el descuento de recompensas; explicaremos en breve lo que se entiende por descuento con la ayuda de una ilustración.

La fórmula acumulativa para recompensas con descuento es la siguiente:

Recompensas de descuento

Comprendamos esto a través de un ejemplo:

En la figura dada, el objetivo es que el ratón en el juego tiene que comer la mayor cantidad de queso antes de ser comido por un gato o sin ser electrocutado.
Ahora, podemos suponer que cuanto más cerca estemos del gato o de la trampa eléctrica, mayor será la probabilidad de que el ratón sea comido o sorprendido.
Esto implica que, incluso si tenemos el queso completo cerca del bloque de descarga eléctrica o cerca del gato, cuanto más riesgoso sea ir allí, es mejor comer el queso que está cerca para evitar cualquier riesgo.
Entonces, aunque tenemos un "bloque1" de queso que está lleno y está lejos del gato y el bloque de descarga eléctrica y el otro "bloque2", que también está lleno pero está cerca del gato o del bloque de descarga eléctrica, el bloque de queso posterior, es decir, "bloque2" tendrá más descuentos en recompensas que el anterior.

Fuente: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8

Fuente: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp

Tipos de aprendizaje por refuerzo

A continuación se presentan los dos tipos de aprendizaje de refuerzo con sus ventajas y desventajas:

1. Positivo

Cuando la fuerza y la frecuencia del comportamiento aumentan debido a la ocurrencia de algún comportamiento particular, se conoce como Aprendizaje de refuerzo positivo.

Ventajas: el rendimiento se maximiza y el cambio se mantiene durante más tiempo.

Desventajas: Los resultados pueden disminuir si tenemos demasiado refuerzo.

2. Negativo

Es el fortalecimiento del comportamiento, principalmente debido a que el término negativo se desvanece.

Ventajas: Se incrementa el comportamiento.

Desventajas: solo se puede alcanzar el comportamiento mínimo del modelo con la ayuda del aprendizaje de refuerzo negativo.

¿Dónde debe usarse el aprendizaje por refuerzo?

Cosas que se pueden hacer con el aprendizaje por refuerzo / ejemplos. Las siguientes son las áreas donde se usa el aprendizaje por refuerzo en estos días:

Cuidado de la salud
Educación
Juegos
Visión por computador
Administración de Empresas
Robótica
Finanzas
PNL (procesamiento del lenguaje natural)
Transporte
Energía

Carreras en el aprendizaje por refuerzo

De hecho, hay un informe del sitio de trabajo, ya que RL es una rama del aprendizaje automático, según el informe, el aprendizaje automático es el mejor trabajo de 2019. A continuación se muestra la instantánea del informe. De acuerdo con las tendencias actuales, un Ingeniero de Aprendizaje Automático viene con un salario promedio enorme de $ 146, 085 y con una tasa de crecimiento del 344 por ciento.

Fuente: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1

Habilidades para el aprendizaje por refuerzo

A continuación se presentan las habilidades necesarias para el aprendizaje por refuerzo:

1. Habilidades básicas

Probabilidad
Estadísticas
Modelado de datos

2. Habilidades de programación

Fundamentos de programación y ciencias de la computación
Diseño de software
Capaz de aplicar bibliotecas y algoritmos de Machine Learning

3. Lenguajes de programación de aprendizaje automático

Pitón
R
Aunque también hay otros lenguajes donde se pueden diseñar modelos de Machine Learning, como Java, C / C ++, pero Python y R son los lenguajes más preferidos.

Conclusión

En este artículo, comenzamos con una breve introducción sobre el aprendizaje por refuerzo, y luego profundizamos en el funcionamiento de RL y varios factores que están involucrados en el funcionamiento de los modelos RL. Luego pusimos algunos ejemplos del mundo real para comprender aún mejor el tema. Al final de este artículo, uno debe tener una buena comprensión del funcionamiento del aprendizaje por refuerzo.

Artículos recomendados

Esta es una guía de ¿Qué es el aprendizaje por refuerzo? Aquí discutimos la función y varios factores involucrados en el desarrollo de modelos de aprendizaje por refuerzo, con ejemplos. También puede consultar nuestros otros artículos relacionados para obtener más información:

Tipos de algoritmos de aprendizaje automático
Introducción a la inteligencia artificial
Herramientas de inteligencia artificial
Plataforma IoT
Los 6 lenguajes de programación de aprendizaje automático más importantes

¿Qué es el aprendizaje por refuerzo? El - Función y varios factores

Tabla de contenido:

Introducción al aprendizaje por refuerzo

Comprender el aprendizaje por refuerzo

Caso 1

Caso # 2

Usando refuerzo paso a paso

Recompensas de maximización

Recompensas de descuento

Tipos de aprendizaje por refuerzo

1. Positivo

2. Negativo

¿Dónde debe usarse el aprendizaje por refuerzo?

Carreras en el aprendizaje por refuerzo

Habilidades para el aprendizaje por refuerzo

1. Habilidades básicas

2. Habilidades de programación

3. Lenguajes de programación de aprendizaje automático

Conclusión

Artículos recomendados

Manejo de errores de VBA - Diferentes tipos de errores en Excel VBA

VBA FileDialog - ¿Cómo utilizar el objeto FileDialog en Excel VBA? (Ejemplos)

VBA Do While Loop - ¿Cómo usar Excel VBA Do While Loop?

VBA Else If Declaración - ¿Cómo usar Excel VBA Else If Statement?

Sub de salida de VBA - Cómo aplicar Exit Sub usando VBA (con ejemplos)

Creación de Tableau Dashboard - Pasos para la creación de Tableau Dashboard

Herramientas de software del sistema - Diferentes aplicaciones y herramientas

Tableau Bullet Chart - Gráfico de viñetas de construcción en Tableau

Declaración de Tableau IF - Variantes de la declaración de Tableau IF con sintaxis

Filtro de contexto de Tableau - ¿Cómo crear y eliminar el filtro de contexto de Tableau?

Editores de texto HTML - Los 8 mejores editores de texto diferentes de HTML

HTML vs HTML5 - 9 diferencias más impresionantes para aprender

HTML vs PHP: descubra las 8 diferencias más sorprendentes

HTML vs XML: descubra las 11 comparaciones útiles

HTML vs XHTML: descubra las 8 diferencias más útiles