¿Qué es el aprendizaje por refuerzo? El - Función y varios factores

Tabla de contenido:

Anonim

Introducción al aprendizaje por refuerzo

El aprendizaje de refuerzo es un tipo de aprendizaje automático y, por lo tanto, también es parte de la Inteligencia Artificial, cuando se aplica a los sistemas, los sistemas realizan pasos y aprenden según el resultado de los pasos para obtener un objetivo complejo que se establece para que el sistema lo logre.

Comprender el aprendizaje por refuerzo

Probemos bajo el funcionamiento del aprendizaje por refuerzo con la ayuda de 2 casos de uso simples:

Caso 1

Hay un bebé en la familia y ella acaba de comenzar a caminar y todos están muy contentos con eso. Un día, los padres intentan establecer una meta, dejar que el bebé llegue al sofá y ver si el bebé puede hacerlo.

Resultado del Caso 1: el bebé llega con éxito al sofá y, por lo tanto, todos en la familia están muy contentos de ver esto. El camino elegido ahora viene con una recompensa positiva.

Puntos: Recompensa + (+ n) → Recompensa positiva.

Fuente: https://images.app.goo.gl/pGCXJ1N1bzLAer126

Caso # 2

El bebé no pudo alcanzar el sofá y se cayó. ¡Duele! ¿Cuál podría ser la razón? Puede haber algunos obstáculos en el camino hacia el sofá y el bebé se haya caído en obstáculos.

Resultado del Caso 2: ¡ El bebé cae ante algunos obstáculos y llora! Oh, eso fue malo, aprendió, a no caer en la trampa del obstáculo la próxima vez. El camino elegido ahora viene con una recompensa negativa.

Puntos: Recompensas + (-n) → Recompensa negativa.

Fuente: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7

Esto ahora hemos visto los casos 1 y 2, el aprendizaje por refuerzo, en concepto, hace lo mismo excepto que no es humano sino que se realiza computacionalmente.

Usando refuerzo paso a paso

Comprendamos el aprendizaje de refuerzo al traer un agente de refuerzo de manera gradual. En este ejemplo, nuestro agente de aprendizaje de refuerzo es Mario, que aprenderá a jugar solo:

Fuente: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9

  • El estado actual del entorno del juego de Mario es S_0. Porque el juego aún no ha comenzado y Mario está en su lugar.
  • A continuación, se inicia el juego y el Mario se mueve, el agente Mario es decir, RL toma una acción, digamos A_0.
  • Ahora el estado del entorno del juego se ha convertido en S_1.
  • Además, el agente RL, es decir, el Mario ahora tiene asignado un punto de recompensa positivo, R_1, probablemente porque el Mario todavía está vivo y no se encontró ningún peligro.

Ahora el bucle anterior seguirá funcionando hasta que Mario finalmente esté muerto o Mario llegue a su destino. Este modelo generará continuamente la acción, la recompensa y el estado.

Recompensas de maximización

El objetivo del aprendizaje de refuerzo es maximizar las recompensas teniendo en cuenta otros factores como el descuento de recompensas; explicaremos en breve lo que se entiende por descuento con la ayuda de una ilustración.

La fórmula acumulativa para recompensas con descuento es la siguiente:

Recompensas de descuento

Comprendamos esto a través de un ejemplo:

  • En la figura dada, el objetivo es que el ratón en el juego tiene que comer la mayor cantidad de queso antes de ser comido por un gato o sin ser electrocutado.
  • Ahora, podemos suponer que cuanto más cerca estemos del gato o de la trampa eléctrica, mayor será la probabilidad de que el ratón sea comido o sorprendido.
  • Esto implica que, incluso si tenemos el queso completo cerca del bloque de descarga eléctrica o cerca del gato, cuanto más riesgoso sea ir allí, es mejor comer el queso que está cerca para evitar cualquier riesgo.
  • Entonces, aunque tenemos un "bloque1" de queso que está lleno y está lejos del gato y el bloque de descarga eléctrica y el otro "bloque2", que también está lleno pero está cerca del gato o del bloque de descarga eléctrica, el bloque de queso posterior, es decir, "bloque2" tendrá más descuentos en recompensas que el anterior.

Fuente: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8

Fuente: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp

Tipos de aprendizaje por refuerzo

A continuación se presentan los dos tipos de aprendizaje de refuerzo con sus ventajas y desventajas:

1. Positivo

Cuando la fuerza y ​​la frecuencia del comportamiento aumentan debido a la ocurrencia de algún comportamiento particular, se conoce como Aprendizaje de refuerzo positivo.

Ventajas: el rendimiento se maximiza y el cambio se mantiene durante más tiempo.

Desventajas: Los resultados pueden disminuir si tenemos demasiado refuerzo.

2. Negativo

Es el fortalecimiento del comportamiento, principalmente debido a que el término negativo se desvanece.

Ventajas: Se incrementa el comportamiento.

Desventajas: solo se puede alcanzar el comportamiento mínimo del modelo con la ayuda del aprendizaje de refuerzo negativo.

¿Dónde debe usarse el aprendizaje por refuerzo?

Cosas que se pueden hacer con el aprendizaje por refuerzo / ejemplos. Las siguientes son las áreas donde se usa el aprendizaje por refuerzo en estos días:

  1. Cuidado de la salud
  2. Educación
  3. Juegos
  4. Visión por computador
  5. Administración de Empresas
  6. Robótica
  7. Finanzas
  8. PNL (procesamiento del lenguaje natural)
  9. Transporte
  10. Energía

Carreras en el aprendizaje por refuerzo

De hecho, hay un informe del sitio de trabajo, ya que RL es una rama del aprendizaje automático, según el informe, el aprendizaje automático es el mejor trabajo de 2019. A continuación se muestra la instantánea del informe. De acuerdo con las tendencias actuales, un Ingeniero de Aprendizaje Automático viene con un salario promedio enorme de $ 146, 085 y con una tasa de crecimiento del 344 por ciento.

Fuente: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1

Habilidades para el aprendizaje por refuerzo

A continuación se presentan las habilidades necesarias para el aprendizaje por refuerzo:

1. Habilidades básicas

  • Probabilidad
  • Estadísticas
  • Modelado de datos

2. Habilidades de programación

  • Fundamentos de programación y ciencias de la computación
  • Diseño de software
  • Capaz de aplicar bibliotecas y algoritmos de Machine Learning

3. Lenguajes de programación de aprendizaje automático

  • Pitón
  • R
  • Aunque también hay otros lenguajes donde se pueden diseñar modelos de Machine Learning, como Java, C / C ++, pero Python y R son los lenguajes más preferidos.

Conclusión

En este artículo, comenzamos con una breve introducción sobre el aprendizaje por refuerzo, y luego profundizamos en el funcionamiento de RL y varios factores que están involucrados en el funcionamiento de los modelos RL. Luego pusimos algunos ejemplos del mundo real para comprender aún mejor el tema. Al final de este artículo, uno debe tener una buena comprensión del funcionamiento del aprendizaje por refuerzo.

Artículos recomendados

Esta es una guía de ¿Qué es el aprendizaje por refuerzo? Aquí discutimos la función y varios factores involucrados en el desarrollo de modelos de aprendizaje por refuerzo, con ejemplos. También puede consultar nuestros otros artículos relacionados para obtener más información:

  1. Tipos de algoritmos de aprendizaje automático
  2. Introducción a la inteligencia artificial
  3. Herramientas de inteligencia artificial
  4. Plataforma IoT
  5. Los 6 lenguajes de programación de aprendizaje automático más importantes