Descripción general del aprendizaje automático de hiperparámetros

Para cualquier modelo, necesitamos algunos parámetros, que ayudan a proporcionar una base para la solución de problemas / análisis y evaluación del modelo. Algunos de estos parámetros deben aprenderse de los datos y algunos debemos definirlos explícitamente desde nuestro extremo. Los parámetros que se pueden aprender de los datos sin definirse explícitamente se denominan parámetros del modelo. El parámetro que el usuario define explícitamente se llama hiperparámetros. Los hiperparámetros también son parámetros del modelo solamente, pero el término hiperparámetros se usa en el aprendizaje automático para que puedan distinguirse fácilmente y no confundirse con los parámetros del modelo que se aprenden del conjunto de datos.

¿Qué es el aprendizaje automático de hiperparámetros?

Para la mayoría de los marcos en el aprendizaje automático, los hiperparámetros no tienen una definición rigurosa. Estos hiperparámetros gobiernan el sistema subyacente de un modelo que guía los parámetros primarios (modales) del modelo. Tratemos de comprender los hiperparámetros con el siguiente ejemplo.

  • Afinar el violín es muy importante cuando uno está en la etapa de aprendizaje porque en ese momento se crean conexiones entre diferentes sentidos. Las orejas, los dedos y los ojos están aprendiendo el violín al mismo tiempo. Ahora, al principio Acostumbrarse al sonido del violín fuera de tono crea un mal sabor de sonido, lo que arruinará toda la experiencia de enamorarse del proceso de aprendizaje del violín.
  • Es por eso que afinar el violín realmente puede ayudar a uno en el proceso de aprendizaje del violín. Del mismo modo, el hiperparámetro es un tipo de ajuste para el modelo de Machine Learning para dar la dirección correcta.
  • Los hiperparámetros generalmente se definen antes de aplicar un algoritmo de aprendizaje automático a un conjunto de datos.
  • Ahora, la siguiente tarea es cuál debería ser el hiperparámetro y cuál debería ser su valor. Porque uno debe saber qué cuerdas se necesitan para afinar y cómo afinar el violín antes de afinarlo. Lo mismo se aplica a los hiperparámetros, necesitamos definir qué hiperparámetros y cuál debería ser su valor, básicamente depende de cada tarea y cada conjunto de datos.
  • Para entender esto, tomemos la perspectiva de la optimización del modelo.
  • En la implementación del modelo de aprendizaje automático, la optimización del modelo juega un papel vital. Hay un buen número de ramas del aprendizaje automático que se dedican exclusivamente a la optimización del modelo de aprendizaje automático. En general, se percibe que para optimizar el modelo necesitamos modificar el código para que el error pueda ser minimizado.
  • Sin embargo, hay elementos ocultos que afectan la optimización del aprendizaje automático que está fuera del modelo y tienen una gran influencia en el comportamiento del modelo. Estos elementos ocultos se denominan hiperparámetros, estos son componentes críticos para la optimización de cualquier modelo de aprendizaje automático.
  • Los hiperparámetros son sintonizadores / configuraciones que controlan el comportamiento de un modelo. Estos hiperparámetros se definen fuera del modelo pero tienen una relación directa con el rendimiento del modelo. Los hiperparámetros podrían considerarse ortogonales al modelo.
  • El criterio para definir un hiperparámetro es muy flexible y abstracto. Seguramente hay algunos hiperparámetros como el número de capas ocultas, la tasa de aprendizaje de un modelo que están bien establecidos y también hay algunas configuraciones que se pueden tratar como hiperparámetro para un modelo específico, como controlar la capacidad del modelo.
  • Hay posibilidades de que el algoritmo sobreajuste un modelo si los algoritmos aprenden directamente a través de la configuración. Como está claro, los hiperparámetros no se aprenden / ajustan a través del conjunto de entrenamiento, por lo que el conjunto de prueba o validación se usa para la selección de hiperparámetros. En Broadway establecemos diferentes valores de hiperparámetro, el que mejor funciona con un conjunto de prueba o validación se considera nuestro mejor hiperparámetro.

Categorías de hiperparámetro

Para diferentes tipos de conjuntos de datos y de acuerdo con el modelo, podemos tener diferentes hiperparámetros para aumentar el rendimiento del modelo. En general, los hiperparámetros se pueden clasificar en dos categorías.

  • Hiperparámetro para optimización
  • Hiperparámetros para modelos específicos.

Discutamos cada uno de estos.

1. Hiperparámetros para la optimización

Como su nombre indica, estos hiperparámetros se utilizan para la optimización del modelo.

  • Tasa de aprendizaje

Este hiperparámetro determina cuánto anularán los datos recién adquiridos los datos disponibles antiguos. Si el valor de este hiperparámetro es alto, la mayor tasa de aprendizaje no optimizará el modelo correctamente porque hay posibilidades de que salte los mínimos. Por otro lado, si la tasa de aprendizaje se toma muy poco, entonces la convergencia será muy lenta.

La tasa de aprendizaje juega un papel crucial en la optimización del rendimiento del modelo porque en algunos casos los modelos tienen cientos de parámetros (parámetros del modelo) con curva de error, la tasa de aprendizaje decidirá la frecuencia de la verificación cruzada con todos los parámetros. Además, es difícil encontrar los mínimos locales de las curvas de error porque generalmente tienen curvas irregulares.

  • Tamaño del lote

Para acelerar el proceso de aprendizaje, el conjunto de entrenamiento se divide en diferentes lotes. En el caso de un procedimiento estocástico para entrenar el modelo, se entrena, evalúa y propaga un pequeño lote para ajustar los valores de todos sus hiperparámetros, esto se repite para todo el conjunto de entrenamiento.

Si el tamaño del lote es mayor, aumentará el tiempo de aprendizaje y requerirá más memoria para procesar la multiplicación de la matriz. Si el tamaño del lote es más pequeño, habrá más ruido en el cálculo del error.

  • Numero de Epocas

La época representa un ciclo completo para que los datos se aprendan en Machine Learning. Las épocas juegan un papel muy importante en el proceso de aprendizaje iterativo.

Se considera un error de validación para determinar el número correcto de épocas. Se puede aumentar el número de épocas siempre que haya una reducción en un error de validación. Si el error de validación no mejora durante épocas consecutivas, entonces es una señal para detener un número creciente de épocas. También se conoce como parada temprana.

2. Hiperparámetros para modelos específicos

Algunos hiperparámetros están involucrados en la estructura del modelo en sí. Algunos de estos son los siguientes.

  • Cantidad de unidades ocultas

Es vital definir una serie de unidades ocultas para redes neuronales en modelos de aprendizaje profundo. Este hiperparámetro se utiliza para definir la capacidad de aprendizaje del modelo. para funciones complejas, debemos definir una cantidad de unidades ocultas, pero tenga en cuenta que no debe sobreajustar el modelo.

  • Número de capas

Es obvio que una red neuronal con 3 capas dará un mejor rendimiento que el de 2 capas. Aumentar más de 3 no ayuda mucho en las redes neuronales. En el caso de CNN, un número creciente de capas mejora el modelo.

Conclusión

Los hiperparámetros se definen explícitamente antes de aplicar un algoritmo de aprendizaje automático a un conjunto de datos. Los hiperparámetros se utilizan para definir la complejidad de nivel superior del modelo y la capacidad de aprendizaje. Los hiperparámetros también pueden ser configuraciones para el modelo. Algunos hiperparámetros se definen para la optimización de los modelos (tamaño de lote, velocidad de aprendizaje, etc.) y algunos son específicos de los modelos (número de capas ocultas, etc.).

Artículos recomendados

Esta es una guía para Hyperparameter Machine Learning. Aquí discutimos la descripción general y qué es el aprendizaje automático de hiperparámetros con sus categorías. También puede consultar los siguientes artículos para obtener más información:

  1. Introducción al aprendizaje automático
  2. Aprendizaje automático sin supervisión
  3. Tipos de algoritmos de aprendizaje automático
  4. Aplicaciones de aprendizaje automático
  5. Implementación de redes neuronales
  6. Las 6 mejores comparaciones entre CNN y RNN

Categoría: