Introducción a los métodos de conjunto en el aprendizaje automático

En este artículo, veremos un resumen sobre los métodos de conjunto en el aprendizaje automático. El aprendizaje conjunto es una combinación de diversas técnicas de aprendizaje automático en un modelo predictivo para mejorar la predicción. El aprendizaje conjunto se adquiere para reducir la varianza en los datos predictivos. Este tipo de aprendizaje tiene la intención de minimizar el sesgo del modelo. El aprendizaje conjunto es un sistema multimodelo en el que diferentes clasificadores o técnicas se combinan estratégicamente para clasificar o predecir estadísticas del problema complejo con mayor precisión. El objetivo de dicho aprendizaje es minimizar la probabilidad de una mala selección del modelo. Designa la confianza en la decisión tomada por el modelo. La idea de seleccionar características óptimas se ha materializado en el aprendizaje conjunto.

Tipos de métodos de conjunto en el aprendizaje automático

Los métodos de conjunto ayudan a crear múltiples modelos y luego los combinan para producir mejores resultados, algunos métodos de conjunto se clasifican en los siguientes grupos:

1. Métodos secuenciales

En este tipo de método Ensemble, hay alumnos base generados secuencialmente en los que reside la dependencia de datos. Todos los demás datos en el alumno base tienen cierta dependencia de los datos anteriores. Por lo tanto, los datos mal etiquetados anteriores se ajustan en función de su peso para mejorar el rendimiento del sistema general.

Ejemplo : Impulso

2. Método paralelo

En este tipo de método Ensemble, el alumno base se genera en orden paralelo en el que la dependencia de datos no existe. Todos los datos en el alumno base se generan de forma independiente.

Ejemplo : apilamiento

3. Conjunto homogéneo

Tal método de conjunto es una combinación de los mismos tipos de clasificadores. Pero el conjunto de datos es diferente para cada clasificador. Esto hará que el modelo combinado funcione con mayor precisión después de la agregación de resultados de cada modelo. Este tipo de método de conjunto funciona con una gran cantidad de conjuntos de datos. En el método homogéneo, el método de selección de características es el mismo para diferentes datos de entrenamiento. Es computacionalmente costoso.

Ejemplo: los métodos populares como el embolsado y el refuerzo entran en el conjunto homogéneo.

4. Conjunto heterogéneo

Tal método de conjunto es la combinación de diferentes tipos de clasificadores o modelos de aprendizaje automático en los que cada clasificador se basa en los mismos datos. Tal método funciona para pequeños conjuntos de datos. En heterogéneo, el método de selección de características es diferente para los mismos datos de entrenamiento. El resultado general de este método de conjunto se lleva a cabo promediando todos los resultados de cada modelo combinado.

Ejemplo : apilamiento

Clasificación técnica de los métodos de conjunto

A continuación se encuentran la clasificación técnica de los métodos de conjunto:

1. Embolsado

Este método de conjunto combina dos modelos de aprendizaje automático, es decir, Bootstrapping y Agregación en un solo modelo de conjunto. El objetivo del método de ensacado es reducir la alta varianza del modelo. Los árboles de decisión tienen varianza y bajo sesgo. El conjunto de datos grande es (digamos 1000 muestras) submuestreado (digamos 10 submuestras cada una contiene 100 muestras de datos). Los múltiples árboles de decisión se construyen en cada submuestra de datos de entrenamiento. Si bien los datos de la submuestreo aparecen en los diferentes árboles de decisión, se reduce la preocupación de sobreajustar los datos de capacitación en cada árbol de decisión. Para la eficiencia del modelo, cada uno de los árboles de decisión individuales se cultiva en profundidad y contiene datos de capacitación submuestreados. Los resultados de cada árbol de decisión se agregan para comprender la predicción final. La varianza de los datos agregados se reduce. La precisión de la predicción del modelo en el método de ensacado depende del número de árbol de decisión utilizado. Las diversas submuestras de los datos de una muestra se eligen aleatoriamente con reemplazo. La salida de cada árbol tiene una alta correlación.

2. Impulso

El conjunto de refuerzo también combina diferentes tipos de clasificadores. El refuerzo es uno de los métodos de conjunto secuencial en el que cada modelo o clasificador se ejecuta en función de las características que utilizará el próximo modelo. De esta manera, el método de refuerzo hace que un modelo de aprendiz más fuerte se base en modelos de aprendiz débiles al promediar sus pesos. En otras palabras, un modelo entrenado más fuerte depende de los múltiples modelos entrenados débiles. Un estudiante débil o un modelo entrenado en desgaste es uno que está menos correlacionado con la clasificación verdadera. Pero el próximo alumno débil está un poco más correlacionado con la verdadera clasificación. La combinación de estos estudiantes débiles diferentes proporciona un estudiante fuerte que está bien correlacionado con la verdadera clasificación.

3. Apilamiento

Este método también combina múltiples clasificaciones o técnicas de regresión utilizando un metaclasificador o metamodelo. Los modelos de niveles inferiores se entrenan con el conjunto de datos de entrenamiento completo y luego el modelo combinado se entrena con los resultados de los modelos de niveles inferiores. A diferencia del impulso, cada modelo de nivel inferior se somete a un entrenamiento paralelo. La predicción de los modelos de nivel inferior se utiliza como entrada para el siguiente modelo como conjunto de datos de entrenamiento y forma una pila en la que la capa superior del modelo está más entrenada que la capa inferior del modelo. El modelo de capa superior tiene una buena precisión de predicción y se construyeron en base a modelos de nivel inferior. La pila continúa aumentando hasta que se realiza la mejor predicción con un error mínimo. La predicción del modelo o metamodelo combinado se basa en la predicción de los diferentes modelos débiles o modelos de capa inferior. Se enfoca en producir un modelo menos sesgado.

4. Bosque aleatorio

El bosque aleatorio es ligeramente diferente del ensacado, ya que utiliza árboles profundos que se ajustan en muestras de bootstrap. La salida de cada trenza se combina para reducir la varianza. Al hacer crecer cada árbol, en lugar de generar una muestra de arranque basada en la observación en el conjunto de datos, también muestreamos el conjunto de datos en función de las características y usamos solo un subconjunto aleatorio de dicha muestra para construir el árbol. En otras palabras, el muestreo del conjunto de datos se realiza en función de características que reducen la correlación de diferentes resultados. El bosque aleatorio es bueno para decidir si faltan datos. Bosque aleatorio significa selección aleatoria de un subconjunto de una muestra que reduce las posibilidades de obtener valores de predicción relacionados. Cada árbol tiene una estructura diferente. El bosque aleatorio produce un aumento levemente en el sesgo del bosque, pero debido al promedio de todas las predicciones menos relacionadas de diferentes árboles, la varianza resultante disminuye y proporciona un mejor rendimiento general.

Conclusión

El enfoque multimodelo del conjunto se realiza mediante modelos de aprendizaje profundo en los que los datos complejos se han estudiado y procesado a través de combinaciones tan diferentes del clasificador para obtener una mejor predicción o clasificación. La predicción de cada modelo en el aprendizaje conjunto debe estar más des correlacionada. Esto mantendrá el sesgo y la varianza del modelo lo más bajo posible. El modelo será más eficiente y predecirá la salida con un error mínimo. El conjunto es un algoritmo de aprendizaje supervisado ya que el modelo se entrena previamente con el conjunto de datos para hacer la predicción. En el aprendizaje conjunto, el número de clasificadores de componentes debe ser el mismo que el de las etiquetas de clase para lograr una alta precisión.

Artículos recomendados

Esta es una guía de métodos de conjunto en el aprendizaje automático. Aquí discutimos los tipos importantes de métodos de conjunto en el aprendizaje automático junto con la clasificación técnica. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. Introducción a las técnicas de conjunto
  2. Ciclo de vida del aprendizaje automático con ventajas
  3. Algoritmos de aprendizaje automático
  4. Las 24 preguntas principales de la entrevista de aprendizaje automático

Categoría: