Regresión vs Clasificación - Principales diferencias clave y comparación

Diferencia entre regresión vs clasificación

En este artículo Regresión vs Clasificación, analicemos las diferencias clave entre Regresión y Clasificación. El aprendizaje automático se divide ampliamente en dos tipos: aprendizaje automático supervisado y aprendizaje automático no supervisado. En el aprendizaje automático supervisado, tenemos un valor de salida conocido en el conjunto de datos y entrenamos el modelo en función de estos y lo usamos para la predicción, mientras que en el aprendizaje automático no supervisado no tenemos un conjunto conocido de valores de salida. De antemano para diferenciar entre Clasificación y Regresión, comprendamos qué significa esta terminología en Machine Learning. La regresión es un algoritmo en aprendizaje automático supervisado que puede ser entrenado para predecir salidas de números reales. La clasificación es un algoritmo en aprendizaje automático supervisado que está capacitado para identificar categorías y predecir en qué categoría se ubican para nuevos valores.

Comparación cabeza a cabeza entre regresión vs clasificación (infografía)

A continuación se muestra la comparación de los 5 principales entre la regresión y la clasificación :

Diferencias clave entre regresión vs clasificación

Discutamos algunas diferencias clave entre Regresión vs Clasificación en los siguientes puntos:

La clasificación se trata de predecir una etiqueta o categoría. El algoritmo de clasificación clasifica el conjunto de datos requerido en una de dos o más etiquetas, un algoritmo que trata con dos clases o categorías se conoce como clasificador binario y, si hay más de dos clases, se puede llamar algoritmo de clasificación de múltiples clases.
La regresión consiste en encontrar una función óptima para identificar los datos de valores reales continuos y hacer predicciones de esa cantidad. La regresión con múltiples variables como entrada o características para entrenar el algoritmo se conoce como un problema de regresión multivariante. Si en el problema de regresión, los valores de entrada son dependientes u ordenados por tiempo, entonces se conoce como problema de pronóstico de series de tiempo.
Sin embargo, el modelo de Clasificación también predecirá un valor continuo que es la probabilidad de que ocurra el evento que pertenece a esa clase de salida respectiva. Aquí la probabilidad de evento representa la probabilidad de que un ejemplo dado pertenezca a una clase específica. El valor de probabilidad pronosticado se puede convertir en un valor de clase seleccionando la etiqueta de clase que tiene la mayor probabilidad.
Comprendamos esto mejor al ver un ejemplo, supongamos que estamos entrenando el modelo para predecir si una persona tiene cáncer o no en función de algunas características. Si obtenemos la probabilidad de que una persona tenga cáncer como 0.8 y no tenga cáncer como 0.2, podemos convertir la probabilidad 0.8 a una etiqueta de clase que tenga cáncer, ya que tiene la mayor probabilidad.
Como se mencionó anteriormente en la clasificación para ver qué tan bien está funcionando el modelo de clasificación, calculamos la precisión. Veamos cómo se realiza el cálculo, la precisión en la clasificación se puede realizar tomando la razón de predicciones correctas a predicciones totales multiplicada por 100. Si se realizan 50 predicciones y 10 de ellas son correctas y 40 son incorrectas, entonces la precisión será 20 %

Precisión = (Número de predicciones correctas / Número total de predicciones) * (100)

Precisión = (10/50) * (100)
Precisión = 20%

Como se mencionó anteriormente en la regresión, para ver qué tan bien está funcionando el modelo de regresión de la manera más popular es calcular el error cuadrático medio (RMSE). Veamos cómo se realizará el cálculo.

El valor predicho del modelo de regresión es 4.9 mientras que el valor real es 5.3.

El valor predicho del modelo de regresión es 2.3 mientras que el valor real es 2.1.

El valor predicho del modelo de regresión es 3.4 mientras que el valor real es 2.9.

Ahora, Raíz significa que se puede calcular el error cuadrado utilizando la fórmula.

El error al cuadrado es (5.3-4.9) 2 = 0.16, (2.1-2.3) 2 = 0.04, (2.9-3.4) 2 = 0.25

Media del error al cuadrado = 0, 45 / 3 = 0, 15

Error cuadrático medio = raíz cuadrada de 0.15 = 0.38

Eso es RMSE = 0.38. Existen muchos otros métodos para calcular la eficiencia del modelo, pero RMSE es el más utilizado porque RMSE ofrece la puntuación de error en las mismas unidades que el valor predicho.

Ejemplos:

La mayoría de los ingenieros científicos de datos encuentran difícil elegir uno entre regresión y clasificación en la etapa inicial de sus carreras. Para facilitarlo, veamos cómo se ven los problemas de clasificación y cómo se ven los problemas de regresión,

Clasificación

Predecir si lloverá o no mañana.
Predecir que una persona debería comprar ese bien o no para obtener ganancias.
Predecir si una persona tiene una enfermedad o no.

Si observa para cada situación aquí, puede haber un Sí o un No como valor predicho de salida.

Regresión

Predecir el precio de la tierra.
Predecir el precio de las acciones.

Si observa para cada situación aquí, la mayoría de ellos tienen un valor numérico como resultado predicho.

Tabla comparativa de regresión vs clasificación

La siguiente tabla resume las comparaciones entre Regresión vs Clasificación :

Parámetro	Regresión	Clasificación
Tipo de función de mapeo	En estos algoritmos, la función de mapeo se elegirá de un tipo que pueda alinear los valores con la salida continua.	En estos algoritmos, la función de mapeo se elegirá de un tipo que pueda alinear los valores con las clases predefinidas.
Implica predicción	Para este tipo de algoritmos, los datos pronosticados pertenecen a la categoría de valores continuos. (Como 23, 34, 45, 67, 28)	Para este tipo de datos pronosticados del algoritmo, pertenece a la categoría de valores discretos. (Como Sí o No, pertenece a A o B o C).
Método de cálculo	El error cuadrático medio se calculará para identificar el mejor ajuste del conjunto de datos.	La precisión se calculará para identificar el mejor ajuste del conjunto de datos.
Naturaleza de los datos pronosticados	Se ordena la naturaleza de los datos pronosticados. (Es decir, los valores predichos estarán en alguna secuencia).	La naturaleza de los datos pronosticados no está ordenada. (Es decir, los valores pronosticados no estarán en ninguna secuencia).
Algoritmos	Admite la regresión vectorial y los árboles de regresión también se conocen como bosque aleatorio, que son algunos de los ejemplos populares de algoritmos de regresión.	Los ingenuos Bayes, los árboles de decisión y los vecinos más cercanos K son algunos de los ejemplos populares de algoritmos de clasificación.

Conclusión

Estas son algunas de las diferencias clave entre clasificación y regresión. En algunos casos, los valores de salida continua pronosticados en la regresión se pueden agrupar en etiquetas y cambiar a modelos de clasificación. Por lo tanto, tenemos que entender claramente cuál elegir en función de la situación y cuál queremos que sea el resultado previsto.

Artículos recomendados

Esta es una guía de la principal diferencia entre Regresión vs Clasificación. Aquí también discutimos las diferencias clave Regresión vs Clasificación con infografías y la tabla de comparación. También puede echar un vistazo a los siguientes artículos para obtener más información: