Introducción al análisis de regresión
El análisis de regresión es un algoritmo de modelado predictivo para predecir el resultado de una variable e identificar las variables (variables independientes) que contribuyen o dependen de la variable de resultado (objetivo o variable dependiente). En términos simples, es una técnica para encontrar la relación entre las variables independientes y dependientes para producir el resultado. Es simple de usar e interpretar el resultado. Existen muchos tipos de técnicas de regresión que se utilizan ampliamente en diversos sectores. Algunos de los ejemplos de regresión son predecir el salario de un empleado o los ingresos de una empresa en un año.
¿Cómo funcionó el análisis de regresión?
Existen muchos tipos de técnicas de regresión que se utilizan considerando diferentes factores y resultados.
- Regresión lineal
- Regresión logística
- Regresión de lazo / cresta
- Regresión polinómica
Algunas de las pruebas de regresión estadística importantes que se utilizan en diversos sectores se detallan a continuación:
1. Regresión lineal
Esto se usa cuando la variable de resultado depende linealmente de las variables independientes. Normalmente se usa cuando no tenemos un gran conjunto de datos. También es sensible a los valores atípicos, por lo que si el conjunto de datos contiene valores atípicos, es mejor tratarlos antes de aplicar la regresión lineal. Existen técnicas de regresión simple y multi-variable. La regresión lineal simple es el análisis cuando la variable de resultado depende linealmente de una sola variable independiente. La regresión lineal simple sigue la ecuación de una línea recta que se proporciona a continuación:
Y=mx+c
Dónde,
Y = Objetivo, dependiente o variable de criterio
x = variable independiente o predictora
m = pendiente o coeficiente de regresión
c = constante
La regresión lineal de variables múltiples define la relación entre la variable de resultado y más de una variable independiente. Sigue la siguiente ecuación de una línea recta donde las variables dependientes son la combinación lineal de todas las variables independientes:
Y= m1x1+m2x2+m3x3+…mnan+c
Dónde,
Y = Objetivo, dependiente o variable de criterio
x1, x2, x3 … xn = Variables independientes o predictoras
m1, m2, m3 … mn = Coeficientes de pendiente o regresión de las respectivas variables
c = constante
La regresión lineal sigue el principio del método de Mínimo Cuadrado. Este método establece que se elige una línea de mejor ajuste minimizando la suma del error cuadrado. La línea de mejor ajuste se elige donde la suma del error cuadrado entre los datos observados y la línea es mínima.
Hay algunos supuestos que deben tenerse en cuenta antes de aplicar la regresión lineal en el conjunto de datos.
- Debe haber una relación lineal entre variables independientes y dependientes.
- No debe haber o una pequeña multicolinealidad entre las variables independientes. La multicolinealidad se define como un fenómeno en el que existe una alta correlación entre las variables independientes. Podemos tratar la multicolinealidad soltando una variable que está correlacionada o trata dos variables como una variable.
- Homocedasticidad: se define como un estado donde los términos de error deben distribuirse aleatoriamente a través de la línea en el análisis de regresión. No debería haber ningún patrón a través de la línea si hay algún patrón identificado de lo que se dice que los datos son heterocedásticos.
- Todas las variables deberían estar normalmente distribuidas, lo que vemos al trazar un gráfico QQ. Si los datos no se distribuyen normalmente, podemos usar cualquier método de transformación no lineal para tratarlos.
Por lo tanto, siempre es aconsejable probar los supuestos mientras se aplica la regresión lineal para obtener una buena precisión y un resultado correcto.
2. Regresión logística
Esta técnica de regresión se utiliza cuando la variable objetivo o resultado es de naturaleza categórica o binaria. La principal diferencia entre la regresión lineal y logística radica en la variable objetivo, en la regresión lineal, debe ser continua, mientras que en logística debe ser categórica. La variable de resultado solo debe tener dos clases, no más que eso. Algunos de los ejemplos son filtros de spam en correos electrónicos (Spam o no), detección de fraude (Fraude / No Fraude), etc. Funciona según el principio de probabilidad. Se puede clasificar en dos categorías configurando el valor umbral.
Por ejemplo: si hay dos categorías A, B y establecemos el valor umbral como 0.5, entonces la probabilidad por encima de 0.5 se considerará como una categoría y por debajo de 0.5 será otra categoría. La regresión logística sigue una curva en forma de S. Antes de construir el modelo de regresión logística, tenemos que dividir el conjunto de datos en capacitación y pruebas. Dado que la variable objetivo es categórica o binaria, debemos asegurarnos de que haya un equilibrio de clase adecuado en el conjunto de entrenamiento. Si hay un desequilibrio de clase, esto puede tratarse utilizando varios métodos como se menciona a continuación:
- Muestreo ascendente: en esta técnica, la clase que tiene menos filas se muestrea para que coincida con el número de filas de la clase mayoritaria.
- Muestreo descendente : en esta técnica, la clase que tiene más filas se muestrea hacia abajo para que coincida con el número de filas de la clase minoritaria.
Hay algunos puntos importantes que es importante comprender antes de aplicar el modelo de regresión logística a los conjuntos de datos:
- La variable de destino debe ser de naturaleza binaria. Si hay más de 2 clases en la variable de destino, se conoce como Regresión logística multinomial .
- No debe haber o poca multicolinealidad entre las variables independientes.
- Requiere un gran tamaño de muestra para funcionar.
- Debe haber una relación lineal entre las variables independientes y el registro de probabilidades.
Beneficios de la regresión
Hay muchos beneficios del análisis de regresión. En lugar de considerar nuestro instinto y predecir el resultado, podemos usar el análisis de regresión y mostrar puntos válidos para posibles resultados.
Algunos de ellos se enumeran a continuación:
- Para predecir las ventas y los ingresos en cualquier sector por períodos más cortos o más largos.
- Para predecir la tasa de rotación de clientes de cualquier industria y descubrir las medidas adecuadas para reducirlos.
- Comprender y predecir los niveles de inventario del almacén.
- Para saber si la introducción de un nuevo producto en el mercado será exitosa o no.
- Para predecir si algún cliente incumplirá el préstamo o no.
- Para predecir si algún cliente comprará un producto o no.
- Detección de fraude o spam
Conclusión
Hay varias métricas de evaluación que se consideran después de aplicar el modelo. Aunque hay suposiciones que se deben probar antes de aplicar el modelo, siempre podemos modificar las variables utilizando varios métodos matemáticos y aumentar el rendimiento del modelo.
Artículos recomendados
Esta es una guía para el análisis de regresión. Aquí discutimos la Introducción al análisis de regresión, cómo funcionó el análisis de regresión y los beneficios de la regresión. También puede consultar nuestros otros artículos sugeridos para obtener más información:
- Análisis de regresión lineal
- Herramientas de análisis de datos
- Herramientas de prueba de regresión
- Análisis de Big Data
- Regresión vs Clasificación | Principales diferencias clave