Diferencia entre regresión lineal versus regresión logística
El siguiente artículo Regresión lineal versus Regresión logística proporciona las diferencias más importantes entre ambas, pero antes de ver qué significa Regresión.
Regresión
La regresión es básicamente una medida estadística para determinar la fuerza de la relación entre una variable dependiente, es decir, la salida Y y una serie de otras variables independientes, es decir, X 1, X 2, etc. El análisis de regresión se usa básicamente para predicciones y pronósticos.
¿Qué es la regresión lineal?
La regresión lineal es un algoritmo que se basa en el dominio de aprendizaje supervisado del aprendizaje automático. Hereda una relación lineal entre sus variables de entrada y la variable de salida única donde la variable de salida es de naturaleza continua. Se usa para predecir el valor de salida, digamos Y a partir de las entradas, digamos X. Cuando solo se considera una sola entrada, se llama regresión lineal simple.
Se puede clasificar en dos categorías principales:
1. Regresión simple
Principal de la operación: El objetivo principal es encontrar la ecuación de una línea recta que mejor se ajuste a los datos muestreados. Esta ecuación describe algebraicamente la relación entre las dos variables. La línea recta que mejor se ajusta se llama línea de regresión.
Y = β 0 + β 1 X
Dónde,
β representa las características
β 0 representa la intersección
β 1 representa el coeficiente de la característica X
2. Regresión multivariable
Se utiliza para predecir una correlación entre más de una variable independiente y una variable dependiente. La regresión con más de dos variables independientes se basa en ajustar la forma a la constelación de datos en un gráfico multidimensional. La forma de la regresión debe ser tal que minimice la distancia de la forma desde cada punto de datos.
Un modelo de relación lineal se puede representar matemáticamente de la siguiente manera:
Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ……. + β n X n
Dónde,
β representa las características
β 0 representa la intersección
β 1 representa el coeficiente de la característica X 1
β n representa el coeficiente de la característica X n
Ventajas y desventajas de la regresión lineal
A continuación se presentan las ventajas y desventajas:
Ventajas
- Debido a su simplicidad, es un modelo ampliamente utilizado para predicciones e inferencias.
- Se centra en el análisis de datos y el preprocesamiento de datos. Por lo tanto, se ocupa de diferentes datos sin preocuparse por los detalles del modelo.
Desventajas
- Funciona de manera eficiente cuando los datos se distribuyen normalmente. Por lo tanto, para un modelado eficiente, se debe evitar la colinealidad.
¿Qué es la regresión logística?
Es una forma de regresión que permite la predicción de variables discretas mediante una mezcla de predictores continuos y discretos. Da como resultado una transformación única de variables dependientes que impacta no solo el proceso de estimación sino también los coeficientes de las variables independientes. Aborda la misma pregunta que hace la regresión múltiple pero sin supuestos de distribución en los predictores. En regresión logística, la variable de resultado es binaria. El propósito del análisis es evaluar los efectos de múltiples variables explicativas, que pueden ser numéricas o categóricas o ambas.
Tipos de regresión logística
A continuación se muestran los 2 tipos de regresión logística:
1. Regresión logística binaria
Se utiliza cuando la variable dependiente es dicotómica, es decir, como un árbol con dos ramas. Se utiliza cuando la variable dependiente no es paramétrica.
Usado cuando
- Si no hay linealidad
- Solo hay dos niveles de la variable dependiente.
- Si la normalidad multivariante es dudosa.
2. Regresión logística multinomial
El análisis de regresión logística multinomial requiere que las variables independientes sean métricas o dicotómicas. No hace suposiciones de linealidad, normalidad y homogeneidad de varianza para las variables independientes.
Se usa cuando la variable dependiente tiene más de dos categorías. Se utiliza para analizar las relaciones entre una variable dependiente no métrica y variables independientes métricas o dicotómicas, luego compara múltiples grupos a través de una combinación de regresiones logísticas binarias. Al final, proporciona un conjunto de coeficientes para cada una de las dos comparaciones. Se considera que los coeficientes para el grupo de referencia son todos ceros. Finalmente, la predicción se realiza en función de la probabilidad resultante más alta.
Ventaja de la regresión logística: es una técnica muy eficiente y ampliamente utilizada, ya que no requiere muchos recursos computacionales y no requiere ningún ajuste.
Desventaja de la regresión logística: no se puede utilizar para resolver problemas no lineales.
Comparación cabeza a cabeza entre la regresión lineal y la regresión logística (infografía)
A continuación se muestran las 6 principales diferencias entre la regresión lineal y la regresión logística
Diferencia clave entre la regresión lineal y la regresión logística
Analicemos algunas de las principales diferencias clave entre la regresión lineal y la regresión logística.
Regresión lineal
- Es un enfoque lineal
- Utiliza una línea recta
- No puede tomar variables categóricas.
- Tiene que ignorar las observaciones con valores faltantes de la variable numérica independiente
- La salida Y se da como
- 1 unidad de aumento en x aumenta Y en α
Aplicaciones
- Predecir el precio de un producto
- Predicción de puntaje en un partido
Regresión logística
- Es un enfoque estadístico
- Utiliza una función sigmoidea
- Puede tomar variables categóricas.
- Puede tomar decisiones incluso si hay observaciones con valores faltantes
- La salida Y se da como, donde z se da como
- Un aumento de 1 unidad en x aumenta Y por las probabilidades de registro de α
- Si P es la probabilidad de un evento, entonces (1-P) es la probabilidad de que no ocurra. Probabilidades de éxito = P / 1-P
Aplicaciones
- Predecir si hoy lloverá o no.
- Predecir si un correo electrónico es spam o no.
Tabla de comparación de regresión lineal versus regresión logística
Analicemos la principal comparación entre la regresión lineal y la regresión logística
Regresión lineal |
Regresión logística |
Se utiliza para resolver problemas de regresión. | Se utiliza para resolver problemas de clasificación. |
Modela la relación entre una variable dependiente y una o más variables independientes | Predice la probabilidad de un resultado que solo puede tener dos valores en la salida 0 o 1 |
La salida prevista es una variable continua. | El resultado predicho es una variable discreta |
La salida pronosticada Y puede exceder el rango 0 y 1 | La salida pronosticada Y se encuentra dentro del rango 0 y 1 |
![]() | ![]() |
La salida pronosticada Y puede exceder el rango 0 y 1 | Salida prevista |
Conclusión
Si las características no contribuyen a la predicción o si están muy correlacionadas entre sí, entonces agrega ruido al modelo. Por lo tanto, las características que no contribuyen lo suficiente al modelo deben eliminarse. Si las variables independientes están altamente correlacionadas, puede causar un problema de multicolinealidad, que puede resolverse ejecutando modelos separados con cada variable independiente.
Artículos recomendados
Esta ha sido una guía de Regresión lineal vs Regresión logística. Aquí discutimos las diferencias clave entre la regresión lineal y la regresión logística con la infografía y la tabla de comparación. También puede consultar los siguientes artículos para obtener más información:
- Ciencia de datos vs visualización de datos
- Aprendizaje automático vs red neuronal
- Aprendizaje supervisado vs Aprendizaje profundo
- Regresión logística en R