Introducción al análisis de regresión lineal

A menudo es confuso aprender un concepto que incluso forma parte de nuestra vida cotidiana. Pero eso no es un problema, podemos ayudarnos y desarrollarnos para aprender de nuestras actividades cotidianas simplemente analizando las cosas y no tenga miedo de hacer preguntas. Por qué el precio afecta la demanda de los bienes, por qué el cambio en la tasa de interés afecta la oferta monetaria. Todo esto puede responderse mediante un enfoque simple conocido como regresión lineal. La única complejidad que se siente al tratar con el análisis de regresión lineal es la identificación de variables dependientes e independientes.

Tenemos que encontrar qué afecta a qué, y la mitad del problema está resuelto. Tenemos que ver si es el precio o la demanda lo que afecta el comportamiento del otro. Una vez que sepamos cuál es la variable independiente y la variable dependiente, estamos listos para nuestro análisis. Hay múltiples tipos de análisis de regresión disponibles. Este análisis depende de las variables disponibles para nosotros.

Los 3 tipos de análisis de regresión

Estos tres análisis de regresión tienen casos de uso máximo en el mundo real; de lo contrario, hay más de 15 tipos de análisis de regresión. Los tipos de análisis de regresión que vamos a discutir son:

  1. Análisis de regresión lineal
  2. Análisis de regresión lineal múltiple
  3. Regresión logística

En este artículo, nos centraremos en el análisis de regresión lineal simple. Este análisis nos ayuda a identificar la relación entre el factor independiente y el factor dependiente. En palabras más simples, el modelo de regresión nos ayuda a descubrir cómo los cambios en el factor independiente afectan el factor dependiente. Este modelo nos ayuda de múltiples maneras, como:

  • Es un modelo estadístico simple y poderoso.
  • Nos ayudará a hacer predicciones y pronósticos.
  • Nos ayudará a tomar una mejor decisión comercial
  • Nos ayudará a analizar los resultados y corregir errores

La ecuación de regresión lineal y dividirla en partes relevantes

Y = β1 + β2X + ϵ

  • Donde β1 en la terminología matemática conocida como intercepción y β2 en la terminología matemática conocida como pendiente. También se conocen como coeficientes de regresión. ϵ es el término de error, es la parte de Y que el modelo de regresión no puede explicar.
  • Y es una variable dependiente (otros términos que se usan indistintamente para las variables dependientes son variable de respuesta, regresando, variable medida, variable observada, variable de respuesta, variable explicada, variable de resultado, variable experimental y / o variable de salida).
  • X es una variable independiente (regresores, variable controlada, una variable manipulada, variable explicativa, variable de exposición y / o variable de entrada).

Problema: para comprender qué es el análisis de regresión lineal, estamos tomando el conjunto de datos "Cars" que viene por defecto en los directorios R. En este conjunto de datos, hay 50 observaciones (básicamente filas) y 2 variables (columnas). Los nombres de las columnas son "Dist" y "Speed". Aquí tenemos que ver el impacto en las variables de distancia debido al cambio de las variables de velocidad. Para ver la estructura de los datos, podemos ejecutar un código Str (conjunto de datos). Este código nos ayuda a comprender la estructura del conjunto de datos. Estas funcionalidades nos ayudan a tomar mejores decisiones porque tenemos una mejor idea de la estructura del conjunto de datos. Este código nos ayuda a identificar el tipo de conjuntos de datos.

Código:

De manera similar, para verificar los puntos de control estadísticos del conjunto de datos, podemos usar el código Resumen (automóviles). Este Código proporciona el rango medio, mediano, del conjunto de datos de una vez, que el investigador puede usar al tratar el problema.

Salida:

Aquí podemos ver el resultado estadístico de cada variable que tenemos en nuestro conjunto de datos.

La representación gráfica de conjuntos de datos

Los tipos de representación gráfica que cubrirán aquí son y por qué:

  • Diagrama de dispersión: con la ayuda del gráfico, podemos ver en qué dirección va nuestro modelo de regresión lineal, si hay alguna evidencia sólida para probar nuestro modelo o no.
  • Diagrama de caja: nos ayuda a encontrar valores atípicos.
  • Gráfica de densidad: ayúdenos a comprender la distribución de la variable independiente, en nuestro caso, la variable independiente es "Velocidad".

Ventajas de la representación gráfica

Aquí las siguientes ventajas son las siguientes:

  • Fácil de comprender
  • Nos ayuda a tomar una decisión rápida.
  • Análisis comparativo
  • Menos esfuerzo y tiempo

1. Diagrama de dispersión: ayudará a visualizar cualquier relación entre la variable independiente y la variable dependiente.

Código:

Salida:

Podemos ver en el gráfico una relación que aumenta linealmente entre la variable dependiente (Distancia) y la variable independiente (Velocidad).

2. Gráfica de caja: la gráfica de caja nos ayuda a identificar los valores atípicos en los conjuntos de datos. Las ventajas de usar un diagrama de caja son:

  • Visualización gráfica de las variables ubicación y dispersión.
  • Nos ayuda a comprender la asimetría y la asimetría de los datos.

Código:

Salida:

3. Gráfico de densidad (para verificar la normalidad de la distribución)

Código:

Salida:

Análisis de correlación

Este análisis nos ayuda a encontrar la relación entre las variables. Existen principalmente seis tipos de análisis de correlación.

  1. Correlación Positiva (0.01 a 0.99)
  2. Correlación negativa (-0.99 a -0.01)
  3. Sin correlación
  4. Correlación perfecta
  5. Correlación fuerte (un valor más cercano a ± 0.99)
  6. Correlación débil (un valor más cercano a 0)

El diagrama de dispersión nos ayuda a identificar qué tipos de conjuntos de datos de correlación tienen entre ellos y el código para encontrar la correlación es

Salida:

Aquí tenemos una fuerte correlación positiva entre Velocidad y Distancia, lo que significa que tienen una relación directa entre ellos.

Modelo de regresión lineal

Este es el componente central del análisis, anteriormente estábamos probando y probando si el conjunto de datos que tenemos es lo suficientemente lógico para ejecutar dicho análisis o no. La función que estamos planeando usar es lm (). Esta función contiene dos elementos que son Fórmula y Datos. Antes de asignar qué variable es dependiente o independiente, tenemos que estar muy seguros de eso porque toda nuestra fórmula depende de eso.

La fórmula se ve así,

Regresión lineal <- lm (Variable dependiente ~ Variable independiente, data = Date.Frame)

Código:

Salida:

Como podemos recordar del segmento anterior del artículo, la ecuación de regresión lineal es:

Y = β1 + β2X + ϵ

Ahora ajustaremos la información que obtuvimos del código anterior en esta ecuación.

dist = −17.579 + 3.932 ∗ velocidad

Solo encontrar la ecuación de regresión lineal no es suficiente, también tenemos que verificar su estadística significativa. Para esto, tenemos que pasar un código "Resumen" en nuestro modelo de regresión lineal.

Código:

Salida:

Hay varias formas de verificar la estadística significativa de un modelo, aquí estamos usando el método del valor P. Podemos considerar un modelo estadísticamente ajustado cuando el valor P es menor que el nivel estadístico significativo predeterminado, que idealmente es 0.05. Podemos ver en nuestra tabla de resumen (lineal_regresión) que el valor P está por debajo del nivel 0.05, por lo que podemos concluir que nuestro modelo es estadísticamente significativo. Una vez que estemos seguros de nuestro modelo, podemos usar nuestro conjunto de datos para predecir cosas.

Artículos recomendados

Esta es una guía para el análisis de regresión lineal. Aquí discutimos los tres tipos de análisis de regresión lineal, la representación gráfica de conjuntos de datos con ventajas y modelos de regresión lineal. También puede consultar nuestros otros artículos relacionados para obtener más información.

  1. Fórmula de regresión
  2. Pruebas de regresión
  3. Regresión lineal en R
  4. Tipos de técnicas de análisis de datos
  5. ¿Qué es el análisis de regresión?
  6. Principales diferencias de regresión vs clasificación
  7. Las 6 principales diferencias entre la regresión lineal y la regresión logística

Categoría: