Introducción a la regresión lineal simple

Del diccionario : un retorno a un estado anterior o menos desarrollado.

En estadística: una medida de la relación entre el valor medio de una variable y los valores correspondientes de las otras variables.

La regresión, en la que la relación entre la variable de entrada (variable independiente) y la variable objetivo (variable dependiente) se considera lineal, se denomina regresión lineal. La regresión lineal simple es un tipo de regresión lineal donde solo tenemos una variable independiente para predecir la variable dependiente. La regresión lineal simple es uno de los algoritmos de aprendizaje automático. La regresión lineal simple pertenece a la familia de Aprendizaje supervisado. La regresión se usa para predecir valores continuos.

Modelo de regresión lineal simple

Hagámoslo simple. ¿Cómo empezó todo?

Todo comenzó en 1800 con Francis Galton. Estudió la relación en altura entre los padres y sus hijos. Observó un patrón: la altura de cualquiera de los hijos sería tan alta como la altura de su padre o la altura de su hijo tendería a estar más cerca de la altura promedio general de todas las personas. Este fenómeno no es más que regresión.

Por ejemplo, Shaq O'Neal es un jugador muy famoso de la NBA y mide 2, 16 metros de altura. Sus hijos Shaqir y Shareef O'neal tienen 1, 96 metros y 2, 06 metros de altura respectivamente. La altura media de la población es de 1.76 metros. Regresión de altura del hijo (deriva hacia) la altura media.

¿Cómo hacemos la regresión?

Cálculo de una regresión con solo dos puntos de datos:

Todo lo que queremos hacer para encontrar la mejor regresión es dibujar una línea lo más cerca posible de cada punto. En el caso de dos puntos de datos, es fácil dibujar una línea, solo únalos.

Ahora, si tenemos varios puntos de datos, ahora cómo dibujar la línea que esté lo más cerca posible de todos y cada uno de los puntos de datos.

En este caso, nuestro objetivo es minimizar la distancia vertical entre la línea y todos los puntos de datos. De esta manera, predecimos la mejor línea para nuestro modelo de regresión lineal.

¿Qué hace la regresión lineal simple?

A continuación se muestra la explicación detallada de la regresión lineal simple:

  • Dibuja montones y montones de líneas de líneas posibles y luego realiza cualquiera de estos análisis.
  • Suma de errores al cuadrado.
  • Suma de errores absolutos.
  • método de mínimos cuadrados … etc.
  • Para nuestro análisis, utilizaremos el método de mínimos cuadrados.
  • Haremos una diferencia de todos los puntos y calcularemos el cuadrado de la suma de todos los puntos. Cualquier línea que dé la suma mínima será nuestra mejor línea.

Por ejemplo: Al hacer esto, podríamos tomar la altura de varios hombres y de su hijo y hacer cosas como decirle a un hombre qué tan alto podría ser su hijo. incluso antes de que él naciera.


imagen de Google

La figura anterior muestra una regresión lineal simple. La línea representa la línea de regresión. Dado por: y = a + b * x

Donde y es la variable dependiente (DV): Por ejemplo, cómo cambia el salario de una persona dependiendo de la cantidad de años de experiencia que tenga el empleado. Entonces, aquí el salario de un empleado o persona será su variable dependiente.

La variable dependiente es nuestra variable objetivo, la que queremos predecir usando regresión lineal.

x es nuestra variable independiente (IV): la variable dependiente es la causa del cambio de la variable independiente. En el ejemplo anterior, el número de años de experiencia es nuestra variable dependiente, porque el número de años de experiencia está causando el cambio en el salario del empleado.

  • b es la variable de coeficiente para nuestra variable independiente x. Este coeficiente juega un papel crucial. Dice cómo un cambio de unidad en x (IV) va a afectar a y (DV). También se conoce como coeficiente de proporcional. En términos de matemática, depende de usted la pendiente de la línea o puede decir empinada de la línea.
  • En nuestro ejemplo, si la pendiente (b) es menor, lo que significa que el número de años producirá menos incremento en el salario, por otro lado, si la pendiente (b) es mayor, producirá un alto aumento en el salario con un aumento en el número de años de experiencia.
  • a es un valor constante. También se conoce como intercepción, que es donde la línea se cruza con el eje y o el eje DV. De otra manera, podemos decir que cuando un empleado tiene cero años de experiencia (x), entonces el salario (y) para ese empleado será constante (a).

¿Cómo funciona Least Square?

A continuación se muestran los puntos para el trabajo de menos cuadrados:

  • Dibuja una línea arbitraria de acuerdo con las tendencias de datos.
  • Toma puntos de datos y dibuja líneas verticales. Considera la distancia vertical como un parámetro.
  • Estas líneas verticales cortarán la línea de regresión y darán el punto correspondiente para los puntos de datos.
  • Luego encontrará la diferencia vertical entre cada punto de datos y su punto de datos correspondiente en la línea de regresión.
  • Calculará el error al cuadrado de la diferencia.
  • Luego calcula la suma de errores.
  • Luego nuevamente dibujará una línea y repetirá el procedimiento anterior una vez más.
  • Dibuja varias líneas de esta manera y la línea que da la menor suma de error se elige como la mejor línea.
  • Esta mejor línea es nuestra línea de regresión lineal simple.

Aplicación de regresión lineal simple

El análisis de regresión se realiza para predecir la variable continua. El análisis de regresión tiene una amplia variedad de aplicaciones. Algunos ejemplos son los siguientes:

  • Analítica predictiva
  • Efectividad del marketing,
  • fijación de precios de cualquier listado
  • predicción de promoción para un producto.

Aquí vamos a discutir una aplicación de regresión lineal para el análisis predictivo. Haremos modelado usando python.

Los pasos que vamos a seguir para construir nuestro modelo son los siguientes:

  • Importaremos las bibliotecas y los conjuntos de datos.
  • Preprocesaremos los datos.
  • Dividiremos los datos en el conjunto de prueba y el conjunto de entrenamiento.
  • Crearemos un modelo que intentará predecir la variable objetivo en función de nuestro conjunto de entrenamiento
  • Vamos a predecir la variable objetivo para el conjunto de prueba.
  • Analizaremos los resultados predichos por el modelo.

Para nuestro análisis, vamos a utilizar un conjunto de datos salariales con los datos de 30 empleados.

# Importando las bibliotecas

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importar el conjunto de datos (la muestra de datos se muestra en la tabla)

dataset = pd.read_csv('Salary_Data.csv')

años de experiencia Salario
1, 5 37731
1.1 39343
2.2 2.2 39891
2 43525
1.3 46205
3.2 54445
4 4 55749

# Preprocesando el conjunto de datos, aquí dividiremos el conjunto de datos en la variable dependiente y la variable independiente. x como independiente e y como variable dependiente o objetivo

X = dataset.iloc(:, :-1).values
y = dataset.iloc(:, 1).values

# Dividir el conjunto de datos en el conjunto de entrenamiento y el conjunto de prueba:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

Aquí, el tamaño de prueba 1/3 muestra que del dato total, 2/3 parte es para entrenar el modelo y el resto 1/3 se usa para probar el modelo.

# Vamos a ajustar nuestro modelo de regresión lineal simple al conjunto de entrenamiento

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

El modelo de regresión lineal está entrenado ahora. Este modelo se usará para predecir la variable dependiente.

# Predecir los resultados del conjunto de pruebas

y_pred = regressor.predict(X_test)

# Visualizando los resultados del conjunto de prueba

plt.scatter(X_test, y_test, color = 'blue')
plt.plot(X_train, regressor.predict(X_train), color = 'red')
plt.title('Salary of Employee vs Experience (Test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# Parámetro del modelo

print(regressor.intercept_)
print(regressor.coef_)
26816.19224403119
(9345.94244312)

Por lo tanto, el valor del interceptor (a) es 26816. Lo que sugiere que cualquier persona más fresca (experiencia cero) obtendría alrededor de 26816 como salario.

El coeficiente para nuestro modelo salió como 9345.94. Sugiere que manteniendo todos los demás parámetros constantes, el cambio en una unidad de la variable independiente (años de exp.) Producirá un cambio de 9345 unidades en el salario.

Métricas de evaluación de regresión

Básicamente, hay 3 métodos de evaluación importantes disponibles para el análisis de regresión:

  • Error absoluto medio (MAE): muestra la media de los errores absolutos, que es la diferencia entre lo predicho y lo real.
  • Error cuadrado medio (MSE): muestra el valor medio de los errores cuadrados.
  • Error cuadrático medio cuadrático (RMSE): muestra la raíz cuadrada de la media de los errores cuadráticos.

Podemos comparar lo anterior con estos métodos:

  • MAE: Muestra el error promedio y el más fácil de los tres métodos.
  • MSE: este es más popular que MAE porque mejora los errores más grandes, lo que en consecuencia muestra más información.
  • RMSE: este es mejor que MSE porque podemos interpretar el error en términos de y.

Estos 3 no son más que las funciones de pérdida.

# Evaluación del modelo

from sklearn import metrics
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))
print('MSE:', metrics.mean_squared_error(y_test, y_pred))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
MAE: 3426.4269374307123
MSE: 21026037.329511296
RMSE: 4585.4157204675885

Conclusión

El análisis de regresión lineal es una herramienta poderosa para algoritmos de aprendizaje automático, que se usa para predecir variables continuas como salario, ventas, rendimiento, etc. La regresión lineal considera la relación lineal entre variables independientes y dependientes. La regresión lineal simple tiene solo una variable independiente según la cual el modelo predice la variable objetivo. Hemos discutido el modelo y la aplicación de la regresión lineal con un ejemplo de análisis predictivo para predecir el salario de los empleados.

Artículos recomendados

Esta es una guía para la regresión lineal simple. Aquí discutimos el modelo y la aplicación de la regresión lineal, usando un ejemplo de análisis predictivo para predecir los salarios de los empleados. También puede consultar nuestros otros artículos relacionados para obtener más información.

  1. Análisis de regresión lineal
  2. Regresión lineal en R
  3. Modelado de regresión lineal
  4. Herramientas de prueba de regresión
  5. Matplotlib en Python | Top 14 parcelas en Matplotlib
  6. Diccionario en Python | Métodos y ejemplos
  7. Ejemplos de raíz cuadrada en PHP
  8. Regresión lineal vs regresión logística | Principales diferencias

Categoría: