Regresión multivariante - Ejemplos de regresión multivariante

Tabla de contenido:

Anonim

Introducción a la regresión multivariante

  • El término en multivariante significa modelo con más de una variable
  • La regresión multivariada es parte de las estadísticas multivariadas.
  • La regresión multivariada es una técnica utilizada para estimar un modelo de regresión único cuando hay más de una variable de resultado.
  • La regresión multivariada comúnmente usa un algoritmo de aprendizaje automático que es un algoritmo de aprendizaje supervisado.

¿Por qué el modelo de regresión única no funcionará?

  • Como se sabe, el análisis de regresión se utiliza principalmente para explorar la relación entre una variable dependiente e independiente.
  • En el mundo real, hay muchas situaciones en las que muchas variables independientes son influidas por otras variables, por lo que tenemos que pasar a diferentes opciones que un modelo de regresión único que solo puede tomar una variable independiente.

¿Qué es la regresión multivariante?

  • La regresión multivariada ayuda a medir el ángulo de más de una variable independiente y más de una variable dependiente. Encuentra la relación entre las variables (Linealmente relacionado).
  • Solía ​​predecir el comportamiento de la variable de resultado y la asociación de variables predictoras y cómo están cambiando las variables predictoras.
  • Se puede aplicar a muchos campos prácticos como política, economía, medicina, trabajos de investigación y muchos tipos diferentes de empresas.
  • La regresión multivariada es una extensión simple de regresión múltiple.
  • La regresión múltiple se usa para predecir e intercambiar los valores de una variable en función del valor colectivo de más de un valor de variables predictoras.
  • Primero, tomaremos un ejemplo para comprender el uso de la regresión multivariada, luego buscaremos la solución a ese problema.

Ejemplos de regresión multivariante

  • Si la empresa de comercio electrónico ha recopilado los datos de sus clientes, como la edad, el historial de compra de un cliente, el género y la empresa, desea encontrar la relación entre estas diferentes dependientes y variables independientes.
  • Un entrenador de gimnasia ha recopilado los datos de su cliente que vienen a su gimnasio y quiere observar algunas cosas del cliente que son la salud, los hábitos alimenticios (qué tipo de producto consume el cliente cada semana), el peso del cliente. Esto quiere encontrar una relación entre estas variables.

Como ha visto en los dos ejemplos anteriores, en ambas situaciones hay más de una variable, algunas son dependientes y otras son independientes, por lo que una regresión simple no es suficiente para analizar este tipo de datos.

Aquí está la regresión multivariada que entra en escena.

1. Selección de funciones -

La selección de características juega el papel más importante en la regresión multivariada.

Encontrar la característica que se necesita para encontrar qué variable depende de esta característica.

2. Características de normalización -

Para un mejor análisis, es necesario escalar las características para colocarlas en un rango específico. También podemos cambiar el valor de cada característica.

3. Seleccione la función de pérdida y la hipótesis -

La función de pérdida calcula la pérdida cuando la hipótesis predice el valor incorrecto.

Y la hipótesis significa el valor pronosticado de la variable característica.

4. Establecer parámetros de hipótesis -

Establezca el parámetro de hipótesis que puede reducir la función de pérdida y puede predecir.

5. Minimizar la función de pérdida

Minimizando la pérdida usando algunos algoritmos de minimización de pérdidas y utilícelos sobre el conjunto de datos que pueden ayudar a ajustar los parámetros de la hipótesis. Una vez que se minimiza la pérdida, se puede utilizar para la predicción.

Hay muchos algoritmos que se pueden usar para reducir la pérdida, como el descenso del gradiente.

6. Probar la función de hipótesis -

Compruebe la función de la hipótesis de cuán correcto es predecir valores, pruébelo en los datos de prueba.

Pasos para seguir el archivo Regresión multivariante

1) Importe las bibliotecas comunes necesarias como numpy, pandas

2) Lea el conjunto de datos usando la biblioteca de pandas

3) Como hemos discutido anteriormente, tenemos que normalizar los datos para obtener mejores resultados. Por qué la normalización porque cada característica tiene un rango diferente de valores.

4) Cree un modelo que pueda archivar la regresión si está utilizando una ecuación de regresión lineal.

Y = mx + c

En el que x recibe entrada, m es una línea de pendiente, c es constante, y es la variable de salida.

5) Entrene el modelo usando hiperparámetro. Comprender el hiperparámetro configúrelo según el modelo. Tales como tasa de aprendizaje, épocas, iteraciones.

6) Como se discutió anteriormente, cómo la hipótesis juega un papel importante en el análisis, verifica la hipótesis y mide la función de pérdida / costo.

7) La función de pérdida / costo nos ayudará a medir cómo el valor de la hipótesis es verdadero y preciso.

8) Minimizar la función de pérdida / costo ayudará al modelo a mejorar la predicción.

9) La ecuación de pérdida se puede definir como una suma de la diferencia al cuadrado entre el valor predicho y el valor real dividido por el doble del tamaño del conjunto de datos.

10) Para minimizar la función Lose / cost use el descenso de gradiente, comienza con un valor aleatorio y encuentra el punto en que su función de pérdida es menor.

Siguiendo lo anterior, podemos implementar la regresión multivariante

Ventajas de la regresión multivariante

  • La técnica multivariante permite encontrar una relación entre variables o características.
  • Ayuda a encontrar una correlación entre variables independientes y dependientes.

Desventajas de la regresión multivariante

  • Las técnicas multivariadas son un cálculo matemático poco complejo y de alto nivel.
  • El resultado del modelo de regresión multivariante no es fácilmente interpretable y, a veces, porque algunos resultados de pérdidas y errores no son idénticos.
  • No se puede aplicar a un conjunto de datos pequeño porque los resultados son más directos en conjuntos de datos más grandes.

Conclusión: regresión multivariante

  • El propósito principal de usar la regresión multivariada es cuando tiene más de una variable disponible y, en ese caso, la regresión lineal simple no funcionará.
  • Principalmente, el mundo real tiene múltiples variables o características cuando entran en juego múltiples variables / características. Se utilizan regresiones multivariadas.

Artículos recomendados

Esta es una guía para la regresión multivariante. Aquí discutimos la Introducción, Ejemplos de regresión multivariada junto con las Ventajas y las Ventajas Dis. También puede consultar nuestros otros artículos sugeridos para obtener más información:

  1. Fórmula de regresión
  2. Curso de ciencia de datos en Londres
  3. Operadores SAS
  4. Técnicas de ciencia de datos
  5. Variables en JavaScript
  6. Principales diferencias de regresión vs clasificación