Introducción a la regresión lineal múltiple

Actualizado por ultima vez el 7 de mayo de 2021, por .

Cuando queremos comprender la relación entre una sola variable predictora y una variable de respuesta, a menudo usamos regresión lineal simple .

Sin embargo, si quisiéramos comprender la relación entre múltiples variables predictoras y una variable de respuesta, entonces podemos usar la regresión lineal múltiple .

Si tenemos p variables predictoras, entonces un modelo de regresión lineal múltiple toma la forma:

Y = β 0 + β 1 X 1 + β 2 X 2 +… + β p X p + ε

dónde:

  • Y : la variable de respuesta
  • X j : La j- ésima variable predictora
  • β j : El efecto promedio en Y de un aumento de una unidad en X j , manteniendo todos los demás predictores fijos
  • ε : el término de error

Los valores para β 0 , β 1 , B 2 ,…, β p se eligen utilizando el método de mínimos cuadrados , que minimiza la suma de los residuos al cuadrado (RSS):

RSS = Σ (y i – ŷ i ) 2

dónde:

  • Σ : símbolo griego que significa suma
  • y i : El valor de respuesta real para la i- ésima observación
  • ŷ i : el valor de respuesta predicho basado en el modelo de regresión lineal múltiple

El método utilizado para encontrar estas estimaciones de coeficientes se basa en el álgebra matricial y no cubriremos los detalles aquí. Afortunadamente, cualquier software estadístico puede calcular estos coeficientes por usted.

Cómo interpretar la salida de regresión lineal múltiple

Suponga que ajustamos un modelo de regresión lineal múltiple utilizando las variables predictoras horas estudiadas y exámenes de preparación realizados y una puntuación de examen de variable de respuesta .

La siguiente captura de pantalla muestra cómo se vería la salida de regresión lineal múltiple para este modelo:

Nota: La captura de pantalla siguiente muestra la salida de regresión lineal múltiple para Excel , pero los números que se muestran en la salida son típicos de la salida de regresión que verá con cualquier software estadístico.

Interpretación de salida de regresión lineal múltiple

A partir de la salida del modelo, los coeficientes nos permiten formar un modelo de regresión lineal múltiple estimado:

Puntuación del examen = 67,67 + 5,56 * (horas) – 0,60 * (exámenes de preparación)

La forma de interpretar los coeficientes es la siguiente:

  • Cada aumento adicional de una unidad en las horas estudiadas se asocia con un aumento promedio de 5,56 puntos en la puntuación del examen, asumiendo que los exámenes de preparación se mantienen constantes.
  • Cada aumento adicional de una unidad en los exámenes de preparación tomados se asocia con una disminución promedio de 0.60 puntos en la puntuación del examen, asumiendo que las horas estudiadas se mantienen constantes.

También podemos usar este modelo para encontrar el puntaje esperado del examen que recibirá un estudiante en función del total de horas estudiadas y los exámenes de preparación tomados. Por ejemplo, se espera que un estudiante que estudia 4 horas y toma 1 examen de preparación obtenga una puntuación de 89,31 en el examen:

Puntuación del examen = 67,67 + 5,56 * (4) -0,60 * (1) = 89,31

A continuación, se explica cómo interpretar el resto del resultado del modelo:

  • R-Cuadrado: esto se conoce como el coeficiente de determinación. Es la proporción de la varianza en la variable de respuesta que se puede explicar por las variables explicativas. En este ejemplo, el 73,4% de la variación en los puntajes de los exámenes se puede explicar por el número de horas estudiadas y el número de exámenes de preparación realizados.
  • Error estándar: esta es la distancia promedio que los valores observados caen desde la línea de regresión. En este ejemplo, los valores observados caen un promedio de 5.366 unidades de la línea de regresión.
  • F: Este es el estadístico F general para el modelo de regresión, calculado como MS de regresión / MS residual.
  • Significación F: Este es el valor p asociado con el estadístico F general. Nos dice si el modelo de regresión en su conjunto es estadísticamente significativo o no. En otras palabras, nos dice si las dos variables explicativas combinadas tienen una asociación estadísticamente significativa con la variable de respuesta. En este caso, el valor p es menor que 0.05, lo que indica que las variables explicativas horas estudiadas y exámenes de preparación tomados combinados tienen una asociación estadísticamente significativa con la puntuación del examen.
  • Valores p de coeficientes. Los valores p individuales nos dicen si cada variable explicativa es estadísticamente significativa o no. Podemos ver que las horas estudiadas son estadísticamente significativas (p = 0,00) mientras que los exámenes de preparación realizados (p = 0,52) no son estadísticamente significativos en α = 0,05. Dado que los exámenes de preparación realizados no son estadísticamente significativos, es posible que terminemos decidiendo eliminarlo del modelo.

Cómo evaluar el ajuste de un modelo de regresión lineal múltiple

Hay dos números que se usan comúnmente para evaluar qué tan bien un modelo de regresión lineal múltiple «se ajusta» a un conjunto de datos:

1. R-Cuadrado: Esta es la proporción de la varianza en la variable de respuesta que se puede explicar por las variables predictoras.

El valor de R-cuadrado puede oscilar entre 0 y 1. Un valor de 0 indica que la variable de respuesta no puede explicarse en absoluto por la variable de predicción. Un valor de 1 indica que la variable de respuesta se puede explicar perfectamente sin errores mediante la variable predictora.

Cuanto más alto sea el R cuadrado de un modelo, mejor será el modelo capaz de ajustar los datos.

2. Error estándar: esta es la distancia promedio que los valores observados caen desde la línea de regresión. Cuanto menor sea el error estándar, mejor podrá ajustarse el modelo a los datos.

Si estamos interesados ​​en hacer predicciones usando un modelo de regresión, el error estándar de la regresión puede ser una métrica más útil de conocer que R-cuadrado porque nos da una idea de cuán precisas serán nuestras predicciones en términos de unidades.

Para obtener una explicación completa de los pros y los contras de usar R-cuadrado frente al error estándar para evaluar el ajuste del modelo, consulte los siguientes artículos:

Supuestos de regresión lineal múltiple

Hay cuatro suposiciones clave que hace la regresión lineal múltiple sobre los datos:

1. Relación lineal: existe una relación lineal entre la variable independiente, x, y la variable dependiente, y.

2. Independencia: Los residuos son independientes. En particular, no existe correlación entre residuos consecutivos en datos de series de tiempo.

3. Homoscedasticidad: Los residuos tienen varianza constante en cada nivel de x.

4. Normalidad: Los residuos del modelo se distribuyen normalmente.

Para obtener una explicación completa de cómo probar estas suposiciones, consulte este artículo .

Regresión lineal múltiple mediante software

Los siguientes tutoriales proporcionan ejemplos paso a paso de cómo realizar regresiones lineales múltiples utilizando diferentes programas de estadística:

Cómo realizar una regresión lineal múltiple en R
Cómo realizar una regresión lineal múltiple en Python
Cómo realizar una regresión lineal múltiple en Excel
Cómo realizar una regresión lineal múltiple en SPSS
Cómo realizar una regresión lineal múltiple en Stata
Cómo realizar una regresión lineal en Hojas de cálculo de Google

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La prueba Q de Dixon , a menudo denominada simplemente prueba Q , es una prueba estadística que se utiliza…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!