Cómo realizar una regresión lineal múltiple en Excel

La regresión lineal múltiple es un método que podemos utilizar para comprender la relación entre dos o más variables explicativas y una variable de respuesta .

Este tutorial explica cómo realizar regresiones lineales múltiples en Excel.

Nota: Si solo tiene una variable explicativa, debe realizar una regresión lineal simple .

Ejemplo: regresión lineal múltiple en Excel

Supongamos que queremos saber si el número de horas dedicadas al estudio y el número de exámenes de preparación realizados afectan la puntuación que recibe un estudiante en un determinado examen de ingreso a la universidad.

Para explorar esta relación, podemos realizar una regresión lineal múltiple usando las horas estudiadas y los exámenes de preparación tomados como variables explicativas y la puntuación del examen como una variable de respuesta.

Realice los siguientes pasos en Excel para realizar una regresión lineal múltiple.

Paso 1: Ingrese los datos.

Ingrese los siguientes datos para la cantidad de horas estudiadas, exámenes de preparación tomados y puntaje de examen recibido para 20 estudiantes:

Datos brutos para regresión lineal múltiple en Excel

Paso 2: Realice una regresión lineal múltiple.

A lo largo de la cinta superior en Excel, vaya a la pestaña Datos y haga clic en Análisis de datos . Si no ve esta opción, primero debe instalar el paquete de herramientas de análisis gratuito .

Opción de análisis de datos en Excel

Una vez que haga clic en Análisis de datos, aparecerá una nueva ventana. Seleccione Regresión y haga clic en Aceptar.

Ejemplo de regresión lineal múltiple en Excel

Para Input Y Range , complete la matriz de valores para la variable de respuesta. Para Input X Range , complete la matriz de valores para las dos variables explicativas. Marque la casilla junto a Etiquetas para que Excel sepa que incluimos los nombres de las variables en los rangos de entrada. Para Rango de salida , seleccione una celda donde le gustaría que aparezca la salida de la regresión. Luego haga clic en Aceptar .

Regresión lineal múltiple en Excel

La siguiente salida aparecerá automáticamente:

Salida de regresión lineal múltiple en Excel

Paso 3: Interprete el resultado.

A continuación, se explica cómo interpretar los números más relevantes en la salida:

Cuadrado R: 0,734 . Esto se conoce como coeficiente de determinación. Es la proporción de la varianza en la variable de respuesta que se puede explicar por las variables explicativas. En este ejemplo, el 73,4% de la variación en los puntajes de los exámenes se puede explicar por el número de horas estudiadas y el número de exámenes de preparación realizados.

Error estándar: 5.366 . Esta es la distancia promedio que los valores observados caen desde la línea de regresión. En este ejemplo, los valores observados caen un promedio de 5.366 unidades de la línea de regresión.

F: 23,46 . Este es el estadístico F general para el modelo de regresión, calculado como MS de regresión / MS residual.

Significado F: 0,0000 . Este es el valor p asociado con el estadístico F general. Nos dice si el modelo de regresión en su conjunto es estadísticamente significativo o no. En otras palabras, nos dice si las dos variables explicativas combinadas tienen una asociación estadísticamente significativa con la variable de respuesta. En este caso, el valor p es menor que 0.05, lo que indica que las variables explicativas horas estudiadas y exámenes de preparación tomados combinados tienen una asociación estadísticamente significativa con la puntuación del examen .

Valores p.Los valores p individuales nos dicen si cada variable explicativa es estadísticamente significativa o no. Podemos ver que las horas estudiadas son estadísticamente significativas (p = 0,00) mientras que los exámenes de preparación realizados (p = 0,52) no son estadísticamente significativos en α = 0,05. Dado que los exámenes de preparación realizados no son estadísticamente significativos, es posible que terminemos decidiendo eliminarlo del modelo.

Coeficientes: Los coeficientes para cada variable explicativa nos dicen el cambio promedio esperado en la variable de respuesta, asumiendo que la otra variable explicativa permanece constante. Por ejemplo, por cada hora adicional dedicada al estudio, se espera que la puntuación media del examen aumente en 5,56 , suponiendo que los exámenes de preparación realizados permanezcan constantes.

Aquí hay otra forma de pensar sobre esto: si el estudiante A y el estudiante B toman la misma cantidad de exámenes de preparación, pero el estudiante A estudia durante una hora más, se espera que el estudiante A obtenga una puntuación 5.56 puntos más alta que el estudiante B.

Interpretamos que el coeficiente de la intersección significa que el puntaje esperado del examen para un estudiante que estudia cero horas y toma cero exámenes de preparación es 67.67 .

Ecuación de regresión estimada: podemos usar los coeficientes de la salida del modelo para crear la siguiente ecuación de regresión estimada:

puntuación del examen = 67,67 + 5,56 * (horas) – 0,60 * (exámenes de preparación)

Podemos usar esta ecuación de regresión estimada para calcular la puntuación de examen esperada para un estudiante, según la cantidad de horas que estudian y la cantidad de exámenes de preparación que toman. Por ejemplo, se espera que un estudiante que estudia durante tres horas y toma un examen de preparación reciba una puntuación de 83,75 :

puntuación del examen = 67,67 + 5,56 * (3) – 0,60 * (1) = 83,75

Tenga en cuenta que debido a que los exámenes de preparación realizados no fueron estadísticamente significativos (p = 0,52), podemos decidir eliminarlo porque no agrega ninguna mejora al modelo general. En este caso, podríamos realizar una regresión lineal simple utilizando solo las horas estudiadas como variable explicativa.

Los resultados de este análisis de regresión lineal simple se pueden encontrar aquí .

Recursos adicionales

Una vez que realice la regresión lineal múltiple, hay varias suposiciones que puede querer verificar, incluyendo:

1. Prueba de multicolinealidad usando VIF .

2. Prueba de heterodescedasticidad mediante una prueba de Breusch-Pagan .

3. Prueba de normalidad usando un gráfico QQ .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En la mayoría de los casos, cuando las personas hablan de "normalizar" las variables en un conjunto de datos, significa…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!