Cómo interpretar los coeficientes de regresión

Actualizado por ultima vez el 7 de mayo de 2021, por .

En estadística, el análisis de regresión es una técnica que se puede utilizar para analizar la relación entre las variables predictoras y una variable de respuesta. Cuando utilice software (como R , Stata , SPSS , etc.) para realizar un análisis de regresión, recibirá una tabla de regresión como salida que resume los resultados de la regresión.

Podría decirse que los números más importantes en la salida de la tabla de regresión son los coeficientes de regresión . Sin embargo, a pesar de su importancia, muchas personas tienen dificultades para interpretar correctamente estos números.

Este tutorial muestra un ejemplo de análisis de regresión y proporciona una explicación detallada de cómo interpretar los coeficientes de regresión que resultan de la regresión.

Publicación relacionada: Cómo leer e interpretar una tabla de regresión completa

Un ejemplo de análisis de regresión

Supongamos que estamos interesados ​​en ejecutar un análisis de regresión utilizando las siguientes variables:

Variables predictoras

  • Número total de horas estudiadas ( variable continua – entre 0 y 20 )
  • Si un estudiante usó un tutor o no ( variable categórica – «sí» o «no» )

Variable de respuesta

  • Calificación en el examen ( c variables ontinuous – entre 1 y 100 )

Estamos interesados ​​en examinar la relación entre las variables predictoras y la variable de respuesta para averiguar si las horas estudiadas y si un estudiante utilizó un tutor o no realmente tienen un impacto significativo en la puntuación de su examen.

Supongamos que ejecutamos un análisis de regresión y obtenemos el siguiente resultado:

Término Coeficiente Error estándar t Stat Valor p
Interceptar 48,56 14.32 3.39 0,002
Horas estudiadas 2,03 0,67 3,03 0,009
Tutor 8,34 5,68 1,47 0,138

Echemos un vistazo a cómo interpretar cada coeficiente de regresión.

Interpretando la intersección

El término de intersección en una tabla de regresión nos dice el valor promedio esperado para la variable de respuesta cuando todas las variables predictoras son iguales a cero.

En este ejemplo, el coeficiente de regresión para la intersección es igual a 48,56 . Esto significa que para un estudiante que estudió durante cero horas ( Horas estudiadas = 0) y no usó un tutor ( Tutor = 0), el puntaje promedio esperado del examen es 48.56.

Es importante tener en cuenta que el coeficiente de regresión para la intersección solo es significativo si es razonable que todas las variables predictoras del modelo puedan ser realmente iguales a cero. En este ejemplo, ciertamente es posible que un alumno haya estudiado durante cero horas ( Horas estudiadas = 0) y tampoco haya utilizado un tutor ( Tutor = 0).Por lo tanto, la interpretación del coeficiente de regresión de la intersección es significativa en este ejemplo.

En algunos casos, sin embargo, el coeficiente de regresión para la intersección no es significativo. Por ejemplo, supongamos que realizamos un análisis de regresión utilizando pies cuadrados como variable de predicción y el valor de la vivienda como variable de respuesta. En la tabla de regresión de salida, el coeficiente de regresión para el término de intersección no tendría una interpretación significativa ya que los pies cuadrados de una casa nunca pueden ser realmente iguales a cero. En ese caso, el coeficiente de regresión para el término de intersección simplemente ancla la línea de regresión en el lugar correcto.

Interpretación del coeficiente de una variable predictora continua

Para una variable de predicción continua, el coeficiente de regresión representa la diferencia en el valor predicho de la variable de respuesta para cada cambio de una unidad en la variable de predicción, asumiendo que todas las demás variables de predicción se mantienen constantes.

En este ejemplo, Horas estudiadas es una variable de predicción continua que va de 0 a 20 horas. En algunos casos, un estudiante estudió tan solo cero horas y en otros casos un estudiante estudió hasta 20 horas.

A partir del resultado de la regresión, podemos ver que el coeficiente de regresión para las horas estudiadas es 2.03 . Esto significa que, en promedio, cada hora adicional estudiada se asocia con un aumento de 2.03 puntos en el examen final, asumiendo que la variable predictora Tutor se mantiene constante.

Por ejemplo, considere al estudiante A que estudia durante 10 horas y usa un tutor. También considere al estudiante B que estudia durante 11 horas y también usa un tutor. De acuerdo con nuestro resultado de regresión, se espera que el estudiante A reciba un puntaje en el examen 2.03 puntos más alto que el estudiante B.

El valor p de la tabla de regresión nos dice si este coeficiente de regresión es realmente estadísticamente significativo o no. Podemos ver que el valor p para las Horas estudiadas es 0.009 , que es estadísticamente significativo a un nivel alfa de 0.05.

Nota: El nivel alfa debe elegirse antes de realizar el análisis de regresión; las opciones comunes para el nivel alfa son 0.01, 0.05 y 0.10.

Publicación relacionada: Una explicación de los valores P y la importancia estadística

Interpretación del coeficiente de una variable predictora categórica

Para una variable de predicción categórica, el coeficiente de regresión representa la diferencia en el valor predicho de la variable de respuesta entre la categoría para la cual la variable de predicción = 0 y la categoría para la cual la variable de predicción = 1.

En este ejemplo, Tutor es una variable de predicción categórica que puede tomar dos valores diferentes:

  • 1 = el estudiante usó un tutor para prepararse para el examen
  • 0 = el alumno no utilizó un tutor para prepararse para el examen

A partir del resultado de la regresión, podemos ver que el coeficiente de regresión para Tutor es 8,34 . Esto significa que, en promedio, un alumno que utilizó un tutor obtuvo 8,34 puntos más en el examen que un alumno que no utilizó un tutor, asumiendo que la variable predictora Horas estudiadas se mantiene constante.

Por ejemplo, considere al estudiante A que estudia durante 10 horas y usa un tutor. Considere también al estudiante B que estudia durante 10 horas y no usa un tutor. De acuerdo con nuestro resultado de regresión, se espera que el estudiante A reciba un puntaje de examen que sea 8.34 puntos más alto que el estudiante B.

El valor p de la tabla de regresión nos dice si este coeficiente de regresión es realmente estadísticamente significativo o no. Podemos ver que el valor p para Tutor es 0.138 , que no es estadísticamente significativo a un nivel alfa de 0.05. Esto indica que, aunque los estudiantes que utilizaron un tutor obtuvieron mejores resultados en el examen, esta diferencia podría deberse al azar.

Interpretación de todos los coeficientes a la vez

Podemos usar todos los coeficientes de la tabla de regresión para crear la siguiente ecuación de regresión estimada:

Puntaje esperado del examen = 48.56 + 2.03 * (Horas estudiadas) + 8.34 * (Tutor)

Nota : Tenga en cuenta que la variable predictora «Tutor» no fue estadísticamente significativa en el nivel alfa 0.05, por lo que puede optar por eliminar este predictor del modelo y no utilizarlo en la ecuación de regresión estimada final.

Usando esta ecuación de regresión estimada, podemos predecir la puntuación del examen final de un estudiante en función de sus horas totales estudiadas y si utilizó o no un tutor.

Por ejemplo, se espera que un estudiante que estudió durante 10 horas y usó un tutor reciba una calificación de examen de:

Puntuación esperada del examen = 48,56 + 2,03 * (10) + 8,34 * (1) = 77,2

Consideración de la correlación al interpretar los coeficientes de regresión

Es importante tener en cuenta que las variables predictoras pueden influirse entre sí en un modelo de regresión. Por ejemplo, la mayoría de las variables predictoras estarán al menos algo relacionadas entre sí (por ejemplo, quizás un estudiante que estudia más también es más probable que use un tutor).

Esto significa que los coeficientes de regresión cambiarán cuando se agreguen o eliminen diferentes variables de predicción del modelo.

Una buena forma de ver si la correlación entre las variables predictoras es lo suficientemente grave como para influir en el modelo de regresión de manera seria es comprobar el VIF entre las variables predictoras . Esto le dirá si la correlación entre las variables predictoras es un problema que debe abordarse antes de decidir interpretar los coeficientes de regresión.

Si está ejecutando un modelo de regresión lineal simple con un solo predictor, las variables predictoras correlacionadas no serán un problema.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Los gráficos de barras son útiles para mostrar las frecuencias de diferentes categorías de datos. De forma predeterminada, los gráficos…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!