Cómo leer e interpretar una tabla de regresión

En estadística, la regresión es una técnica que se puede utilizar para analizar la relación entre las variables predictoras y una variable de respuesta.

Cuando utilice software (como R, SAS, SPSS, etc.) para realizar un análisis de regresión, recibirá una tabla de regresión como salida que resume los resultados de la regresión. Es importante saber cómo leer esta tabla para que pueda comprender los resultados del análisis de regresión.

Este tutorial muestra un ejemplo de análisis de regresión y proporciona una explicación detallada de cómo leer e interpretar el resultado de una tabla de regresión.

Un ejemplo de regresión

Supongamos que tenemos el siguiente conjunto de datos que muestra la cantidad total de horas estudiadas, el total de exámenes de preparación tomados y la puntuación del examen final recibida para 12 estudiantes diferentes:

Ejemplo de datos de análisis de regresión

Para analizar la relación entre las horas estudiadas y los exámenes de preparación realizados con la puntuación del examen final que recibe un estudiante, realizamos una regresión lineal múltiple utilizando las horas estudiadas y los exámenes de preparación tomados como variables predictoras y la puntuación del examen final como variable de respuesta.

Recibimos el siguiente resultado:

Salida de la tabla de regresión

Examinar el ajuste del modelo

La primera sección muestra varios números diferentes que miden el ajuste del modelo de regresión, es decir, qué tan bien el modelo de regresión es capaz de «ajustar» el conjunto de datos.

A continuación, se explica cómo interpretar cada uno de los números de esta sección:

Varias R

Este es el coeficiente de correlación . Mide la fuerza de la relación lineal entre las variables predictoras y la variable de respuesta. Un múltiplo R de 1 indica una relación lineal perfecta, mientras que un múltiplo R de 0 indica que no hay relación lineal alguna. Múltiple R es la raíz cuadrada de R al cuadrado (ver más abajo).

En este ejemplo, el múltiplo R es 0,72855 , lo que indica una relación lineal bastante fuerte entre las horas de estudio de los predictores y los exámenes de preparación y la variable de respuesta , la puntuación del examen final .

R-cuadrado

Esto a menudo se escribe como r 2 y también se conoce como coeficiente de determinación . Es la proporción de la varianza en la variable de respuesta que puede ser explicada por la variable predictora.

El valor de R-cuadrado puede oscilar entre 0 y 1. Un valor de 0 indica que la variable de respuesta no puede explicarse en absoluto por la variable de predicción. Un valor de 1 indica que la variable de respuesta se puede explicar perfectamente sin errores mediante la variable predictora.

En este ejemplo, el R-cuadrado es 0.5307 , lo que indica que el 53.07% de la varianza en los puntajes del examen final puede explicarse por la cantidad de horas estudiadas y la cantidad de exámenes de preparación tomados.

Relacionado: ¿Qué es un buen valor R cuadrado?

R cuadrado ajustado

Ésta es una versión modificada de R-cuadrado que se ha ajustado para el número de predictores en el modelo. Siempre es más bajo que el R-cuadrado. El R-cuadrado ajustado puede ser útil para comparar el ajuste de diferentes modelos de regresión entre sí.

En este ejemplo, el R cuadrado ajustado es 0,4265.

Error estándar de la regresión

El error estándar de la regresión es la distancia promedio que los valores observados caen desde la línea de regresión. En este ejemplo, los valores observados caen un promedio de 7.3267 unidades de la línea de regresión.

Relacionado: Comprensión del error estándar de la regresión

Observaciones

Este es simplemente el número de observaciones de nuestro conjunto de datos. En este ejemplo, el total de observaciones es 12 .

Prueba de la significación general del modelo de regresión

La siguiente sección muestra los grados de libertad, la suma de cuadrados, los cuadrados medios, el estadístico F y la significación general del modelo de regresión.

Prueba F en la tabla de salida del análisis de regresión

A continuación, se explica cómo interpretar cada uno de los números de esta sección:

Grados de libertad de regresión

Este número es igual a: el número de coeficientes de regresión – 1. En este ejemplo, tenemos un término de intersección y dos variables predictoras, por lo que tenemos tres coeficientes de regresión en total, lo que significa que los grados de libertad de la regresión son 3 – 1 = 2 .

Grados totales de libertad

Este número es igual a: el número de observaciones – 1. En este ejemplo, tenemos 12 observaciones, por lo que el total de grados de libertad es 12 – 1 = 11 .

Grados de libertad residuales

Este número es igual a: gl total – gl de regresión. En este ejemplo, los grados de libertad residuales son 11 – 2 = 9 .

Cuadrados medios

Los cuadrados medios de regresión se calculan mediante regresión SS / regresión gl. En este ejemplo, regresión MS = 546.53308 / 2 = 273.2665 .

Los cuadrados medios residuales se calculan mediante SS residual / gl residual. En este ejemplo, MS residual = 483,1335 / 9 = 53,68151 .

Estadística F

El estadístico f se calcula como MS de regresión / MS residual. Esta estadística indica si el modelo de regresión proporciona un mejor ajuste a los datos que un modelo que no contiene variables independientes.

En esencia, prueba si el modelo de regresión en su conjunto es útil. Generalmente, si ninguna de las variables predictoras del modelo es estadísticamente significativa, el estadístico F general tampoco es estadísticamente significativo.

En este ejemplo, el estadístico F es 273,2665 / 53,68151 = 5,09 .

Importancia de F (valor P)

El último valor de la tabla es el valor p asociado con el estadístico F. Para ver si el modelo de regresión general es significativo, puede comparar el valor p con un nivel de significancia; las opciones comunes son .01, .05 y .10.

Si el valor p es menor que el nivel de significancia, hay evidencia suficiente para concluir que el modelo de regresión se ajusta mejor a los datos que el modelo sin variables predictoras. Este hallazgo es bueno porque significa que las variables predictoras en el modelo realmente mejoran el ajuste del modelo.

En este ejemplo, el valor p es 0.033 , que es menor que el nivel de significancia común de 0.05. Esto indica que el modelo de regresión en su conjunto es estadísticamente significativo, es decir, el modelo se ajusta mejor a los datos que el modelo sin variables predictoras.

Prueba de la significación general del modelo de regresión

La última sección muestra las estimaciones de los coeficientes, el error estándar de las estimaciones, el estadístico t, los valores p y los intervalos de confianza para cada término en el modelo de regresión.

Cómo interpretar los coeficientes de la salida de una tabla de regresión

A continuación, se explica cómo interpretar cada uno de los números de esta sección:

Coeficientes

Los coeficientes nos dan los números necesarios para escribir la ecuación de regresión estimada:

y hat = b 0 + b 1 x 1 + b 2 x 2 .

En este ejemplo, la ecuación de regresión estimada es:

puntuación del examen final = 66,99 + 1,299 (horas de estudio) + 1,117 (exámenes de preparación)

Cada coeficiente individual se interpreta como el aumento promedio en la variable de respuesta para cada aumento de una unidad en una variable predictora dada, asumiendo que todas las demás variables predictoras se mantienen constantes. Por ejemplo, por cada hora adicional estudiada, el aumento promedio esperado en el puntaje del examen final es de 1.299 puntos, asumiendo que el número de exámenes de preparación tomados se mantiene constante.

La intersección se interpreta como el puntaje promedio esperado del examen final para un estudiante que estudia cero horas y no toma exámenes de preparación cero. En este ejemplo, se espera que un estudiante obtenga una puntuación de 66,99 si estudia cero horas y no toma ningún examen de preparación. Sin embargo, tenga cuidado al interpretar la intersección de una salida de regresión, porque no siempre tiene sentido hacerlo.

Por ejemplo, en algunos casos, la intersección puede resultar ser un número negativo, que a menudo no tiene una interpretación obvia. Esto no significa que el modelo sea incorrecto, simplemente significa que la intersección en sí misma no debe interpretarse como algo que signifique nada.

Error estándar, estadísticas t y valores p

El error estándar es una medida de la incertidumbre en torno a la estimación del coeficiente para cada variable.

El t-stat es simplemente el coeficiente dividido por el error estándar. Por ejemplo, la estadística t para las horas de estudio es 1.299 / 0.417 = 3.117.

La siguiente columna muestra el valor p asociado con el t-stat. Este número nos dice si una determinada variable de respuesta es significativa en el modelo. En este ejemplo, vemos que el valor p para las horas de estudio es 0.012 y el valor p para los exámenes de preparación es 0.304. Esto indica que las horas de estudio son un predictor significativo de la puntuación del examen final, mientras que los exámenes de preparación no lo son.

Intervalo de confianza para estimaciones de coeficientes

Las dos últimas columnas de la tabla proporcionan los límites inferior y superior para un intervalo de confianza del 95% para las estimaciones de los coeficientes.

Por ejemplo, la estimación del coeficiente para las horas de estudio es 1.299, pero existe cierta incertidumbre en torno a esta estimación. Nunca podremos saber con certeza si este es el coeficiente exacto. Por lo tanto, un intervalo de confianza del 95% nos da un rango de valores probables para el coeficiente verdadero.

En este caso, el intervalo de confianza del 95% para las horas de estudio es (0.356, 2.24). Tenga en cuenta que este intervalo de confianza no contiene el número «0», lo que significa que estamos bastante seguros de que el valor real del coeficiente de horas de estudio no es cero, es decir, un número positivo.

Por el contrario, el intervalo de confianza del 95% para los exámenes de preparación es (-1.201, 3.436). Tenga en cuenta que este intervalo de confianza hace contener el número “0”, que significa que el verdadero valor para el coeficiente de Exámenes Prep podría ser cero, es decir, no significativa en la predicción de los resultados del examen finales.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, es posible que desee eliminar una o más columnas de un marco de datos en R. Afortunadamente, esto…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!