Una guía simple para comprender la prueba F de significancia general en regresión

Este tutorial explica cómo identificar el estadístico F en la salida de una tabla de regresión, así como también cómo interpretar este estadístico y su valor p correspondiente.

Comprensión de la prueba F de significancia general

La prueba F de significación general en la regresión es una prueba de si su modelo de regresión lineal proporciona un mejor ajuste a un conjunto de datos que un modelo sin variables predictoras.

La prueba F de importancia general tiene las siguientes dos hipótesis:

Hipótesis nula (H ₀ ): el modelo sin variables predictoras (también conocido como modelo de solo intersección ) se ajusta a los datos y al modelo de regresión.

Hipótesis alternativa (H _A ): su modelo de regresión se ajusta mejor a los datos que el modelo de solo intercepto.

Cuando ajusta un modelo de regresión a un conjunto de datos, recibirá una tabla de regresión como resultado, que le indicará el estadístico F junto con el valor p correspondiente para ese estadístico F.

Si el valor p es menor que el nivel de significancia que ha elegido ( las opciones comunes son .01, .05 y .10 ), entonces tiene suficiente evidencia para concluir que su modelo de regresión se ajusta mejor a los datos que el modelo de solo intercepto. modelo.

Ejemplo: prueba F en regresión

Supongamos que tenemos el siguiente conjunto de datos que muestra la cantidad total de horas estudiadas, el total de exámenes de preparación tomados y la puntuación del examen final recibida para 12 estudiantes diferentes:

Ejemplo de datos de análisis de regresión

Para analizar la relación entre las horas estudiadas y los exámenes de preparación realizados con la puntuación del examen final que recibe un estudiante, realizamos una regresión lineal múltiple utilizando las horas estudiadas y los exámenes de preparación tomados como variables predictoras y la puntuación del examen final como variable de respuesta.

Recibimos el siguiente resultado:

Salida de la tabla de regresión

A partir de estos resultados, nos centraremos en el estadístico F dado en la tabla ANOVA, así como en el valor p de ese estadístico F, que está etiquetado como Significación F en la tabla. Elegiremos .05 como nuestro nivel de significancia.

Estadístico F: 5.090515

Valor p : 0.0332

Nota técnica: El estadístico F se calcula como la regresión de MS dividida por el residuo de MS. En este caso MS regresión / MS residual = 273,2665 / 53,68151 = 5,090515 .

Dado que el valor p es menor que el nivel de significancia, podemos concluir que nuestro modelo de regresión se ajusta mejor a los datos que el modelo de solo intercepto.

En el contexto de este problema específico, significa que el uso de nuestras variables predictoras Horas de estudio y Exámenes de preparación en el modelo nos permite ajustar los datos mejor que si los dejamos fuera y simplemente usáramos el modelo de solo intercepto.

Notas sobre la interpretación de la prueba F de significancia general

En general, si ninguna de sus variables predictoras es estadísticamente significativa, la prueba F general tampoco será estadísticamente significativa. Sin embargo, en algunas ocasiones es posible que esto no sea así porque la prueba F de significancia general prueba si todas las variables predictoras son significativas en conjunto, mientras que la prueba t de significancia para cada variable predictora individual simplemente prueba si cada variable predictora es individualmente significativo.

Por lo tanto, la prueba F determina si todas las variables predictoras son significativas de manera conjunta. Es posible que cada variable predictora no sea significativa y, sin embargo, la prueba F dice que todas las variables predictoras combinadas son significativas en conjunto.

Nota técnica: En general, cuantas más variables predictoras tenga en el modelo, mayor será la probabilidad de que el estadístico F y el valor p correspondiente sean estadísticamente significativos.

Otra métrica que probablemente verá en el resultado de una regresión es R-cuadrado , que mide la fuerza de la relación lineal entre las variables predictoras y la variable de respuesta es otra. Aunque R-cuadrado puede darle una idea de cuán fuertemente asociadas están las variables predictoras con la variable de respuesta, no proporciona una prueba estadística formal para esta relación.

Esta es la razón por la que la prueba F es útil, ya que es una prueba estadística formal. Además, si la prueba F general es significativa, puede concluir que R cuadrado no es igual a cero y que la correlación entre las variables predictoras y la variable de respuesta es estadísticamente significativa.

Lecturas adicionales
Cómo leer e interpretar una tabla de regresión
Comprender el error estándar de la regresión
¿Qué es un buen valor R cuadrado?

https://r-project.org
https://www.python.org/
https://www.stata.com/

Comprensión de la prueba F de significancia general

Ejemplo: prueba F en regresión

Notas sobre la interpretación de la prueba F de significancia general

Deja un comentario Cancelar la respuesta