Comprensión del error estándar de la regresión

Cuando ajustamos un modelo de regresión a un conjunto de datos, a menudo nos interesa saber qué tan bien el modelo de regresión «se ajusta» al conjunto de datos. Dos métricas comúnmente utilizados para medir la bondad de ajuste incluyen R-cuadrado (R 2 ) y el error estándar de la regresión , a menudo denotado S .

Este tutorial explica cómo interpretar el error estándar de la regresión (S) y por qué puede proporcionar información más útil que R 2 .

Error estándar frente a R-cuadrado en regresión

Supongamos que tenemos un conjunto de datos simple que muestra cuántas horas 12 estudiantes estudiaron por día durante un mes previo a un examen importante junto con la puntuación del examen:

Ejemplo de interpretación del error estándar de regresión

Si ajustamos un modelo de regresión lineal simple a este conjunto de datos en Excel, recibimos el siguiente resultado:

Salida de regresión en Excel

R cuadrado es la proporción de la varianza en la variable de respuesta que puede explicarse mediante la variable predictora. En este caso, el 65,76% de la varianza en los puntajes de los exámenes puede explicarse por el número de horas dedicadas al estudio.

El error estándar de la regresión es la distancia promedio que los valores observados caen de la línea de regresión. En este caso, los valores observados caen un promedio de 4.89 unidades de la línea de regresión.

Si trazamos los puntos de datos reales junto con la línea de regresión, podemos ver esto con mayor claridad:

Observe que algunas observaciones caen muy cerca de la línea de regresión, mientras que otras no están tan cerca. Pero en promedio, los valores observados caen 4.19 unidades de la línea de regresión.

El error estándar de la regresión es particularmente útil porque se puede utilizar para evaluar la precisión de las predicciones. Aproximadamente el 95% de la observación debe estar dentro de +/- dos errores estándar de la regresión, que es una aproximación rápida de un intervalo de predicción del 95%.

Si estamos interesados ​​en hacer predicciones usando el modelo de regresión, el error estándar de la regresión puede ser una métrica más útil de conocer que R-cuadrado porque nos da una idea de cuán precisas serán nuestras predicciones en términos de unidades.

Para ilustrar por qué el error estándar de la regresión puede ser una métrica más útil para evaluar el «ajuste» de un modelo, considere otro conjunto de datos de ejemplo que muestra cuántas horas 12 estudiantes estudiaron por día durante un mes previo a un examen importante junto con su puntaje en el examen:

Tenga en cuenta que este es exactamente el mismo conjunto de datos que antes, excepto que todos los valores se reducen a la mitad . Por lo tanto, los estudiantes de este conjunto de datos estudiaron exactamente la mitad del tiempo que los estudiantes del conjunto de datos anterior y recibieron exactamente la mitad de la puntuación del examen.

Si ajustamos un modelo de regresión lineal simple a este conjunto de datos en Excel, recibimos el siguiente resultado:

Salida de regresión del modelo lineal simple en Excel

Observe que el R-cuadrado de 65,76% es exactamente el mismo que el del ejemplo anterior.

Sin embargo, el error estándar de la regresión es 2.095 , que es exactamente la mitad del error estándar de la regresión en el ejemplo anterior.

Si trazamos los puntos de datos reales junto con la línea de regresión, podemos ver esto con mayor claridad:

Diagrama de dispersión para regresión lineal simple

Observe cómo las observaciones se empaquetan mucho más de cerca alrededor de la línea de regresión. En promedio, los valores observados caen 2.095 unidades de la línea de regresión.

Entonces, aunque ambos modelos de regresión tienen un R cuadrado de 65.76% , sabemos que el segundo modelo proporcionaría predicciones más precisas porque tiene un error estándar de regresión más bajo.

Las ventajas de utilizar el error estándar

El error estándar de la regresión (S) a menudo es más útil de conocer que el R-cuadrado del modelo porque nos proporciona unidades reales. Si estamos interesados ​​en usar un modelo de regresión para producir predicciones, S puede decirnos muy fácilmente si un modelo es lo suficientemente preciso para usarlo en la predicción.

Por ejemplo, suponga que queremos producir un intervalo de predicción del 95% en el que podemos predecir las puntuaciones de los exámenes dentro de los 6 puntos de la puntuación real.

Nuestro primer modelo tiene un R cuadrado de 65,76%, pero esto no nos dice nada sobre cuán preciso será nuestro intervalo de predicción. Por suerte también sabemos que el primer modelo tiene una S de 4,19. Esto significa que un intervalo de predicción del 95% sería aproximadamente 2 * 4,19 = +/- 8,38 unidades de ancho, que es demasiado amplio para nuestro intervalo de predicción.

Nuestro segundo modelo también tiene un R cuadrado de 65,76%, pero de nuevo esto no nos dice nada sobre la precisión de nuestro intervalo de predicción. Sin embargo, sabemos que el segundo modelo tiene una S de 2.095. Esto significa que un intervalo de predicción del 95% sería aproximadamente 2 * 2.095 = +/- 4.19 unidades de ancho, que es menos de 6 y, por lo tanto, lo suficientemente preciso como para producir intervalos de predicción.

Otras lecturas

Introducción a la regresión lineal simple
¿Qué es un buen valor R cuadrado?

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Un histograma es un gráfico que nos ayuda a visualizar la distribución de valores en un conjunto de datos. Resulta…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!