¿Qué es la varianza residual? (Definición y ejemplo)

La varianza residual (a veces denominada «varianza inexplicable») se refiere a la varianza en un modelo que no se puede explicar por las variables en el modelo.

Cuanto mayor sea la varianza residual de un modelo, menos capaz es el modelo de explicar la variación en los datos.

La varianza residual aparece en la salida de dos modelos estadísticos diferentes:

1. ANOVA: Se utiliza para comparar las medias de tres o más grupos independientes.

2. Regresión: se utiliza para cuantificar la relación entre una o más variables predictoras y una variable de respuesta .

Los siguientes ejemplos muestran cómo interpretar la varianza residual en cada uno de estos métodos.

Varianza residual en modelos ANOVA

Siempre que ajustamos un modelo ANOVA («análisis de varianza»), terminamos con una tabla ANOVA que se parece a la siguiente:

Varianza residual en el modelo ANOVA

El valor de la varianza residual del modelo ANOVA se puede encontrar en la columna SS (“suma de cuadrados”) para la variación dentro de los grupos .

Este valor también se conoce como «suma de errores al cuadrado» y se calcula utilizando la siguiente fórmula:

Σ (X ijX j ) 2

dónde:

  • Σ : un símbolo griego que significa «suma»
  • X ij : la i- ésima observación en el grupo j
  • X j : la media del grupo j

En el modelo ANOVA anterior, vemos que la varianza residual es 1,100.6.

Para determinar si esta varianza residual es «alta», podemos calcular la suma media de los cuadrados para dentro de los grupos y la suma media de los cuadrados para entre los grupos y encontrar la relación entre los dos, lo que da como resultado el valor F general en la tabla ANOVA.

  • F = MS entre / MS dentro
  • F = 96,1 / 40,76296
  • F = 2,357

El valor F en la tabla ANOVA anterior es 2.357 y el valor p correspondiente es 0.113848. Dado que este valor p no es menor que α = .05, no tenemos evidencia suficiente para rechazar la hipótesis nula.

Esto significa que no tenemos evidencia suficiente para decir que la diferencia media entre los grupos que estamos comparando es significativamente diferente.

Esto nos dice que la varianza residual en el modelo ANOVA es alta en relación con la variación que el modelo realmente puede explicar.

Varianza residual en modelos de regresión

En un modelo de regresión, la varianza residual se define como la suma de las diferencias cuadradas entre los puntos de datos predichos y los puntos de datos observados.

Se calcula como:

Σ (ŷ i – y i ) 2

dónde:

  • Σ : un símbolo griego que significa «suma»
  • ŷ i : los puntos de datos predichos
  • y i : los puntos de datos observados

Cuando ajustamos un modelo de regresión, normalmente terminamos con un resultado que se parece a lo siguiente:

Varianza residual en el modelo de regresión

El valor de la varianza residual del modelo ANOVA se puede encontrar en la columna SS (“suma de cuadrados”) para la variación residual.

La razón de la variación residual relativa a la variación total en el modelo nos dice el porcentaje de variación en la variable de respuesta que no puede ser explicado por las variables predictoras en el modelo.

Por ejemplo, en la tabla anterior calcularíamos este porcentaje como:

  • Variación inexplicable = SS residual / SS total
  • Variación inexplicable = 5,9024 / 174,5
  • Variación inexplicable = .0338

También podemos calcular este valor usando la siguiente fórmula:

  • Variación inexplicable = 1 – R 2
  • Variación inexplicable = 1 – 0,96617
  • Variación inexplicable = .0338

El valor de R cuadrado para el modelo nos dice el porcentaje de variación en la variable de respuesta que puede ser explicado por la variable predictora.

Por lo tanto, cuanto menor sea la variación inexplicable, mejor podrá un modelo utilizar las variables predictoras para explicar la variación en la variable de respuesta.

Recursos adicionales

¿Qué es un buen valor R cuadrado?
Cómo calcular R-cuadrado en Excel
Cómo calcular R-cuadrado en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Se utiliza un ANOVA de una vía para determinar si existe o no una diferencia estadísticamente significativa entre las medias…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!