¿Qué es el supuesto de igual varianza en las estadísticas?

Muchas pruebas estadísticas suponen una varianza igual . Si se viola esta suposición, los resultados de las pruebas se vuelven poco fiables.

Las pruebas y procedimientos estadísticos más comunes que hacen esta suposición de varianza igual incluyen:

1. ANOVA

2. pruebas t

3. Regresión lineal

Este tutorial explica la suposición hecha para cada prueba, cómo determinar si esta suposición se cumple y qué hacer si se viola.

Supuesto de varianza igual en ANOVA

Se utiliza un ANOVA («Análisis de varianza») para determinar si existe o no una diferencia significativa entre las medias de tres o más grupos independientes.

Aquí hay un ejemplo de cuándo podríamos usar un ANOVA:

Supongamos que reclutamos a 90 personas para que participen en un experimento de pérdida de peso. Asignamos aleatoriamente a 30 personas para que utilicen el programa A, B o C durante un mes.

Para ver si el programa tiene un impacto en la pérdida de peso, podemos realizar un ANOVA de una vía .

Un ANOVA asume que cada uno de los grupos tiene la misma varianza. Hay dos formas de probar si se cumple esta suposición:

1. Cree diagramas de caja.

Los diagramas de caja ofrecen una forma visual de comprobar el supuesto de varianzas iguales.

La varianza de la pérdida de peso en cada grupo se puede ver por la longitud de cada diagrama de caja. Cuanto más larga sea la caja, mayor será la varianza. Por ejemplo, podemos ver que la varianza es un poco mayor para los participantes del programa C en comparación con el programa A y el programa B.

2. Realice la prueba de Bartlett.

La prueba de Bartlett prueba la hipótesis nula de que las muestras tienen varianzas iguales frente a la hipótesis alternativa de que las muestras no tienen varianzas iguales.

Si el valor p de la prueba es menor que algún nivel de significancia (como 0.05), entonces tenemos evidencia para decir que no todas las muestras tienen varianzas iguales.

¿Qué pasa si se viola el supuesto de varianza igual?

En general, se considera que los ANOVA son bastante robustos frente a las violaciones del supuesto de varianzas iguales siempre que cada grupo tenga el mismo tamaño de muestra.

Sin embargo, si los tamaños de las muestras no son los mismos y esta suposición se viola gravemente, podría ejecutar una prueba de Kruskal-Wallis , que es la versión no paramétrica del ANOVA unidireccional.

Supuesto de varianza igual en pruebas t

Se utiliza una prueba t de dos muestras para comprobar si las medias de dos poblaciones son iguales o no.

La prueba asume que las varianzas son iguales entre los dos grupos. Hay dos formas de probar si se cumple esta suposición:

1. Utilice la regla general de la proporción.

Como regla general, si la relación entre la varianza más grande y la varianza más pequeña es menor que 4, entonces podemos asumir que las varianzas son aproximadamente iguales y usar la prueba t de dos muestras.

Por ejemplo, suponga que la muestra 1 tiene una varianza de 24,5 y la muestra 2 tiene una varianza de 15,2. La relación entre la varianza de la muestra más grande y la varianza de la muestra más pequeña se calcularía como 24,5 / 15,2 = 1,61.

Dado que esta razón es menor que 4, podríamos asumir que las varianzas entre los dos grupos son aproximadamente iguales.

2. Realice una prueba F.

La prueba F prueba la hipótesis nula de que las muestras tienen varianzas iguales frente a la hipótesis alternativa de que las muestras no tienen varianzas iguales.

Si el valor p de la prueba es menor que algún nivel de significancia (como 0.05), entonces tenemos evidencia para decir que no todas las muestras tienen varianzas iguales.

¿Qué pasa si se viola el supuesto de varianza igual?

Si se viola esta suposición, podemos realizar la prueba t de Welch , que es una versión no paramétrica de la prueba t de dos muestras y no supone que las dos muestras tengan varianzas iguales.

Supuesto de igual varianza en regresión lineal

La regresión lineal se utiliza para cuantificar la relación entre una o más variables predictoras y una variable de respuesta.

La regresión lineal presupone que los residuos tienen una varianza constante en cada nivel de las variables predictoras. Esto se conoce como homocedasticidad . Cuando este no es el caso, se dice que los residuos sufren de heterocedasticidad y los resultados del análisis de regresión se vuelven poco confiables.

La forma más común de determinar si se cumple esta suposición es crear una gráfica de residuos frente a valores ajustados. Si los residuos en este gráfico parecen estar dispersos aleatoriamente alrededor de cero, entonces es probable que se cumpla el supuesto de homocedasticidad.

Sin embargo, si existe un patrón sistemático en los residuos, como la forma de «cono» en la siguiente gráfica, entonces la heterocedasticidad es un problema:

¿Qué pasa si se viola el supuesto de varianza igual?

Si se viola esta suposición, la forma más común de lidiar con ella es transformar la variable de respuesta usando una de las tres transformaciones:

1. Transformación logarítmica : transforme la variable de respuesta de y a log (y) .

2. Transformación de raíz cuadrada: transforme la variable de respuesta de y en y .

3. Transformación de raíz cúbica: transforma la variable de respuesta de yay 1/3 .

Al realizar estas transformaciones, el problema de la heterocedasticidad suele desaparecer.

Otra forma de corregir la heterocedasticidad es utilizar la regresión de mínimos cuadrados ponderados . Este tipo de regresión asigna un peso a cada punto de datos en función de la varianza de su valor ajustado.

Esencialmente, esto da pequeños pesos a los puntos de datos que tienen variaciones más altas, lo que reduce sus residuos al cuadrado. Cuando se utilizan los pesos adecuados, esto puede eliminar el problema de la heterocedasticidad.

Recursos adicionales

Los tres supuestos hechos en un ANOVA
Los cuatro supuestos hechos en una prueba T
Los cuatro supuestos de la regresión lineal

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, es posible que desee trazar una curva suave en Matplotlib para un gráfico de líneas. Afortunadamente, esto es…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!