Cómo verificar los supuestos de ANOVA

Actualizado por ultima vez el 7 de mayo de 2021, por Luis Benites.

Un ANOVA de una vía es una prueba estadística que se utiliza para determinar si existe o no una diferencia significativa entre las medias de tres o más grupos independientes.

Aquí hay un ejemplo de cuándo podríamos usar un ANOVA unidireccional:

Divide al azar una clase de 90 estudiantes en tres grupos de 30. Cada grupo usa una técnica de estudio diferente durante un mes para prepararse para un examen. Al final del mes, todos los estudiantes toman el mismo examen.

Desea saber si la técnica de estudio tiene o no un impacto en los puntajes del examen, por lo que realiza un ANOVA de una vía para determinar si hay una diferencia estadísticamente significativa entre los puntajes medios de los tres grupos.

Antes de que podamos realizar un ANOVA unidireccional, primero debemos verificar para asegurarnos de que se cumplan tres suposiciones.

1. Normalidad : cada muestra se extrajo de una población distribuida normalmente.

2. Varianzas iguales : las varianzas de las poblaciones de las que provienen las muestras son iguales.

3. Independencia : las observaciones de cada grupo son independientes entre sí y las observaciones dentro de los grupos se obtuvieron mediante una muestra aleatoria.

Si no se cumplen estas suposiciones, los resultados de nuestro ANOVA unidireccional podrían no ser confiables.

En esta publicación, explicamos cómo verificar estas suposiciones junto con qué hacer si se viola alguna de las suposiciones.

Supuesto n. ° 1: normalidad

ANOVA asume que cada muestra se extrajo de una población distribuida normalmente.

Cómo verificar esta suposición en R:

Para verificar esta suposición, podemos usar dos enfoques:

  • Verifique la suposición visualmente usando histogramas o gráficos QQ .
  • Verifique la suposición utilizando pruebas estadísticas formales como Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre o D’Agostino-Pearson.

Por ejemplo, supongamos que reclutamos a 90 personas para que participen en un experimento de pérdida de peso en el que asignamos al azar a 30 personas para que sigan el programa A, el programa B o el programa C durante un mes. Para ver si el programa tiene un impacto en la pérdida de peso, queremos realizar un ANOVA de una vía. El siguiente código ilustra cómo verificar la suposición de normalidad usando histogramas, gráficos QQ y una prueba de Shapiro-Wilk.

1. Ajuste el modelo ANOVA.

#Haga que este ejemplo sea reproducible
 set.seed (0)

#create marco de datos
datos <- datos. marco (programa = rep (c (" A ", " B ", " C "), cada uno = 30 ),
                   pérdida_de_peso = c (runif (30, 0, 3),
                                   runif (30, 0, 5),
                                   runif (30, 1, 7)))

#ajuste el modelo ANOVA unidireccional
modelo <- aov (programa de pérdida de peso ~, datos = datos)

2. Cree un histograma de valores de respuesta.

#crear histograma
hist (datos $ weight_loss)

La distribución no parece distribuida de manera muy normal (por ejemplo, no tiene forma de “campana”), pero también podemos crear un gráfico QQ para ver de nuevo la distribución.

3. Cree una gráfica QQ de residuos

#cree un gráfico QQ para comparar este conjunto de datos con una distribución normal teórica 
qqnorm (modelo $ residuales)

#add una línea diagonal recta para trazar
 qqline (modelo $ residuales)

Ejemplo de gráfico QQ en R

En general, si los puntos de datos caen a lo largo de una línea diagonal recta en una gráfica QQ, es probable que el conjunto de datos siga una distribución normal. En este caso, podemos ver que hay una desviación notable de la línea a lo largo de los extremos de la cola, lo que podría indicar que los datos no se distribuyen normalmente.

4. Realice la prueba de normalidad de Shapiro-Wilk.

#Conducir la prueba de Shapiro-Wilk para la normalidad 
shapiro. prueba (datos $ weight_loss)

# Prueba de normalidad de Shapiro-Wilk
#
#data: data $ weight_loss
#W = 0.9587, valor p = 0.005999

La prueba de Shapiro-Wilk prueba la hipótesis nula de que las muestras provienen de una distribución normal frente a la hipótesis alternativa de que las muestras no provienen de una distribución normal. En este caso, el valor p de la prueba es 0.005999 , que es menor que el nivel alfa de 0.05. Esto sugiere que las muestras no tienen una distribución normal.

Qué hacer si se viola esta suposición:

En general, se considera que un ANOVA unidireccional es bastante robusto frente a violaciones del supuesto de normalidad siempre que los tamaños de muestra sean lo suficientemente grandes.

Además, si tiene tamaños de muestra extremadamente grandes, las pruebas estadísticas como la prueba de Shapiro-Wilk casi siempre le dirán que sus datos no son normales. Por esta razón, a menudo es mejor inspeccionar sus datos visualmente usando gráficos como histogramas y diagramas QQ. Con solo mirar los gráficos, puede tener una idea bastante clara de si los datos se distribuyen normalmente o no.

Si el supuesto de normalidad se viola gravemente o si solo quiere ser más conservador, tiene dos opciones:

(1) Transforme los valores de respuesta de sus datos para que las distribuciones se distribuyan más normalmente.

(2) Realice una prueba no paramétrica equivalente como la prueba de Kruskal-Wallis que no requiere la suposición de normalidad.

Supuesto n. ° 2: varianza igual

ANOVA asume que las varianzas de las poblaciones de las que provienen las muestras son iguales.

Cómo verificar esta suposición en R:

Podemos verificar esta suposición en R usando dos enfoques:

  • Verifique la suposición visualmente usando diagramas de caja.
  • Verifique la suposición utilizando pruebas estadísticas formales como la prueba de Bartlett.

El siguiente código ilustra cómo hacerlo, utilizando el mismo conjunto de datos de pérdida de peso falso que creamos anteriormente.

1. Cree diagramas de caja.

#Crear diagramas de caja que muestren la distribución de la pérdida de peso para cada grupo de 
diagramas de caja (weight_loss ~ program, xlab = ' Program ', ylab = ' Weight Loss ', data = data)

La varianza de la pérdida de peso en cada grupo se puede ver por la longitud de cada diagrama de caja. Cuanto más larga sea la caja, mayor será la varianza. Por ejemplo, podemos ver que la varianza es un poco mayor para los participantes del programa C en comparación con el programa A y el programa B.

2. Realice la prueba de Bartlett.

#Crear diagramas de caja que muestren la distribución de la pérdida de peso para cada grupo 
bartlett. prueba (peso_pérdida ~ programa, datos = datos)

#Prueba de Bartlett de homogeneidad de varianzas
#
#data: weight_loss por programa
# K-cuadrado de Bartlett = 8.2713, gl = 2, valor p = 0.01599

La prueba de Bartlett prueba la hipótesis nula de que las muestras tienen varianzas iguales frente a la hipótesis alternativa de que las muestras no tienen varianzas iguales. En este caso, el valor p de la prueba es 0.01599 , que es menor que el nivel alfa de 0.05. Esto sugiere que no todas las muestras tienen varianzas iguales.

Qué hacer si se viola esta suposición:

En general, se considera que un ANOVA unidireccional es bastante robusto frente a violaciones del supuesto de varianzas iguales siempre que cada grupo tenga el mismo tamaño de muestra.

Sin embargo, si los tamaños de las muestras no son los mismos y esta suposición se viola gravemente, podría ejecutar una prueba de Kruskal-Wallis , que es la versión no paramétrica del ANOVA unidireccional.

Supuesto # 3: Independencia

ANOVA asume:

  • Las observaciones de cada grupo son independientes de las observaciones de los demás grupos.
  • Las observaciones dentro de cada grupo se obtuvieron mediante una muestra aleatoria.

Cómo comprobar esta suposición:

No existe una prueba formal que pueda utilizar para verificar que las observaciones de cada grupo son independientes y que se obtuvieron mediante una muestra aleatoria.La única forma en que se puede satisfacer esta suposición es si se utilizó un diseño aleatorio.

Qué hacer si se viola esta suposición:

Desafortunadamente, es muy poco lo que puede hacer si se viola esta suposición. En pocas palabras, si los datos se recopilaron de una manera en la que las observaciones en cada grupo no son independientes de las observaciones en otros grupos, o si las observaciones dentro de cada grupo no se obtuvieron a través de un proceso aleatorio, los resultados del ANOVA no serán confiables.

Si se viola esta suposición, lo mejor que puede hacer es configurar el experimento nuevamente de una manera que utilice un diseño aleatorio.

Otras lecturas:

Cómo realizar un ANOVA unidireccional en R
Cómo realizar un ANOVA unidireccional en Excel

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Las siguientes tablas proporcionan valores críticos para las pruebas U de Mann-Whitney de dos colas para varios niveles de alfa.…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!