Una guía para el uso de pruebas post hoc con ANOVA

Contenido de este artículo

1 La tasa de error familiar
2 Varias comparaciones en ANOVA
3 Ejemplo: ANOVA unidireccional con pruebas post hoc
4 Prueba de Tukey
5 Método de Holm
6 Corrección de Dunnett
7 Una nota sobre las pruebas post hoc y el poder estadístico
8 Conclusión
9 Redactor del artículo
10 ¿Te hemos ayudado?

Puedes opinar sobre este contenido:

Un ANOVA es una prueba estadística que se utiliza para determinar si existe o no una diferencia estadísticamente significativa entre las medias de tres o más grupos independientes.

Las hipótesis utilizadas en un ANOVA son las siguientes:

La hipótesis nula (H ₀ ): µ ₁ = µ ₂ = µ ₃ =… = µ _k (las medias son iguales para cada grupo)

La hipótesis alternativa: (Ha): al menos una de las medias es diferente a las demás

Si el valor p del ANOVA es menor que el nivel de significancia, podemos rechazar la hipótesis nula y concluir que tenemos evidencia suficiente para decir que al menos una de las medias de los grupos es diferente de las otras.

Sin embargo, esto no nos dice qué grupos son diferentes entre sí. Simplemente nos dice que no todas las medias del grupo son iguales.

Para saber exactamente qué grupos son diferentes entre sí, debemos realizar una prueba post hoc (también conocida como prueba de comparación múltiple), que nos permitirá explorar la diferencia entre las medias de múltiples grupos y al mismo tiempo controlar por la familia. tasa de error inteligente.

Nota técnica: Es importante tener en cuenta que solo necesitamos realizar una prueba post hoc cuando el valor p del ANOVA es estadísticamente significativo. Si el valor p no es estadísticamente significativo, esto indica que las medias de todos los grupos no son diferentes entre sí, por lo que no es necesario realizar una prueba post hoc para averiguar qué grupos son diferentes entre sí.

La tasa de error familiar

Como se mencionó anteriormente, las pruebas post hoc nos permiten probar la diferencia entre las medias de varios grupos y al mismo tiempo controlar la tasa de error familiar .

En una prueba de hipótesis , siempre hay una tasa de error de tipo I, que se define por nuestro nivel de significancia (alfa) y nos dice la probabilidad de rechazar una hipótesis nula que es realmente cierta. En otras palabras, es la probabilidad de obtener un «falso positivo», es decir, cuando afirmamos que hay una diferencia estadísticamente significativa entre los grupos, pero en realidad no la hay.

Cuando realizamos una prueba de hipótesis, la tasa de error de tipo I es igual al nivel de significancia, que comúnmente se elige entre 0.01, 0.05 o 0.10. Sin embargo, cuando realizamos múltiples pruebas de hipótesis a la vez, aumenta la probabilidad de obtener un falso positivo.

Por ejemplo, imagina que lanzamos un dado de 20 caras. La probabilidad de que los dados caigan en un «1» es solo del 5%. Pero si tiramos dos dados a la vez, la probabilidad de que uno de los dados caiga en un «1» aumenta al 9,75%. Si tiramos cinco dados a la vez, la probabilidad aumenta al 22,6%.

Cuantos más dados lancemos, mayor será la probabilidad de que uno de los dados caiga en un «1». De manera similar, si realizamos varias pruebas de hipótesis a la vez utilizando un nivel de significancia de .05, la probabilidad de que obtengamos un falso positivo aumenta más allá de solo 0.05.

Varias comparaciones en ANOVA

Cuando realizamos un ANOVA, a menudo hay tres o más grupos que comparamos entre sí. Por lo tanto, cuando realizamos una prueba post hoc para explorar la diferencia entre las medias de los grupos, hay varias comparaciones por pares que queremos explorar.

Por ejemplo, suponga que tenemos cuatro grupos: A, B, C y D. Esto significa que hay un total de seis comparaciones por pares que queremos ver con una prueba post hoc:

A – B (la diferencia entre la media del grupo A y la media del grupo B)
A – C
A – D
B – C
B – D
C – D

Si tenemos más de cuatro grupos, el número de comparaciones por pares que queremos ver solo aumentará aún más. La siguiente tabla ilustra cuántas comparaciones por pares están asociadas con cada número de grupos junto con la tasa de error por familia:

Observe que la tasa de error familiar aumenta rápidamente a medida que aumenta el número de grupos (y, en consecuencia, el número de comparaciones por pares). De hecho, una vez que llegamos a seis grupos, ¡la probabilidad de que obtengamos un falso positivo es en realidad superior al 50%!

Esto significa que tendríamos serias dudas sobre nuestros resultados si hiciéramos tantas comparaciones por pares, sabiendo que nuestra tasa de error familiar era tan alta.

Afortunadamente, las pruebas post hoc nos brindan una forma de hacer múltiples comparaciones entre grupos mientras se controla la tasa de error familiar.

Ejemplo: ANOVA unidireccional con pruebas post hoc

El siguiente ejemplo ilustra cómo realizar un ANOVA unidireccional con pruebas post hoc.

Nota: Este ejemplo usa el lenguaje de programación R, pero no necesita saber R para comprender los resultados de la prueba o las grandes conclusiones.

Primero, crearemos un conjunto de datos que contiene cuatro grupos (A, B, C, D) con 20 observaciones por grupo:

#Haga que este ejemplo sea reproducible
 set.seed (1)

#cargar biblioteca tidyr para convertir datos de formato ancho a largo
biblioteca (tidyr)

#create un conjunto de datos amplio de
 datos <- data.frame (A = runif (20, 2, 5),
                   B = runif (20, 3, 5),
                   C = runif (20, 3, 6),
                   D = runif (20, 4, 6))

#convertir a un conjunto de datos largo para ANOVA
 data_long <- recopilar (datos, clave = "grupo", valor = "cantidad", A, B, C, D)

#ver las primeras seis líneas del encabezado del conjunto de datos
 (data_long)

# cantidad de grupo
# 1 A 2.796526
# 2 A 3.116372
# 3 A 3.718560
# 4 A 4.724623
# 5 A 2.605046
N.º 6 A 4.695169

A continuación, ajustaremos un ANOVA unidireccional al conjunto de datos:

#fit anova modelo
 anova_model <- aov (cantidad ~ grupo, datos = datos_long)

#ver resumen del resumen del modelo anova
 (anova_model)

# Df Suma Sq Valor medio Sq F Pr (> F)    
#grupo 3 25,37 8,458 17,66 8,53e-09 ***
#Residuos 76 36,39 0,479

De la salida de la tabla ANOVA, vemos que el estadístico F es 17.66 y el valor p correspondiente es extremadamente pequeño.

Esto significa que tenemos suficiente evidencia para rechazar la hipótesis nula de que todas las medias del grupo son iguales. A continuación, podemos usar una prueba post hoc para encontrar qué medias de grupo son diferentes entre sí.

Analizaremos ejemplos de las siguientes pruebas post hoc:

Prueba de Tukey : útil cuando desea realizar todas las comparaciones posibles por pares

Método de Holm : una prueba un poco más conservadora en comparación con la prueba de Tukey

Corrección de Dunnett : útil cuando desea comparar la media de cada grupo con una media de control y no está interesado en comparar las medias del tratamiento entre sí.

Prueba de Tukey

Podemos realizar la prueba de Tukey para comparaciones múltiples utilizando la función R incorporada TukeyHSD () de la siguiente manera:

# realizar la prueba de Tukey para comparaciones múltiples
 TukeyHSD (anova_model, conf.level = .95)

# Tukey comparaciones múltiples de medias
# 95% de nivel de confianza familiar
#
#Ajuste: aov (fórmula = cantidad ~ grupo, datos = datos_longitud)
#
# $ grupo
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371

Observe que especificamos que nuestro nivel de confianza sea del 95%, lo que significa que queremos que nuestra tasa de error familiar sea de .05. R nos da dos métricas para comparar cada diferencia por pares:

Intervalo de confianza para la diferencia de medias (dado por los valores de lwr y upr )
Valor p ajustado para la diferencia de medias

Tanto el intervalo de confianza como el valor p conducirán a la misma conclusión.

Por ejemplo, el intervalo de confianza del 95% para la diferencia de medias entre el grupo C y el grupo A es (0,2813, 1,4309), y dado que este intervalo no contiene cero, sabemos que la diferencia entre las medias de estos dos grupos es estadísticamente significativa. En particular, sabemos que la diferencia es positiva, ya que el límite inferior del intervalo de confianza es mayor que cero.

Asimismo, el valor p para la diferencia de medias entre el grupo C y el grupo A es 0,0011, que es menor que nuestro nivel de significancia de 0,05, por lo que esto también indica que la diferencia entre estas dos medias de grupo es estadísticamente significativa.

También podemos visualizar los intervalos de confianza del 95% que resultan de la prueba de Tukey usando la función plot () en R:

trama (TukeyHSD (anova_model, conf.level = .95))

Si el intervalo contiene cero, entonces sabemos que la diferencia en las medias del grupo no es estadísticamente significativa. En el ejemplo anterior, las diferencias para BA y CB no son estadísticamente significativas, pero las diferencias para las otras cuatro comparaciones por pares son estadísticamente significativas.

Método de Holm

Otra prueba post hoc que podemos realizar es el método de Holm. Esto generalmente se considera una prueba más conservadora en comparación con la prueba de Tukey.

Podemos usar el siguiente código en R para realizar el método de holm para múltiples comparaciones por pares:

# realizar el método de holm para comparaciones múltiples
pairwise.t.test (data_long $ cantidad, data_long $ grupo, p.adjust = "holm") 
# Comparaciones por pares usando pruebas t con SD agrupada 
#
#data: data_long $ amount y data_long $ group 
#
# A B C      
#B 0.20099 - -      
#C 0,00079 0,02108 -      
#D 1.9e-08 3.4e-06 0.01974
#
Método de ajuste del valor #P: holm

Esta prueba proporciona una cuadrícula de valores p para cada comparación por pares. Por ejemplo, el valor p para la diferencia entre la media del grupo A y del grupo B es 0,20099.

Si compara los valores p de esta prueba con los valores p de la prueba de Tukey, notará que cada una de las comparaciones por pares conduce a la misma conclusión, excepto por la diferencia entre el grupo C y D. El valor p para esta diferencia fue de .0505 en la prueba de Tukey en comparación con .02108 en el método de Holm.

Por lo tanto, usando la prueba de Tukey concluimos que la diferencia entre el grupo C y el grupo D no era estadísticamente significativa al nivel de significancia de 0.05, pero usando el método de Holm concluimos que la diferencia entre el grupo C y el grupo D era estadísticamente significativa.

En general, los valores p producidos por el método de Holm tienden a ser más bajos que los producidos por la prueba de Tukey.

Corrección de Dunnett

Otro método que podemos usar para comparaciones múltiples es la Corrección de Dunett. Utilizaríamos este enfoque cuando queremos comparar la media de cada grupo con una media de control, y no estamos interesados en comparar las medias del tratamiento entre sí.

Por ejemplo, usando el código a continuación, comparamos las medias de grupo de B, C y D con las del grupo A. Por lo tanto, usamos el grupo A como nuestro grupo de control y no estamos interesados en las diferencias entre los grupos B, C y D.

#cargar biblioteca multcomp necesaria para usar la corrección de Dunnett
biblioteca (multcomp)

#convertir variable de grupo a factor 
 data_long $ group <- as.factor (data_long $ group)

#fit anova modelo
 anova_model <- aov (cantidad ~ grupo, datos = datos_long)

# realizar comparaciones
 dunnet_comparison <- glht (anova_model, linfct = mcp (group = "Dunnett"))

#ver resumen del resumen de comparaciones
 (dunnet_comparison)

# Comparaciones múltiples de medias: contrastes de Dunnett
#
#Ajuste: aov (fórmula = cantidad ~ grupo, datos = datos_longitud)
#
# Hipótesis lineales:
# Estimar Std. Valor t de error Pr (> | t |)    
#B - A == 0 0,2823 0,2188 1,290 0,432445    
#C - A == 0 0,8561 0,2188 3,912 0,000545 ***
#D - A == 0 1.4676 0.2188 6.707 <1e-04 ***

A partir de los valores p en la salida, podemos ver lo siguiente:

La diferencia entre la media del grupo B y del grupo A no es estadísticamente significativa a un nivel de significación de 0,05. El valor p para esta prueba es 0.4324 .
La diferencia entre la media del grupo C y del grupo A es estadísticamente significativa a un nivel de significación de 0,05. El valor p para esta prueba es 0,0005 .
La diferencia entre la media del grupo D y del grupo A es estadísticamente significativa a un nivel de significación de 0,05. El valor p para esta prueba es 0,00004 .

Como dijimos anteriormente, este enfoque trata al grupo A como el grupo «control» y simplemente compara la media de todos los demás grupos con la del grupo A. Observe que no se realizan pruebas para las diferencias entre los grupos B, C y D porque no estamos No me interesan las diferencias entre esos grupos.

Una nota sobre las pruebas post hoc y el poder estadístico

Las pruebas post hoc hacen un gran trabajo al controlar la tasa de error familiar, pero la compensación es que reducen el poder estadístico de las comparaciones. Esto se debe a que la única forma de reducir la tasa de error familiar es utilizar un nivel de significancia más bajo para todas las comparaciones individuales.

Por ejemplo, cuando usamos la prueba de Tukey para seis comparaciones por pares y queremos mantener una tasa de error familiar de 0.05, debemos usar un nivel de significancia de aproximadamente 0.011 para cada nivel de significancia individual. Cuantas más comparaciones por pares tengamos, menor será el nivel de significancia que debemos usar para cada nivel de significancia individual.

El problema con esto es que los niveles de significancia más bajos corresponden a un poder estadístico más bajo. Esto significa que si existe una diferencia entre las medias de los grupos en la población, es menos probable que la detecte un estudio con menor poder.

Una forma de reducir los efectos de esta compensación es simplemente reducir el número de comparaciones por pares que hacemos. Por ejemplo, en los ejemplos anteriores realizamos seis comparaciones por pares para los cuatro grupos diferentes. Sin embargo, dependiendo de las necesidades de su estudio, es posible que solo le interese hacer algunas comparaciones.

Al hacer menos comparaciones, no es necesario reducir tanto el poder estadístico.

Es importante tener en cuenta que antes de realizar el ANOVA debe determinar exactamente con qué grupos desea realizar comparaciones y qué prueba post hoc utilizará para realizar estas comparaciones. De lo contrario, si simplemente ve qué prueba post hoc produce resultados estadísticamente significativos, eso reduce la integridad del estudio.

Conclusión

En esta publicación, aprendimos las siguientes cosas:

Se utiliza un ANOVA para determinar si existe o no una diferencia estadísticamente significativa entre las medias de tres o más grupos independientes.
Si un ANOVA produce un valor p que es menor que nuestro nivel de significancia, podemos usar pruebas post hoc para averiguar qué medias de grupo difieren entre sí.
Las pruebas post hoc nos permiten controlar la tasa de error familiar mientras realizamos múltiples comparaciones por pares.
La compensación de controlar la tasa de error familiar es un poder estadístico más bajo. Podemos reducir los efectos de un poder estadístico más bajo haciendo menos comparaciones por pares.
Debe determinar de antemano en qué grupos le gustaría hacer comparaciones por pares y qué prueba post hoc utilizará para hacerlo.

https://r-project.org
https://www.python.org/
https://www.stata.com/

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: