Cómo realizar una prueba Anderson-Darling en R

Una prueba de Anderson-Darling es una prueba de bondad de ajuste que mide qué tan bien se ajustan sus datos a una distribución específica. Esta prueba se utiliza con mayor frecuencia para determinar si sus datos siguen una distribución normal .

Este tipo de prueba es útil para probar la normalidad, que es una suposición común utilizada en muchas pruebas estadísticas, incluidas regresión, ANOVA, pruebas t y muchas otras.

Ejemplo: prueba de Anderson-Darling en R

Para realizar una prueba de Anderson-Darling en R, podemos usar la función ad.test () dentro de la biblioteca del norte .

El siguiente código ilustra cómo realizar una prueba de AD para probar si un vector de 100 valores sigue una distribución normal:

#install (si aún no está instalado) y carga la biblioteca Nortest
install.packages ('noreste')
biblioteca (noreste)

#Haga que este ejemplo sea reproducible
set.seed (1)

# vector definido de 100 valores que se distribuyen normalmente
 x <- rnorm (100, 0, 1)

# realizar la prueba Anderson-Darling para comprobar la normalidad
ad.test (x)

# 	Prueba de normalidad de Anderson-Darling
#
#data: x
#A = 0.16021, valor p = 0.9471

Esta prueba devuelve dos valores:

A : la estadística de prueba.

valor p : el valor p correspondiente del estadístico de prueba.

La hipótesis nula de la prueba AD es que los datos que hace siguen una distribución normal. Por lo tanto, si nuestro valor p para la prueba está por debajo de nuestro nivel de significancia (las opciones comunes son 0.10, 0.05 y 0.01), entonces podemos rechazar la hipótesis nula y concluir que tenemos evidencia suficiente para decir que nuestros datos no siguen un valor normal. distribución.

En este caso, nuestro valor p es 0.9471. Dado que esto no está por debajo de nuestro nivel de significancia (digamos .05), no tenemos evidencia suficiente para rechazar la hipótesis nula. Es seguro decir que nuestros datos siguen una distribución normal, lo cual tiene sentido considerando que generamos 100 valores que siguen una distribución normal con una media de 0 y una desviación estándar de 1 usando la función rnorm () en R.

Relacionado: Una guía para dnorm, pnorm, qnorm y rnorm en R

Supongamos, en cambio, que generamos un vector de 100 valores que siguen una distribución uniforme entre 0 y 1. Podemos realizar una prueba AD una vez más para ver si estos datos siguen una distribución normal:

#Haga que este ejemplo sea reproducible
 set.seed (1)

# vector definido de 100 valores que se distribuyen uniformemente
 x <- runif (100, 0, 1)

#conduct Anderson-Darling Test para probar la normalidad
 ad.test (x)

# Prueba de normalidad de Anderson-Darling
#
#data: x
#A = 1,1472, valor p = 0,005086

Nuestro estadístico de prueba A es igual a 1,1472 y el valor p correspondiente es igual a 0,005086. Dado que nuestro valor p es menor que 0.05, podemos rechazar la hipótesis nula y concluir que tenemos evidencia suficiente para decir que estos datos no siguen una distribución normal. Esto coincide con el resultado que esperábamos, ya que sabemos que nuestros datos siguen una distribución uniforme.

Realización de una prueba de Anderson-Darling en una columna de un marco de datos en R

También podemos realizar una prueba AD para una columna específica de un marco de datos en R. Por ejemplo, considere el conjunto de datos de iris incorporado :

#ver las primeras seis líneas del conjunto de datos de iris
cabeza (iris)

# Sepal.Length Sepal.Width Petal.Length Petal.Width Especies
# 1 5,1 3,5 1,4 0,2 setosa
# 2 4,9 3,0 1,4 0,2 setosa
# 3 4,7 3,2 1,3 0,2 setosa
# 4 4,6 3,1 1,5 0,2 setosa
# 5 5.0 3.6 1.4 0.2 setosa
# 6 5,4 3,9 1,7 0,4 setosa

Supongamos que queremos saber si la variable Petal.Width se distribuye normalmente. Primero podríamos crear un histograma para visualizar la distribución de valores:

hist (iris $ Petal.Width, col = 'steelblue', main = 'Distribución de los anchos de los pétalos',
     xlab = 'Ancho del pétalo')

Distribución de los anchos de los pétalos en el conjunto de datos del iris en R

Los datos no parecen estar distribuidos normalmente. Para confirmar esto, podemos realizar una prueba de AD para probar formalmente si los datos se distribuyen normalmente o no:

#conduct Anderson-Darling Test para probar la normalidad
 ad.test (iris $ Petal.Width)

# Prueba de normalidad de Anderson-Darling
#
#data: iris $ Petal.Width
#A = 5.1057, valor p = 1.125e-12

El valor p de la prueba es menor que 0.05, por lo que tenemos evidencia suficiente para rechazar la hipótesis nula y concluir que Petal.Width no sigue una distribución normal.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La correlación punto-biserial se utiliza para medir la relación entre una variable binaria, x, y una variable continua, y. Similar…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!