Una guía para la prueba de esfericidad de Bartlett

La prueba de esfericidad de Bartlett compara una matriz de correlación observada con la matriz de identidad. Básicamente, comprueba si existe cierta redundancia entre las variables que podemos resumir con unos pocos factores.

La hipótesis nula de la prueba es que las variables son ortogonales, es decir, no correlacionadas. La hipótesis alternativa es que las variables no son ortogonales, es decir, están lo suficientemente correlacionadas con el lugar donde la matriz de correlación diverge significativamente de la matriz de identidad.

Esta prueba a menudo se realiza antes de que usemos una técnica de reducción de datos, como el análisis de componentes principales o el análisis de factores, para verificar que una técnica de reducción de datos realmente puede comprimir los datos de una manera significativa.

Nota: la prueba de esfericidad de Bartlett no es la misma que la prueba de igualdad de varianzas de Bartlett . Esta es una confusión común, ya que los dos tienen nombres similares.

Matriz de correlación vs.Matriz de identidad

Una matriz de correlación es simplemente una matriz de valores que muestra los coeficientes de correlación entre variables. Por ejemplo, la siguiente matriz de correlación muestra los coeficientes de correlación entre diferentes variables para equipos profesionales de baloncesto.

Ejemplo de matriz de correlación

Los coeficientes de correlación pueden variar de -1 a 1. Cuanto más lejos esté un valor de 0, mayor será la correlación entre dos variables.

Una matriz de identidad es una matriz en la que todos los valores a lo largo de la diagonal son 1 y todos los demás valores son 0.

Imagen de ejemplo de matriz de identidad

En este caso, si los números en esta matriz representan coeficientes de correlación, significa que cada variable es perfectamente ortogonal (es decir, «no correlacionada») a todas las demás variables y, por lo tanto, una técnica de reducción de datos como PCA o análisis factorial no podría «comprimir» los datos de forma significativa.

Por lo tanto, la razón por la que llevamos a cabo la Prueba de esfericidad de Bartlett es para asegurarnos de que la matriz de correlación de las variables en nuestro conjunto de datos difiera significativamente de la matriz de identidad, de modo que sepamos que una técnica de reducción de datos es adecuada para su uso.

Si el valor p de la Prueba de esfericidad de Bartlett es más bajo que nuestro nivel de significancia elegido (las opciones comunes son 0.10, 0.05 y 0.01), entonces nuestro conjunto de datos es adecuado para una técnica de reducción de datos.

Cómo realizar la prueba de esfericidad de Bartlett en R

Para realizar la prueba de esfericidad de Bartlett en R, podemos usar la función cortest.bartlett () de la biblioteca psicológica . La sintaxis general de esta función es la siguiente:

cortest.bartlett (R, n)

  • R: una matriz de correlación del conjunto de datos
  • n: tamaño de muestra del conjunto de datos

El siguiente código ilustra cómo realizar esta prueba en un conjunto de datos falso que creamos:

#Haga que este ejemplo sea reproducible
 set.seed (0)

#crear datos falsos
 <- data.frame (A = rnorm (50, 1, 4), B = rnorm (50, 3, 6), C = rnorm (50, 5, 8))

#ver las primeras seis filas del encabezado de datos
 (datos)
# A B C
# 1 6.0518171 4.5968242 11.25487348
# 2 -0.3049334 0.7397837 -1.21421297
# 3 6.3191971 17.6481878 0.07208074
# 4 6.0897173 -1.7720347 5.37264242
# 5 2.6585657 2.6707352 -4.04308622
# 6 -5.1598002 4.5008479 9.61375026

# encontrar la matriz de correlación de datos
 cor_matrix <- cor (datos)

#ver matriz de correlación
 cor_matrix

# A B C
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#cargar biblioteca psicológica
biblioteca (psiquiatra)

#realice la prueba de esfericidad de Bartlett
 cortest.bartlett (cor_matrix, n = nrow (datos))

# $ chisq
# [1] 5.252329
#
# $ p.value
# [1] 0.1542258
#
# $ df
# [1] 3

El estadístico de la prueba de chi-cuadrado es 5.252329 y el valor p correspondiente es 0.1542258, que no es menor que nuestro nivel de significancia (usemos 0.05). Por lo tanto, es probable que estos datos no sean adecuados para PCA o análisis factorial.

Para poner esto en términos sencillos, las tres variables en nuestro conjunto de datos no están correlacionadas, por lo que una técnica de reducción de datos como PCA o análisis factorial tendría dificultades para comprimir estas variables en combinaciones lineales que sean capaces de capturar la varianza significativa presente en los datos.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, en estadística, nos interesa determinar el valor p asociado con una determinada puntuación t que resulta de una…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!