Cómo realizar una prueba t de muestras emparejadas en R

Actualizado por ultima vez el 7 de mayo de 2021, por .

Una prueba t de muestras pareadas es una prueba estadística que compara las medias de dos muestras cuando cada observación en una muestra se puede emparejar con una observación en la otra muestra.

Por ejemplo, supongamos que queremos saber si un determinado programa de estudios tiene un impacto significativo en el rendimiento de los estudiantes en un examen en particular. Para probar esto, tenemos 20 estudiantes en una clase que toman una prueba previa. Luego, hacemos que cada uno de los estudiantes participe en el programa de estudio todos los días durante dos semanas. Luego, los alumnos vuelven a realizar una prueba de similar dificultad.

Para comparar la diferencia entre las puntuaciones medias en la primera y la segunda prueba, utilizamos una prueba t pareada porque para cada estudiante la puntuación de la primera prueba se puede emparejar con la puntuación de la segunda prueba.

Cómo realizar una prueba t pareada

Para realizar una prueba t pareada, podemos utilizar el siguiente enfoque:

Paso 1: Enuncie las hipótesis nula y alternativa.

H 0 : μ d = 0

H a : μ d ≠ 0 (dos colas)
H a : μ d > 0 (una cola)
H a : μ d <0 (una cola)

donde μ d es la diferencia media.

Paso 2: Encuentre el estadístico de prueba y el valor p correspondiente.

Sea a = la puntuación del estudiante en la primera prueba yb = la puntuación del estudiante en la segunda prueba. Para probar la hipótesis nula de que la verdadera diferencia media entre las puntuaciones de la prueba es cero:

  • Calcule la diferencia entre cada par de puntuaciones (d i = b i – a i )
  • Calcule la diferencia media (d)
  • Calcule la desviación estándar de las diferencias s d
  • Calcule el estadístico t, que es T = d / (s d / √n)
  • Encuentre el valor p correspondiente para el estadístico t con n-1 grados de libertad.

Paso 3: Rechace o no rechace la hipótesis nula, según el nivel de significancia.

Si el valor p es menor que nuestro nivel de significancia elegido, rechazamos la hipótesis nula y concluimos que existe una diferencia estadísticamente significativa entre las medias de los dos grupos. De lo contrario, no rechazamos la hipótesis nula.

Cómo realizar una prueba t emparejada en R

Para realizar una prueba t pareada en R, podemos usar la función t.test () incorporada con la siguiente sintaxis:

t.test (x, y, paired = TRUE, Alternative = «two.sided»)

  • x, y: los dos vectores numéricos que deseamos comparar
  • emparejado: un valor lógico que especifica que queremos calcular una prueba t emparejada
  • alternativa: la hipótesis alternativa. Esto se puede configurar en «dos caras» (predeterminado), «mayor» o «menor».

El siguiente ejemplo ilustra cómo realizar una prueba t emparejada para averiguar si hay una diferencia significativa en las puntuaciones medias entre una prueba previa y una prueba posterior para 20 estudiantes.

Crear los datos

Primero, crearemos el conjunto de datos:

#create el conjunto de datos
data <- data.frame (puntuación = c (85, 85, 78, 78, 92, 94, 91, 85, 72, 97,
                             84, 95, 99, 80, 90, 88, 95, 90, 96, 89,
                             84, 88, 88, 90, 92, 93, 91, 85, 80, 93,
                             97, 100, 93, 91, 90, 87, 94, 83, 92, 95),
                   grupo = c (rep ('pre', 20), rep ('post', 20)))

#ver los datos del conjunto de
 datos

# grupo de puntuación
# 1 85 pre
# 2 85 pre
# 3 78 pre
# 4 78 pre
# 5 92 pre
# 6 94 pre
# 7 91 pre
# 8 85 pre
# 9 72 pre
# 10 97 pre
# 11 84 pre
# 12 95 pre
# 13 99 pre
# 14 80 pre
# 15 90 pre
# 16 88 pre
# 17 95 pre
# 18 90 pre
# 19 96 pre
# 20 89 pre
# 21 84 publicación
# 22 88 publicación
# 23 88 publicación
# 24 90 publicación
# 25 92 publicación
# 26 93 publicación
# 27 91 publicación
# 28 85 publicación
# 29 80 publicación
# 30 93 publicación
# 31 97 publicación
# 32100 publicación
# 33 93 publicación
# 34 91 publicación
# 35 90 publicación
# 36 87 publicación
# 37 94 publicación
# 38 83 publicación
# 39 92 publicación
# 40 95 publicación

Visualiza las diferencias

A continuación, vamos a ver en el resumen estadístico de los dos grupos utilizando el group_by () y resume () funciones de la dplyr biblioteca:

#load dplyr biblioteca
 biblioteca (dplyr)

# encontrar el tamaño de la muestra, la media y la desviación estándar para cada grupo
datos%>%
   grupo_por (grupo)%>%
   resumen (
    cuenta = n (),
    media = media (puntuación),
    sd = sd (puntuación)
  )

# A tibble: 2 x 4
# grupo cuenta media sd
#     
# 1 publicación 20 90,3 4,88
# 2 anterior a 20 88,2 7,24

También podemos crear diagramas de caja usando la función boxplot () en R para ver la distribución de puntajes para los grupos pre y post:

diagrama de caja (puntuación ~ grupo,
  datos = datos,
  main = "Puntajes de prueba por grupo",
  xlab = "Grupo",
  ylab = "Puntuación",
  col = "azul acero",
  border = "negro"
)

Diagramas de caja en R

Tanto a partir de las estadísticas de resumen como de los diagramas de caja, podemos ver que la puntuación media en el grupo posterior es ligeramente superior a la puntuación media en el grupo anterior . También podemos ver que las puntuaciones del grupo posterior tienen menos variabilidad que las puntuaciones del grupo anterior .

Para averiguar si la diferencia entre las medias de estos dos grupos es estadísticamente significativa, podemos proceder a realizar una prueba t pareada.

Realizar una prueba t pareada

Antes de realizar la prueba t pareada, debemos comprobar que la distribución de las diferencias se distribuye normalmente (o aproximadamente normalmente). Para hacerlo, podemos crear un nuevo vector definido como la diferencia entre las puntuaciones pre y post, y realizar una prueba shapiro-wilk de normalidad en este vector de valores:

#definir un nuevo vector para la diferencia entre las diferencias de puntajes posteriores y previos
 <- con (datos, puntaje [grupo == "publicación"] - puntaje [grupo == "pre"])

#realice la prueba de normalidad de shapiro-wilk en este vector de valores
 shapiro.test (diferencias)

# Prueba de normalidad de Shapiro-Wilk
#
#data: diferencias
#W = 0.92307, valor p = 0.1135
#

El valor p de la prueba es 0,1135, que es mayor que alfa = 0,05. Por lo tanto, no rechazamos la hipótesis nula de que nuestros datos se distribuyen normalmente. Esto significa que ahora podemos proceder a realizar la prueba t pareada.

Podemos usar el siguiente código para realizar una prueba t emparejada:

t.test (puntuación ~ grupo, datos = datos, emparejados = VERDADERO)

# Prueba t pareada
#
#data: puntuación por grupo
#t = 1.588, gl = 19, valor p = 0.1288
# hipótesis alternativa: la verdadera diferencia de medias no es igual a 0
# Intervalo de confianza del 95 por ciento:
# -0.6837307 4.9837307
# estimaciones de muestra:
#medio de las diferencias 
N.º 2.15 

En la salida, podemos ver que:

  • El estadístico de prueba t es 1.588 .
  • El valor p para este estadístico de prueba con 19 grados de libertad (gl) es 0,1288 .
  • El intervalo de confianza del 95% para la diferencia de medias es (-0,6837, 4,9837) .
  • La diferencia media entre las puntuaciones del grupo pre y post es 2,15 .

Por lo tanto, dado que nuestro valor p es menor que nuestro nivel de significancia de 0.05, no rechazaremos la hipótesis nula de que los dos grupos tienen medias estadísticamente significativas. En otras palabras, no tenemos evidencia suficiente para decir que las puntuaciones medias entre los grupos pre y post sean estadísticamente significativamente diferentes. Esto significa que el programa de estudio no tuvo un efecto significativo en los puntajes de las pruebas.

Además, nuestro intervalo de confianza del 95% dice que tenemos un “95% de confianza” en que la verdadera diferencia media entre los dos grupos está entre -0,6837 y 4,9837 . Dado que el valor cero está contenido en este intervalo de confianza, esto significa que cero podría ser la verdadera diferencia entre las puntuaciones medias, por lo que no rechazamos la hipótesis nula en este caso.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, la correlación es una medida de la relación lineal entre dos variables. El valor de un coeficiente de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!