Una explicación simple de la importancia estadística frente a la práctica

Actualizado por ultima vez el 7 de mayo de 2021, por .

Una hipótesis estadística es una suposición sobre un parámetro de población . Por ejemplo, podemos suponer que la altura media de un hombre en un determinado condado es de 68 pulgadas. La suposición sobre la altura es la hipótesis estadística y la verdadera altura media de un hombre en los EE. UU. Es el parámetro de población .

Una prueba de hipótesis es una prueba estadística formal que utilizamos para rechazar o no rechazar una hipótesis estadística. Para realizar una prueba de hipótesis, obtenemos una muestra aleatoria de la población y determinamos si es probable que se hayan producido los datos de la muestra, dado que la hipótesis nula es verdadera.

Si los datos de la muestra son suficientemente improbables bajo ese supuesto, entonces podemos rechazar la hipótesis nula y concluir que existe un efecto.

La forma en que determinamos si los datos de la muestra son o no «suficientemente improbables» bajo el supuesto de que el nulo es verdadero es definir algún nivel de significancia (típicamente elegido para ser 0.01, 0.05 o 0.10) y luego verificar si la p- El valor de la prueba de hipótesis es menor que ese nivel de significancia.

Si el valor p es menor que el nivel de significancia, decimos que los resultados son estadísticamente significativos . Esto simplemente significa que existe algún efecto, pero no significa necesariamente que el efecto sea realmente práctico en el mundo real. Los resultados pueden ser estadísticamente significativos sin ser prácticamente significativos .

Relacionado: Una explicación de los valores P y la importancia estadística

Significado práctico

Es posible que las pruebas de hipótesis produzcan resultados estadísticamente significativos, a pesar de tener un tamaño de efecto pequeño. Hay dos formas principales en que los tamaños de efecto pequeños pueden producir valores p pequeños (y, por lo tanto, estadísticamente significativos):

1. La variabilidad en los datos de la muestra es muy baja. Cuando los datos de su muestra tienen baja variabilidad, una prueba de hipótesis puede producir estimaciones más precisas del efecto de la población, lo que permite que la prueba detecte incluso efectos pequeños.

Por ejemplo, suponga que queremos realizar una prueba t independiente de dos muestras en las siguientes dos muestras que muestran los puntajes de las pruebas de 20 estudiantes de dos escuelas diferentes para determinar si las puntuaciones medias de las pruebas son significativamente diferentes entre las escuelas:

muestra 1:85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
muestra 2:87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

La media de la muestra 1 es 85,55 y la media de la muestra 2 es 86,40 .Cuando realizamos una prueba t independiente de dos muestras, resulta que el estadístico de la prueba es -5.3065 y el valor p correspondiente es <.0001 . La diferencia entre las puntuaciones de las pruebas es estadísticamente significativa.

La diferencia entre las puntuaciones medias de las pruebas para estas dos muestras es solo de 0,85 , pero la baja variabilidad en las puntuaciones de las pruebas para cada escuela provoca un resultado estadísticamente significativo. Tenga en cuenta que la desviación estándar de las puntuaciones es 0,51 para la muestra 1 y 0,50 para la muestra 2.

Esta baja variabilidad es lo que permitió a la prueba de hipótesis detectar la pequeña diferencia en las puntuaciones y permitir que las diferencias fueran estadísticamente significativas.

La razón subyacente por la que la baja variabilidad puede llevar a conclusiones estadísticamente significativas es que el estadístico de prueba t para una prueba t independiente de dos muestras se calcula como:

estadístico de prueba t = [( x 1x 2 ) – d] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

donde s 2 1 y s 2 2 indican la variación de la muestra para la muestra 1 y la muestra 2, respectivamente. Observe que cuando estos dos números son pequeños, todo el denominador del estadístico de prueba t es pequeño.

Y cuando dividimos por un número pequeño, terminamos con un número grande. Esto significa que el estadístico de prueba t será grande y el valor p correspondiente será pequeño, lo que conducirá a resultados estadísticamente significativos.

2. El tamaño de la muestra es muy grande.Cuanto mayor sea el tamaño de la muestra, mayor será el poder estadístico de una prueba de hipótesis, lo que le permite detectar incluso efectos pequeños. Esto puede conducir a resultados estadísticamente significativos, a pesar de los pequeños efectos que pueden no tener importancia práctica.

Por ejemplo, suponga que queremos realizar una prueba t independiente de dos muestras en las siguientes dos muestras que muestran los puntajes de las pruebas de 20 estudiantes de dos escuelas diferentes para determinar si las puntuaciones medias de las pruebas son significativamente diferentes entre las escuelas:

Muestra 1:88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Muestra 2:95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

Si creamos una gráfica de caja para cada muestra para mostrar la distribución de puntajes, podemos ver que se ven muy similares:

Diagramas de caja en R

La media de la muestra 1 es 90,65 y la media de la muestra 2 es 90,75 . La desviación estándar de la muestra 1 es 2,77 y la desviación estándar de la muestra 2 es 2,78 .Cuando realizamos una prueba t independiente de dos muestras, resulta que el estadístico de la prueba es -0,113 y el valor p correspondiente es 0,91 . La diferencia entre las puntuaciones medias de las pruebas no es estadísticamente significativa.

Sin embargo, considere si los tamaños de muestra de las dos muestras eran ambos de 200 . En este caso, una prueba t independiente de dos muestras revelaría que el estadístico de la prueba es -1,97 y el valor p correspondiente es un poco menos de 0,05 . La diferencia entre las puntuaciones medias de las pruebas es estadísticamente significativa.

La razón subyacente por la que los tamaños de muestra grandes pueden llevar a conclusiones estadísticamente significativas se remonta una vez más al estadístico de prueba t para una prueba t independiente de dos muestras:

estadístico de prueba t = [( x 1x 2 ) – d] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

Observe que cuando n 1 y n 2 son pequeños, todo el denominador del estadístico de prueba t es pequeño. Y cuando dividimos por un número pequeño, terminamos con un número grande. Esto significa que el estadístico de prueba t será grande y el valor p correspondiente será pequeño, lo que conducirá a resultados estadísticamente significativos.

Uso de la experiencia en la materia para evaluar la importancia práctica

Para determinar si un resultado estadísticamente significativo de una prueba de hipótesis es prácticamente significativo, a menudo se necesita experiencia en la materia.

En los ejemplos anteriores, cuando estábamos evaluando las diferencias entre los puntajes de las pruebas de dos escuelas, sería útil contar con la experiencia de alguien que trabaja en las escuelas o que administra este tipo de pruebas para ayudarnos a determinar si una diferencia media de 1 punto o no. tiene implicaciones prácticas.

Por ejemplo, una diferencia media de 1 punto puede ser estadísticamente significativa en el nivel alfa = 0,05, pero ¿significa esto que la escuela con los puntajes más bajos debe adoptar el plan de estudios que está usando la escuela con los puntajes más altos? ¿O esto implicaría demasiado costo administrativo y sería demasiado costoso / oportuno de implementar?

El hecho de que haya una diferencia estadísticamente significativa en los puntajes de las pruebas entre dos escuelas no significa que el tamaño del efecto de la diferencia sea lo suficientemente grande como para promulgar algún tipo de cambio en el sistema educativo.

Uso de intervalos de confianza para evaluar la importancia práctica

Otra herramienta útil para determinar la importancia práctica es un intervalo de confianza . Un intervalo de confianza nos da un rango de valores en los que es probable que caiga el verdadero parámetro de población.

Por ejemplo, volvamos al ejemplo de comparar la diferencia en los puntajes de las pruebas entre dos escuelas. Un director puede declarar que se necesita una diferencia media en las puntuaciones de al menos 5 puntos para que la escuela adopte un nuevo plan de estudios.

En un estudio, podemos encontrar que la diferencia media en los puntajes de las pruebas es de 8 puntos. Sin embargo, el intervalo de confianza alrededor de esta media puede ser [4, 12], lo que indica que 4 podría ser la verdadera diferencia entre las puntuaciones medias de las pruebas. En este caso, el director puede concluir que la escuela no cambiará el plan de estudios ya que el intervalo de confianza indica que la verdadera diferencia podría ser menor que 5.

Sin embargo, en otro estudio podemos encontrar que la diferencia media en las puntuaciones de las pruebas es una vez más de 8 puntos, pero el intervalo de confianza alrededor de la media puede ser [6, 10]. Dado que este intervalo no contiene 5 , el director probablemente concluirá que la verdadera diferencia en los puntajes de las pruebas es mayor que 5 y, por lo tanto, determinará que tiene sentido cambiar el plan de estudios.

Conclusión

Para terminar, esto es lo que aprendimos:

  • S importancia tatistical sólo indica si hay un efecto sobre la base de algunos nivel de significación.
  • La importancia práctica es si este efecto tiene o no implicaciones prácticas en el mundo real.
  • Usamos análisis estadísticos para determinar la importancia estadística y la experiencia en el área temática para evaluar la importancia práctica.
  • Los tamaños de efecto pequeños pueden producir valores p pequeños cuando (1) la variabilidad en los datos de la muestra es muy baja y cuando (2) el tamaño de la muestra es muy grande.
  • Al definir un tamaño de efecto mínimo antes de realizar una prueba de hipótesis, podemos evaluar mejor si el resultado de una prueba de hipótesis (incluso si es estadísticamente significativo) realmente tiene practicidad en el mundo real.
  • Los intervalos de confianza pueden ser útiles para determinar la importancia práctica. Si el tamaño mínimo del efecto no está contenido dentro de un intervalo de confianza, entonces los resultados pueden ser prácticamente significativos.
  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, puede estar interesado en calcular la suma de una o más columnas en un DataFrame de pandas. Afortunadamente,…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!