¿Qué es el supuesto de independencia en estadística?

Muchas pruebas estadísticas suponen que las observaciones son independientes. Esto significa que no hay dos observaciones en un conjunto de datos que estén relacionadas entre sí o se afecten entre sí de alguna manera.

Por ejemplo, supongamos que queremos probar si existe o no una diferencia en el peso medio entre dos especies de gatos. Si medimos el peso de 10 gatos de la especie A y 10 gatos de la especie B, violaríamos el supuesto de independencia si cada uno de los grupos de gatos procediera de la misma camada.

Es posible que la gata madre de la especie A simplemente tuviera todos los gatitos de bajo peso, mientras que la gata madre de la especie B tenía gatitos pesados. En este sentido, las observaciones de cada muestra no son independientes entre sí.

Hay tres tipos comunes de pruebas estadísticas que hacen este supuesto de independencia:

1. Prueba t de dos muestras

2. ANOVA (análisis de varianza)

3. Regresión lineal

En las siguientes secciones, explicamos por qué se hace esta suposición para cada tipo de prueba junto con cómo determinar si esta suposición se cumple o no.

Supuesto de independencia en pruebas t

Se utiliza una prueba t de dos muestras para comprobar si las medias de dos poblaciones son iguales o no.

Supuesto: Este tipo de prueba supone que las observaciones dentro de cada muestra son independientes entre sí y que las observaciones entre muestras también son independientes entre sí.

Pruebe esta suposición: la forma más fácil de verificar esta suposición es verificar que cada observación solo aparece una vez en cada muestra y que las observaciones de cada muestra se recopilaron mediante un muestreo aleatorio.

Asunción de independencia en ANOVA

Se utiliza un ANOVA para determinar si existe o no una diferencia significativa entre las medias de tres o más grupos independientes.

Supuesto: Un ANOVA supone que las observaciones de cada grupo son independientes entre sí y que las observaciones dentro de los grupos se obtuvieron mediante una muestra aleatoria.

Pruebe esta suposición: similar a una prueba t, la forma más fácil de verificar esta suposición es verificar que cada observación solo aparece en cada muestra una vez y que las observaciones en cada muestra se recopilaron mediante muestreo aleatorio.

Asunción de independencia en regresión

La regresión lineal se utiliza para comprender la relación entre una o más variables predictoras y una variable de respuesta .

Supuesto: La regresión lineal supone que los residuos en el modelo ajustado son independientes.

Pruebe esta suposición: la forma más fácil de verificar esta suposición es mirar un gráfico de serie de tiempo residual, que es un gráfico de residuos frente al tiempo. Idealmente, la mayoría de las autocorrelaciones residuales deberían caer dentro de las bandas de confianza del 95% alrededor de cero, que se ubican en aproximadamente +/- 2-sobre la raíz cuadrada de n , donde n es el tamaño de la muestra. También puede probar formalmente si se cumple esta suposición mediante la prueba de Durbin-Watson .

Fuentes comunes de no independencia

Hay tres fuentes comunes de falta de independencia en los conjuntos de datos:

1. Las observaciones están muy juntas en el tiempo.

Por ejemplo, un investigador puede estar recopilando datos sobre la velocidad media de los coches en una determinada carretera. Si elige rastrear las velocidades durante las horas de la tarde, puede encontrar que la velocidad promedio es mucho más alta de lo que esperaba simplemente porque cada conductor se apresura a volver a casa desde el trabajo.

Estos datos violan el supuesto de que cada observación es independiente. Dado que cada observación se observó durante la misma hora del día, es probable que la velocidad de cada automóvil sea similar entre sí.

2. Las observaciones están muy juntas en el espacio.

Por ejemplo, un investigador puede recopilar datos sobre los ingresos anuales de las personas que viven en el mismo vecindario de altos ingresos porque es conveniente hacerlo.

En este sentido, es probable que todos los individuos incluidos en los datos de la muestra tengan ingresos similares, ya que todos viven cerca unos de otros. Esto viola el supuesto de que cada observación es independiente.

3. Las observaciones aparecen varias veces en el mismo conjunto de datos.

Por ejemplo, un investigador puede necesitar recopilar datos de 50 personas, pero en su lugar decide recopilar datos de 25 personas dos veces porque es mucho más fácil hacerlo.

Esto viola el supuesto de independencia porque cada observación en el conjunto de datos estará relacionada consigo misma.

Cómo evitar violar el supuesto de independencia

La forma más fácil de evitar violar el supuesto de independencia es simplemente utilizar un muestreo aleatorio simple al obtener una muestra de una población.

Con este método, todos los individuos de la población de interés tienen las mismas posibilidades de ser incluidos en la muestra.

Por ejemplo, si nuestra población de interés contiene 10,000 individuos, entonces podemos asignar aleatoriamente un número a cada individuo en la población y luego usar un generador de números aleatorios para seleccionar 40 números aleatorios. Las personas que coincidan con estos números se incluirían en la muestra.

Con este método, minimizamos las posibilidades de que seleccionemos dos personas que pueden estar muy próximas entre sí o que pueden estar relacionadas de alguna manera.

Esto contrasta directamente con otros métodos de muestreo como:

Muestreo de conveniencia: Incluir individuos en una muestra a los que simplemente es conveniente llegar.
Muestreo voluntario: incluye a los individuos de una muestra que se ofrecen voluntariamente para ser incluidos.

Al utilizar un método de muestreo aleatorio, podemos minimizar las posibilidades de que violemos el supuesto de independencia.

Recursos adicionales

Los cuatro supuestos hechos en una prueba T
Los cuatro supuestos de la regresión lineal
Los tres supuestos de ANOVA
¿Qué es una muestra representativa y por qué es importante?

https://r-project.org
https://www.python.org/
https://www.stata.com/