¿Qué es el sesgo de agregación? (Explicación y ejemplo)

Actualizado por ultima vez el 7 de mayo de 2021, por .

El sesgo de agregación ocurre cuando se asume erróneamente que las tendencias observadas en los datos agregados también se aplican a puntos de datos individuales.

La forma más sencilla de comprender este tipo de sesgo es con un ejemplo sencillo.

Ejemplo: sesgo de agregación

Suponga que los investigadores quieren comprender la relación entre el número promedio de años de educación y el ingreso familiar promedio en un estado determinado. Obtienen datos agregados para 4 ciudades diferentes dentro del estado y calculan la correlación entre la educación promedio y el ingreso familiar promedio.

Resulta que la correlación entre el número promedio de años de educación y el ingreso familiar promedio es 0.9632 . Este es un coeficiente de correlación muy positivo.

Los investigadores incluso crearon un diagrama de dispersión para visualizar la relación entre el número promedio de años de educación y el ingreso familiar promedio:

Sin mirar realmente los datos individuales, es posible que publiquen un informe que afirme que más años de educación está fuertemente correlacionado positivamente con los ingresos del hogar.

Sin embargo, supongamos que llega un nuevo investigador un año después y obtiene datos de hogares individuales en el mismo conjunto de ciudades. Suponga que crea la siguiente gráfica de dispersión de los datos:

Sesgo de agregación

Calcula la correlación entre las dos variables y encuentra que en realidad es solo 0.1788 ; sigue siendo una correlación positiva pero no tan fuerte como la correlación encontrada por los investigadores anteriores.

Resulta que cuando los datos se agregaron, cubrieron la verdadera tendencia entre educación e ingresos que estaba teniendo lugar a nivel individual.

De hecho, cuando miramos ciudad por ciudad en el diagrama de dispersión, ¡la relación entre educación e ingresos es realmente negativa!

Ejemplo de sesgo de agregación en estadísticas

Efectos del sesgo de agregación

El sesgo de agregación ocurre con bastante frecuencia en la investigación simplemente porque a menudo se asume erróneamente que las tendencias que aparecen a nivel agregado también deben aparecer a nivel individual. Desafortunadamente, este no es siempre el caso, como mostró el ejemplo anterior.

El sesgo de agregación puede hacer que los resultados de un estudio saquen conclusiones incorrectas y pueden ser engañosos. Este tipo de sesgo es particularmente dañino cuando se relaciona con correlaciones entre variables.

Incluso si la correlación entre los datos agregados de dos variables es positiva, la correlación subyacente entre las dos variables a un nivel de observación individual puede ser en realidad:

  • Correlación negativa
  • Sin correlación
  • Correlacion positiva

La forma de evitar este tipo de sesgo es realizar estudios utilizando puntos de datos individuales en lugar de puntos de datos agregados para que se pueda descubrir la verdadera relación entre dos variables.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La prueba exacta de Fisher se utiliza para determinar si existe o no una asociación significativa entre dos variables categóricas.…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!