Heterocedasticidad: definición simple y ejemplos

Actualizado por ultima vez el 31 de enero de 2022, por Luis Benites.

La palabra “heteroscedasticidad” proviene del griego, y literalmente significa datos con una dispersión ( hetero ) diferente ( skedasis ). En términos simples, la heteroscedasticidad es cualquier conjunto de datos que no es homoscedástico . Más técnicamente, se refiere a datos con variabilidad desigual (dispersión) a través de un conjunto de segundas variables predictoras.

heterocedasticidad

Los datos heteroscedásticos tienden a seguir una forma de cono en un gráfico de dispersión.

¿Por qué nos importa si los datos son o no heteroscedásticos? La mayor parte del tiempo en estadísticas, no nos importa. Pero si está ejecutando algún tipo de análisis de regresión , tener datos que muestren heterocedasticidad puede arruinar sus resultados (como mínimo, le dará coeficientes sesgados). Por lo tanto, querrá verificar para asegurarse de que sus datos no tengan esta condición. Una forma de verificar es hacer un gráfico de dispersión (que siempre es una buena idea cuando estás ejecutando una regresión de todos modos). Si su gráfico tiene una forma de cono irregular (como el de arriba), probablemente esté tratando con heteroscedasticidad. Todavía puede ejecutar análisis de regresión, pero no obtendrá resultados decentes.

En la regresión, un error es cuánto se desvía un punto de la línea de regresión. Idealmente, sus datos deberían ser homocedásticos (es decir, la varianza de los errores debería ser constante). Fuera de los ejemplos del salón de clases, esta situación rara vez ocurre en la vida real. La mayoría de los datos son heterocedásticos por naturaleza. Tomemos, por ejemplo, la predicción del peso de las mujeres a partir de su altura. En un mundo de Stepford Wives , donde todo el mundo tiene un vestido perfecto talla 6, esto sería fácil: las mujeres bajitas pesan menos que las altas. Pero en el mundo real, es prácticamente imposible predecir el peso a partir de la altura. Las mujeres más jóvenes (adolescentes) tienden a pesar menos, mientras que las mujeres posmenopáusicas suelen aumentar de peso. Pero las mujeres de todas las formas y tamaños existen en todas las edades. Esto crea un gráfico en forma de cono para la variabilidad.

Graficar la variación de la altura/peso de las mujeres daría como resultado un embudo que comienza pequeño y se extiende a medida que se mueve hacia la derecha del gráfico. Sin embargo, el cono puede estar en cualquier dirección (de izquierda a derecha o de derecha a izquierda):

  • El cono se extiende hacia la derecha: los valores pequeños de X dan una pequeña dispersión, mientras que los valores más grandes de X dan una mayor dispersión con respecto a Y.
  • El cono se extiende hacia la izquierda: los valores pequeños de X dan una gran dispersión, mientras que los valores más grandes de X dan una dispersión más pequeña con respecto a Y.

La heterocedasticidad también se puede encontrar en las observaciones diarias de los mercados financieros, la predicción de los resultados deportivos durante una temporada y muchas otras situaciones volátiles que producen datos de alta frecuencia trazados a lo largo del tiempo.

Cómo detectar la heterocedasticidad

Una gráfica residual puede sugerir (pero no probar) heteroscedasticidad. Las parcelas residuales son creadas por:

  1. Cálculo de los residuos cuadrados.
  2. Graficar los residuos al cuadrado contra una variable explicativa (una que creas que está relacionada con los errores).
  3. Haz una gráfica separada para cada variable explicativa que creas que está contribuyendo a los errores.

No tienes que hacer esto manualmente; la mayoría del software estadístico (es decir, SPSS, Maple) tiene comandos para crear gráficos residuales.

También se pueden ejecutar varias pruebas:

  1. Prueba de parque .
  2. Prueba Blanca.

Consecuencias de la heterocedasticidad

Los datos heteroscedásticos severos pueden generar una variedad de problemas:

Cómo lidiar con datos heteroscedásticos

Si sus datos son heteroscedásticos, sería desaconsejable ejecutar la regresión sobre los datos tal cual. Hay un par de cosas que puede probar si necesita ejecutar una regresión:

  1. Proporcione datos que produzcan una gran dispersión con menos peso.
  2. Transforme la variable Y para lograr la homocedasticidad. Por ejemplo, utilice la gráfica de normalidad de Box-Cox para transformar los datos.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Tipos comunes de gráficos Más ejemplos de diferentes gráficos Gráfico de embudo (se abre en una ventana nueva) 1. Tipos…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!