Comprensión de la heterocedasticidad en el análisis de regresión

En el análisis de regresión, la heterocedasticidad (a veces deletreada heterocedasticidad) se refiere a la dispersión desigual de los residuos o términos de error. Específicamente, se refiere al caso en el que hay un cambio sistemático en la dispersión de los residuales en el rango de valores medidos.

La heterocedasticidad es un problema porque la regresión de mínimos cuadrados ordinarios (MCO) supone que los residuos provienen de una población que tiene homocedasticidad , lo que significa varianza constante.

Cuando la heterocedasticidad está presente en un análisis de regresión, los resultados del análisis se vuelven difíciles de confiar. Específicamente, la heterocedasticidad aumenta la varianza de las estimaciones del coeficiente de regresión, pero el modelo de regresión no detecta esto.

Esto hace que sea mucho más probable que un modelo de regresión declare que un término del modelo es estadísticamente significativo, cuando en realidad no lo es.

Este tutorial explica cómo detectar la heterocedasticidad, qué causa la heterocedasticidad y las posibles formas de solucionar el problema de la heterocedasticidad.

Cómo detectar heterocedasticidad

La forma más sencilla de detectar heterocedasticidad es con un valor ajustado frente a una gráfica residual .

Una vez que ajusta una línea de regresión a un conjunto de datos, puede crear un diagrama de dispersión que muestre los valores ajustados del modelo frente a los residuos de esos valores ajustados.

La gráfica de dispersión a continuación muestra un valor ajustado típico frente a una gráfica residual en la que está presente la heterocedasticidad.

Observe cómo los residuales se dispersan mucho más a medida que los valores ajustados aumentan. Esta forma de «cono» es un signo revelador de heterocedasticidad.

¿Qué causa la heterocedasticidad?

La heterocedasticidad ocurre naturalmente en conjuntos de datos donde hay una amplia gama de valores de datos observados. Por ejemplo:

  • Considere un conjunto de datos que incluya los ingresos y gastos anuales de 100,000 personas en los Estados Unidos. Para las personas con ingresos más bajos, habrá una menor variabilidad en los gastos correspondientes, ya que estas personas probablemente solo tengan suficiente dinero para pagar las necesidades. Para las personas con ingresos más altos, habrá una mayor variabilidad en los gastos correspondientes, ya que estas personas tienen más dinero para gastar si así lo desean. Algunas personas de ingresos más altos optarán por gastar la mayor parte de sus ingresos, mientras que otras pueden optar por ser frugales y gastar solo una parte de sus ingresos, por lo que la variabilidad en los gastos entre estas personas de ingresos más altos será inherentemente mayor.
  • Considere un conjunto de datos que incluye las poblaciones y el recuento de floristerías en 1,000 ciudades diferentes en los Estados Unidos. Para las ciudades con poblaciones pequeñas, puede ser común que solo estén presentes una o dos floristerías. Pero en ciudades con poblaciones más grandes, habrá una variabilidad mucho mayor en el número de floristerías. Estas ciudades pueden tener entre 10 y 100 tiendas. Esto significa que cuando creamos un análisis de regresión y usamos la población para predecir el número de tiendas de flores, habrá inherentemente una mayor variabilidad en los residuos para las ciudades con mayor población.

Algunos conjuntos de datos son simplemente más propensos a la heterocedasticidad que otros.

Cómo corregir la heterocedasticidad

Hay tres formas habituales de corregir la heterocedasticidad:

1. Transforma la variable dependiente

Una forma de corregir la heterocedasticidad es transformar la variable dependiente de alguna manera. Una transformación común es simplemente tomar el logaritmo de la variable dependiente.

Por ejemplo, si usamos el tamaño de la población (variable independiente) para predecir el número de floristerías en una ciudad (variable dependiente), podemos intentar usar el tamaño de la población para predecir el logaritmo del número de floristerías en una ciudad.

El uso del logaritmo de la variable dependiente, en lugar de la variable dependiente original, a menudo hace que desaparezca la heterocedasticidad.

2. Redefinir la variable dependiente

Otra forma de corregir la heterocedasticidad es redefinir la variable dependiente. Una forma habitual de hacerlo es utilizar una tasa para la variable dependiente, en lugar del valor bruto.

Por ejemplo, en lugar de usar el tamaño de la población para predecir el número de floristerías en una ciudad, podemos usar el tamaño de la población para predecir el número de floristerías per cápita.

En la mayoría de los casos, esto reduce la variabilidad que ocurre naturalmente entre poblaciones más grandes, ya que estamos midiendo la cantidad de floristerías por persona, en lugar de la mera cantidad de floristerías.

3. Utilice regresión ponderada

Otra forma de corregir la heterocedasticidad es utilizar la regresión ponderada. Este tipo de regresión asigna un peso a cada punto de datos en función de la varianza de su valor ajustado.

Esencialmente, esto da pequeños pesos a los puntos de datos que tienen variaciones más altas, lo que reduce sus residuos al cuadrado. Cuando se utilizan los pesos adecuados, esto puede eliminar el problema de la heterocedasticidad.

Conclusión

La heterocedasticidad es un problema bastante común cuando se trata de análisis de regresión porque muchos conjuntos de datos son inherentemente propensos a una varianza no constante.

Sin embargo, al usar un valor ajustado frente a una gráfica residual , puede ser bastante fácil detectar la heterocedasticidad.

Y mediante la transformación de la variable dependiente, la redefinición de la variable dependiente o el uso de regresión ponderada, el problema de la heterocedasticidad a menudo se puede eliminar.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Para agregar valores a un vector usando un bucle en R, puede usar la siguiente sintaxis básica: para (i en…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!