Una guía de multicolinealidad y VIF en regresión

La multicolinealidad en el análisis de regresión ocurre cuando dos o más variables predictoras están altamente correlacionadas entre sí, de manera que no brindan información única o independiente en el modelo de regresión. Si el grado de correlación entre variables es lo suficientemente alto, puede causar problemas al ajustar e interpretar el modelo de regresión.

Por ejemplo, suponga que ejecuta un análisis de regresión utilizando la variable de respuesta salto vertical máximo y las siguientes variables predictoras:

  • altura
  • tamaño del zapato
  • horas dedicadas a la práctica por día

En este caso, es probable que la altura y el tamaño de los zapatos estén altamente correlacionados entre sí, ya que las personas más altas tienden a tener tamaños de zapatos más grandes. Esto significa que es probable que la multicolinealidad sea un problema en esta regresión.

Este tutorial explica por qué la multicolinealidad es un problema, cómo detectarla y cómo resolverla.

Por qué la multicolinealidad es un problema

Uno de los principales objetivos del análisis de regresión es aislar la relación entre cada variable predictora y la variable de respuesta. En particular, cuando ejecutamos un análisis de regresión, interpretamos cada coeficiente de regresión como el cambio medio en la variable de respuesta, asumiendo que todas las demás variables predictoras del modelo se mantienen constantes.

Esto significa que asumimos que podemos cambiar los valores de una variable predictora dada sin cambiar los valores de las otras variables predictoras. Sin embargo, cuando dos o más variables predictoras están altamente correlacionadas, resulta difícil cambiar una variable sin cambiar otra.

Esto hace que sea difícil para el modelo de regresión estimar la relación entre cada variable de predicción y la variable de respuesta de forma independiente porque las variables de predicción tienden a cambiar al unísono.

En general, la multicolinealidad provoca dos tipos de problemas:

  • Las estimaciones de coeficientes del modelo (e incluso los signos de los coeficientes) pueden fluctuar significativamente en función de qué otras variables predictoras se incluyen en el modelo.
  • La precisión de las estimaciones de los coeficientes se reduce, lo que hace que los valores p no sean fiables. Esto hace que sea difícil determinar qué variables predictoras son realmente significativas desde el punto de vista estadístico.

Cómo detectar multicolinealidad

La forma más común de detectar la multicolinealidad es utilizando el factor de inflación de la varianza (VIF) , que mide la correlación y la fuerza de la correlación entre las variables predictoras en un modelo de regresión.

Utilizando el factor de inflación de varianza (VIF)

La mayoría de los softwares estadísticos tienen la capacidad de calcular VIF para un modelo de regresión. El valor de VIF comienza en 1 y no tiene límite superior. Una regla general para interpretar los VIF es la siguiente:

  • Un valor de 1 indica que no hay correlación entre una variable predictora dada y cualquier otra variable predictora en el modelo.
  • Un valor entre 1 y 5 indica una correlación moderada entre una variable predictora dada y otras variables predictoras en el modelo, pero esto a menudo no es lo suficientemente grave como para requerir atención.
  • Un valor mayor que 5 indica una correlación potencialmente severa entre una variable predictora dada y otras variables predictoras en el modelo. En este caso, las estimaciones de los coeficientes y los valores p en el resultado de la regresión probablemente no sean confiables.

Por ejemplo, supongamos que ejecutamos un análisis de regresión utilizando variables predictoras: altura , talla de calzado y horas de práctica diaria para predecir el salto vertical máximo para los jugadores de baloncesto y obtenemos el siguiente resultado:

En la última columna, podemos ver que los valores de VIF para la altura y el tamaño del zapato son mayores que 5. Esto indica que es probable que sufran de multicolinealidad y que sus estimaciones de coeficientes y valores p probablemente no sean confiables.

Si miramos la estimación del coeficiente para el tamaño del zapato, el modelo nos dice que por cada aumento adicional de una unidad en el tamaño del zapato, el aumento promedio en el salto vertical máximo es de -0.67498 pulgadas, asumiendo que la altura y las horas de práctica se mantienen constantes.

Esto no parece tener sentido, considerando que esperaríamos que los jugadores con tallas de zapatos más grandes fueran más altos y, por lo tanto, tuvieran un salto vertical máximo más alto. Este es un ejemplo clásico de multicolinealidad que hace que las estimaciones de coeficientes parezcan un poco extravagantes y poco intuitivas.

Cómo resolver la multicolinealidad

Si detecta multicolinealidad, el siguiente paso es decidir si necesita resolverlo de alguna manera. Dependiendo del objetivo de su análisis de regresión, es posible que no necesite resolver la multicolinealidad. A saber:

1. Si solo hay una multicolinealidad moderada, es probable que no necesite resolverla de ninguna manera.

2. La multicolinealidad solo afecta a las variables predictoras que se correlacionan entre sí. Si está interesado en una variable de predicción en el modelo que no sufre de multicolinealidad, entonces la multicolinealidad no es un problema.

3. La multicolinealidad afecta las estimaciones de los coeficientes y los valores p, pero no afecta las predicciones ni las estadísticas de bondad de ajuste. Esto significa que si su objetivo principal con la regresión es hacer predicciones y no le preocupa comprender la relación exacta entre las variables predictoras y la variable de respuesta, entonces no es necesario resolver la multicolinealidad.

Si determina que usted no necesita multicolinealidad solución, a continuación, algunas soluciones comunes incluyen:

1. Elimine una o más de las variables altamente correlacionadas. Esta es la solución más rápida en la mayoría de los casos y, a menudo, es una solución aceptable porque las variables que está eliminando son redundantes de todos modos y agregan poca información única o independiente al modelo.

2. Combine linealmente las variables predictoras de alguna forma, como sumarlas o restarlas de una forma.Al hacerlo, puede crear una nueva variable que abarque la información de ambas variables y ya no tendrá un problema de multicolinealidad.

3. Realice un análisis diseñado para tener en cuenta las variables altamente correlacionadas, como el análisis de componentes principales o la regresión de mínimos cuadrados parciales (PLS) . Estas técnicas están diseñadas específicamente para manejar variables predictoras altamente correlacionadas.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, a menudo nos interesa comprender cómo se distribuye un conjunto de datos. En particular, hay cuatro cosas que…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!