Cómo probar la multicolinealidad en Stata

La multicolinealidad en el análisis de regresión ocurre cuando dos o más variables explicativas están altamente correlacionadas entre sí, de manera que no brindan información única o independiente en el modelo de regresión. Si el grado de correlación entre variables es lo suficientemente alto, puede causar problemas al ajustar e interpretar el modelo de regresión.

Por ejemplo, suponga que ejecuta una regresión lineal múltiple con las siguientes variables:

Variable de respuesta: salto vertical máximo

Variables explicativas: talla de zapato, altura, tiempo dedicado a la práctica.

En este caso, es probable que las variables explicativas tamaño y altura de los zapatos estén altamente correlacionadas, ya que las personas más altas tienden a tener tallas de zapatos más grandes. Esto significa que es probable que la multicolinealidad sea un problema en esta regresión.

Afortunadamente, es posible detectar la multicolinealidad utilizando una métrica conocida como factor de inflación de la varianza (VIF) , que mide la correlación y la fuerza de la correlación entre las variables explicativas en un modelo de regresión.

Este tutorial explica cómo usar VIF para detectar multicolinealidad en un análisis de regresión en Stata.

Ejemplo: multicolinealidad en Stata

Para este ejemplo usaremos el conjunto de datos integrado de Stata llamado auto . Utilice el siguiente comando para cargar el conjunto de datos:

s ysuse auto

Usaremos el comando de regresión para ajustar un modelo de regresión lineal múltiple usando el precio como la variable de respuesta y el peso, la longitud y el mpg como las variables explicativas:

retroceso precio peso longitud mpg

Salida de regresión lineal múltiple en Stata

A continuación, usaremos el comando vif para probar la multicolinealidad:

vif

VIF en Stata

Esto produce un valor VIF para cada una de las variables explicativas del modelo. El valor de VIF comienza en 1 y no tiene límite superior. Una regla general para interpretar los VIF es la siguiente:

  • Un valor de 1 indica que no hay correlación entre una variable explicativa dada y cualquier otra variable explicativa en el modelo.
  • Un valor entre 1 y 5 indica una correlación moderada entre una variable explicativa dada y otras variables explicativas en el modelo, pero esto a menudo no es lo suficientemente grave como para requerir atención.
  • Un valor mayor que 5 indica una correlación potencialmente severa entre una variable explicativa dada y otras variables explicativas en el modelo. En este caso, las estimaciones de los coeficientes y los valores p en el resultado de la regresión probablemente no sean confiables.

Podemos ver que los valores de VIF tanto para el peso como para la longitud son mayores que 5, lo que indica que la multicolinealidad es probablemente un problema en el modelo de regresión.

Cómo lidiar con la multicolinealidad

A menudo, la forma más fácil de lidiar con la multicolinealidad es simplemente eliminar una de las variables problemáticas, ya que la variable que está eliminando probablemente sea redundante de todos modos y agrega poca información única o independiente al modelo.

Para determinar qué variable eliminar, podemos usar el comando corr para crear una matriz de correlación para ver los coeficientes de correlación entre cada una de las variables en el modelo, lo que puede ayudarnos a identificar qué variables pueden estar altamente correlacionadas entre sí y podrían estar causando el problema de la multicolinealidad:

corr precio peso longitud mpg

Matriz de correlación en Stata

Podemos ver que la longitud está altamente correlacionada tanto con el peso como con el mpg, y tiene la correlación más baja con la variable de respuesta precio. Por lo tanto, eliminar la longitud del modelo podría resolver el problema de la multicolinealidad sin reducir la calidad general del modelo de regresión.

Para probar esto, podemos realizar el análisis de regresión nuevamente usando solo el peso y mpg como variables explicativas:

retroceso precio peso mpg

Salida de regresión lineal múltiple en Stata

Podemos ver que el R-cuadrado ajustado de este modelo es 0.2735 comparado con 0.3298 en el modelo anterior. Esto indica que la utilidad general del modelo disminuyó solo ligeramente. A continuación, podemos encontrar los valores VIF nuevamente usando el comando VIF :

VIF

Valores VIF en Stata

Ambos valores de VIF están por debajo de 5, lo que indica que la multicolinealidad ya no es un problema en el modelo.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Podemos usar la siguiente sintaxis para convertir un vector de caracteres en un vector numérico en R: numeric_vector <- as.numeric(character_vector)…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!