Los cuatro supuestos de la regresión lineal

La regresión lineal es un método estadístico útil que podemos utilizar para comprender la relación entre dos variables, xey. Sin embargo, antes de realizar una regresión lineal, primero debemos asegurarnos de que se cumplan cuatro supuestos:

1. Relación lineal: existe una relación lineal entre la variable independiente, x, y la variable dependiente, y.

2. Independencia: Los residuos son independientes. En particular, no existe correlación entre residuos consecutivos en datos de series de tiempo.

3. Homoscedasticidad: Los residuos tienen varianza constante en cada nivel de x.

4. Normalidad: Los residuos del modelo se distribuyen normalmente.

Si se violan uno o más de estos supuestos, los resultados de nuestra regresión lineal pueden ser poco fiables o incluso engañosos.

En esta publicación, proporcionamos una explicación para cada suposición, cómo determinar si se cumple la suposición y qué hacer si se viola la suposición.

Supuesto 1: Relación lineal

HOLA, estas en Statologos la enciclopedia más grande de estadística aplicada en español, no olvides que tienes un potente buscador de información en el menú utilizalo sabiamente 😉

Explicación

El primer supuesto de la regresión lineal es que existe una relación lineal entre la variable independiente, x, y la variable independiente, y.

Cómo determinar si se cumple este supuesto

La forma más fácil de detectar si se cumple esta suposición es crear un diagrama de dispersión de x vs. y. Esto le permite ver visualmente si existe una relación lineal entre las dos variables. Si parece que los puntos en la gráfica podrían caer a lo largo de una línea recta, entonces existe algún tipo de relación lineal entre las dos variables y esta suposición se cumple.

Por ejemplo, los puntos en la gráfica de abajo parece que caen aproximadamente en una línea recta, lo que indica que existe una relación lineal entre xey:

Sin embargo, no parece haber una relación lineal entre xey en la siguiente gráfica:

Y en esta gráfica parece haber una relación clara entre xey, pero no una relación lineal :

Qué hacer si se viola esta suposición

Si crea un gráfico de dispersión de los valores de x e y y ver que hay no una relación lineal entre las dos variables, entonces usted tiene un par de opciones:

1. Aplicar una transformación no lineal a la variable independiente y / o dependiente. Los ejemplos comunes incluyen tomar el logaritmo, la raíz cuadrada o el recíproco de la variable independiente y / o dependiente.

2. Agregue otra variable independiente al modelo. Por ejemplo, si la gráfica de x vs. y tiene una forma parabólica, entonces podría tener sentido agregar X 2 como una variable independiente adicional en el modelo.

Supuesto 2: Independencia

Explicación

El siguiente supuesto de la regresión lineal es que los residuos son independientes. Esto es más relevante cuando se trabaja con datos de series de tiempo. Idealmente, no queremos que haya un patrón entre residuos consecutivos. Por ejemplo, los residuos no deberían crecer constantemente a medida que pasa el tiempo.

Cómo determinar si se cumple este supuesto

La forma más sencilla de probar si se cumple este supuesto es observar un gráfico de serie de tiempo residual, que es un gráfico de residuos frente al tiempo. Idealmente, la mayoría de las autocorrelaciones residuales deberían caer dentro de las bandas de confianza del 95% alrededor de cero, que se ubican en aproximadamente +/- 2-sobre la raíz cuadrada de n , donde n es el tamaño de la muestra. También puede probar formalmente si se cumple esta suposición mediante la prueba de Durbin-Watson .

Qué hacer si se viola esta suposición

Dependiendo de la naturaleza de la forma en que se infringe esta suposición, tiene algunas opciones:

  • Para una correlación serial positiva, considere agregar rezagos de la variable dependiente y / o independiente al modelo.
  • Para una correlación serial negativa, verifique que ninguna de sus variables esté sobrediferenciada .
  • Para la correlación estacional, considere agregar variables ficticias estacionales al modelo.

Supuesto 3: Homoscedasticidad

Explicación

El siguiente supuesto de la regresión lineal es que los residuos tienen varianza constante en cada nivel de x. Esto se conoce como homocedasticidad . Cuando este no es el caso, se dice que los residuos sufren de heterocedasticidad .

Cuando la heterocedasticidad está presente en un análisis de regresión, los resultados del análisis se vuelven difíciles de confiar. Específicamente, la heterocedasticidad aumenta la varianza de las estimaciones del coeficiente de regresión, pero el modelo de regresión no detecta esto. Esto hace que sea mucho más probable que un modelo de regresión declare que un término del modelo es estadísticamente significativo, cuando en realidad no lo es.

Cómo determinar si se cumple este supuesto

La forma más sencilla de detectar heterocedasticidad es creando un valor ajustado frente a una gráfica residual .

Una vez que ajusta una línea de regresión a un conjunto de datos, puede crear un diagrama de dispersión que muestre los valores ajustados del modelo frente a los residuos de esos valores ajustados. La gráfica de dispersión a continuación muestra un valor ajustado típico frente a una gráfica residual en la que está presente la heterocedasticidad.

Observe cómo los residuales se dispersan mucho más a medida que los valores ajustados aumentan. Esta forma de «cono» es un signo clásico de heterocedasticidad:

Qué hacer si se viola esta suposición

Hay tres formas habituales de corregir la heterocedasticidad:

1. Transforme la variable dependiente.Una transformación común es simplemente tomar el logaritmo de la variable dependiente. Por ejemplo, si usamos el tamaño de la población (variable independiente) para predecir el número de floristerías en una ciudad (variable dependiente), podemos intentar usar el tamaño de la población para predecir el logaritmo del número de floristerías en una ciudad. El uso del logaritmo de la variable dependiente, en lugar de la variable dependiente original, a menudo hace que desaparezca la heterocedasticidad.

2. Redefina la variable dependiente.Una forma común de redefinir la variable dependiente es usar una tasa , en lugar del valor bruto. Por ejemplo, en lugar de usar el tamaño de la población para predecir el número de floristerías en una ciudad, podemos usar el tamaño de la población para predecir el número de floristerías per cápita. En la mayoría de los casos, esto reduce la variabilidad que ocurre naturalmente entre poblaciones más grandes, ya que estamos midiendo la cantidad de floristerías por persona, en lugar de la mera cantidad de floristerías.

3. Utilice regresión ponderada.Otra forma de corregir la heterocedasticidad es utilizar la regresión ponderada. Este tipo de regresión asigna un peso a cada punto de datos en función de la varianza de su valor ajustado. Esencialmente, esto da pequeños pesos a los puntos de datos que tienen variaciones más altas, lo que reduce sus residuos al cuadrado. Cuando se utilizan los pesos adecuados, esto puede eliminar el problema de la heterocedasticidad.

Supuesto 4: Normalidad

Explicación

El siguiente supuesto de la regresión lineal es que los residuos se distribuyen normalmente.

Cómo determinar si se cumple este supuesto

Hay dos formas habituales de comprobar si se cumple este supuesto:

1. Verifique la suposición visualmente usando gráficos QQ .

Un gráfico QQ, abreviatura de gráfico de cuantiles-cuantiles, es un tipo de gráfico que podemos utilizar para determinar si los residuos de un modelo siguen una distribución normal. Si los puntos del gráfico forman aproximadamente una línea diagonal recta, se cumple el supuesto de normalidad.

La siguiente gráfica QQ muestra un ejemplo de residuos que siguen aproximadamente una distribución normal:

Gráfico QQ con una línea diagonal en R

Sin embargo, la gráfica QQ a continuación muestra un ejemplo de cuando los residuos se apartan claramente de una línea diagonal recta, lo que indica que no siguen la distribución normal:

Gráfico QQ en R para una distribución gamma

2. También puede verificar el supuesto de normalidad mediante pruebas estadísticas formales como Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre o D’Agostino-Pearson. Sin embargo, tenga en cuenta que estas pruebas son sensibles a los tamaños de muestra grandes, es decir, a menudo concluyen que los residuos no son normales cuando el tamaño de la muestra es grande. Esta es la razón por la que a menudo es más fácil usar métodos gráficos como una gráfica QQ para verificar esta suposición.

Qué hacer si se viola esta suposición

Si se viola el supuesto de normalidad, tiene algunas opciones:

  • Primero, verifique que los valores atípicos no tengan un gran impacto en la distribución. Si hay valores atípicos presentes, asegúrese de que sean valores reales y que no sean errores de entrada de datos.
  • A continuación, puede aplicar una transformación no lineal a la variable independiente y / o dependiente. Los ejemplos comunes incluyen tomar el logaritmo, la raíz cuadrada o el recíproco de la variable independiente y / o dependiente.

Otras lecturas:

Introducción a la regresión lineal simple
Comprensión de la heterocedasticidad en el análisis de regresión
Cómo crear e interpretar una gráfica QQ en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Siempre que ajustamos un modelo de regresión lineal , el modelo toma la siguiente forma: Y = β 0 +…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!