Introducción a la regresión de lazo

En la regresión lineal múltiple ordinaria , utilizamos un conjunto de p variables predictoras y una variable de respuesta para ajustar un modelo de la forma:

Y = β 0 + β 1 X 1 + β 2 X 2 +… + β p X p + ε

dónde:

  • Y : la variable de respuesta
  • X j : La j- ésima variable predictora
  • β j : El efecto promedio en Y de un aumento de una unidad en X j , manteniendo todos los demás predictores fijos
  • ε : el término de error

Los valores para β 0 , β 1 , B 2 ,…, β p se eligen utilizando el método de mínimos cuadrados , que minimiza la suma de los residuos al cuadrado (RSS):

RSS = Σ (y i – ŷ i ) 2

dónde:

  • Σ : símbolo griego que significa suma
  • y i : El valor de respuesta real para la i- ésima observación
  • ŷ i : el valor de respuesta predicho basado en el modelo de regresión lineal múltiple

Sin embargo, cuando las variables predictoras están altamente correlacionadas, la multicolinealidad puede convertirse en un problema. Esto puede hacer que las estimaciones de los coeficientes del modelo no sean confiables y tengan una alta varianza. Es decir, cuando el modelo se aplica a un nuevo conjunto de datos que no ha visto antes, es probable que tenga un rendimiento deficiente.

Una forma de solucionar este problema es utilizar un método conocido como regresión de lazo , que en su lugar busca minimizar lo siguiente:

RSS + λΣ | β j |

donde j varía de 1 ap y λ ≥ 0.

Este segundo término de la ecuación se conoce como penalización por contracción .

Cuando λ = 0, este término de penalización no tiene efecto y la regresión de lazo produce las mismas estimaciones de coeficientes que los mínimos cuadrados.

Sin embargo, a medida que λ se acerca al infinito, la penalización por contracción se vuelve más influyente y las variables predictoras que no se pueden importar en el modelo se reducen a cero y algunas incluso se eliminan del modelo.

¿Por qué utilizar la regresión de lazo?

La ventaja de la regresión de lazo en comparación con la regresión de mínimos cuadrados radica en la compensación de sesgo-varianza .

Recuerde que el error cuadrático medio (MSE) es una métrica que podemos usar para medir la precisión de un modelo dado y se calcula como:

MSE = Var ( f̂ ( x 0 )) + [Sesgo ( f̂ ( x 0 ))] 2 + Var (ε)

MSE = Varianza + Sesgo 2 + Error irreducible

La idea básica de la regresión de lazo es introducir un pequeño sesgo para que la varianza pueda reducirse sustancialmente, lo que conduce a un MSE general más bajo.

Para ilustrar esto, considere la siguiente tabla:

Compensación de sesgo-varianza de regresión de cresta

Observe que a medida que aumenta λ, la varianza cae sustancialmente con muy poco aumento en el sesgo. Sin embargo, más allá de cierto punto, la varianza disminuye con menos rapidez y la contracción de los coeficientes hace que se subestimen significativamente, lo que da como resultado un gran aumento del sesgo.

Podemos ver en el gráfico que la prueba MSE es más baja cuando elegimos un valor para λ que produce una compensación óptima entre sesgo y varianza.

Cuando λ = 0, el término de penalización en la regresión de lazo no tiene ningún efecto y, por lo tanto, produce las mismas estimaciones de coeficientes que los mínimos cuadrados. Sin embargo, al aumentar λ hasta cierto punto, podemos reducir el MSE general de la prueba.

Compensación de sesgo-varianza de regresión de lazo

Esto significa que el ajuste del modelo por regresión de lazo producirá errores de prueba más pequeños que el ajuste del modelo por regresión de mínimos cuadrados.

Regresión de lazo frente a regresión de cresta

La regresión de lazo y la regresión de cresta se conocen como métodos de regularización porque ambos intentan minimizar la suma de los residuos al cuadrado (RSS) junto con algún término de penalización.

En otras palabras, restringen o regularizan las estimaciones de coeficientes del modelo.

Sin embargo, los términos de penalización que utilizan son un poco diferentes:

  • La regresión de lazo intenta minimizar RSS + λΣ | β j |
  • La regresión de crestas intenta minimizar RSS + λΣβ j 2

Cuando usamos la regresión de crestas, los coeficientes de cada predictor se reducen a cero, pero ninguno de ellos puede llegar completamente a cero .

Por el contrario, cuando usamos la regresión de lazo, es posible que algunos de los coeficientes puedan llegar completamente a cero cuando λ se vuelve lo suficientemente grande.

En términos técnicos, la regresión de lazo es capaz de producir modelos “dispersos”, modelos que solo incluyen un subconjunto de las variables predictoras.

Esto plantea la pregunta: ¿es mejor la regresión de crestas o la regresión de lazo?

La respuesta: ¡depende!

En los casos en los que solo una pequeña cantidad de variables predictoras son significativas, la regresión de lazo tiende a funcionar mejor porque puede reducir completamente las variables insignificantes a cero y eliminarlas del modelo.

Sin embargo, cuando muchas variables predictoras son significativas en el modelo y sus coeficientes son aproximadamente iguales, la regresión de crestas tiende a funcionar mejor porque mantiene todos los predictores en el modelo.

Para determinar qué modelo es mejor para hacer predicciones, realizamos una validación cruzada de k veces . Cualquiera que sea el modelo que produzca el error cuadrático medio de prueba (MSE) más bajo es el modelo preferido para usar.

Pasos para realizar la regresión de lazo en la práctica

Los siguientes pasos se pueden utilizar para realizar la regresión de lazo:

Paso 1: Calcule la matriz de correlación y los valores de VIF para las variables predictoras.

Primero, debemos producir una matriz de correlación y calcular los valores de VIF (factor de inflación de la varianza) para cada variable de predicción.

Si detectamos una alta correlación entre las variables predictoras y los valores altos de VIF (algunos textos definen un valor de VIF “alto” como 5 mientras que otros usan 10), entonces es probable que sea apropiado usar la regresión de lazo.

Sin embargo, si no hay multicolinealidad presente en los datos, es posible que no sea necesario realizar una regresión de lazo en primer lugar. En cambio, podemos realizar una regresión de mínimos cuadrados ordinarios.

Paso 2: ajuste el modelo de regresión de lazo y elija un valor para λ.

Una vez que determinamos que la regresión de lazo es apropiada para usar, podemos ajustar el modelo (usando lenguajes de programación populares como R o Python) usando el valor óptimo para λ.

Para determinar el valor óptimo para λ, podemos ajustar varios modelos usando diferentes valores para λ y elegir λ como el valor que produce el MSE de prueba más bajo.

Paso 3: Compare la regresión de lazo con la regresión de cresta y la regresión de mínimos cuadrados ordinarios.

Por último, podemos comparar nuestro modelo de regresión de lazo con un modelo de regresión de cresta y un modelo de regresión de mínimos cuadrados para determinar qué modelo produce el MSE de prueba más bajo mediante el uso de la validación cruzada de k veces.

Dependiendo de la relación entre las variables predictoras y la variable de respuesta, es completamente posible que uno de estos tres modelos supere a los demás en diferentes escenarios.

Regresión de lazo en R & Python

Los siguientes tutoriales explican cómo realizar la regresión de lazo en R y Python:

Regresión de lazo en R (paso a paso)
Regresión de lazo en Python (paso a paso)

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, una puntuación z nos dice a cuántas desviaciones estándar se encuentra un valor de la media . Usamos…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!