Regresión de cresta: definición simple

Actualizado por ultima vez el 9 de octubre de 2021, por Luis Benites.

La regresión de cresta es una forma de crear un modelo parsimonioso cuando la cantidad de variables predictoras en un conjunto excede la cantidad de observaciones, o cuando un conjunto de datos tiene multicolinealidad (correlaciones entre variables predictoras).

El método de Tikhivov es básicamente el mismo que el de la regresión de crestas, excepto que el de Tikhonov tiene un conjunto más grande. Puede producir soluciones incluso cuando su conjunto de datos contiene mucho ruido estadístico (variación inexplicable en una muestra).

Regresión de cresta frente a mínimos cuadrados

La regresión de mínimos cuadrados no se define en absoluto cuando el número de predictores excede el número de observaciones; No diferencia los predictores «importantes» de los «menos importantes» en un modelo, por lo que los incluye a todos. Esto conduce a sobreajustar un modelo y no encontrar soluciones únicas. Los mínimos cuadrados también tienen problemas relacionados con la multicolinealidad en los datos. La regresión de cresta evita todos estos problemas. Funciona en parte porque no requiere estimadores imparciales ; Si bien los mínimos cuadrados producen estimaciones no sesgadas, las variaciones pueden ser tan grandes que pueden ser totalmente inexactas. La regresión de cresta agrega el sesgo suficiente para que las estimaciones sean razonablemente confiables aproximaciones a los valores reales de la población.

Contracción

La regresión de cresta utiliza un tipo de estimador de contracción llamado estimador de cresta . Los estimadores de reducción teóricamente producen nuevos estimadores que se reducen más cerca de los parámetros de población «verdaderos». El estimador de cresta es especialmente bueno para mejorar la estimación de mínimos cuadrados cuando hay multicolinealidad.

regularización

La regresión Ridge pertenece a una clase de herramientas de regresión que utilizan la regularización L2 . El otro tipo de regularización, la regularización L1 , limita el tamaño de los coeficientes añadiendo una penalización L1 igual al valor absoluto de la magnitud de los coeficientes. Esto a veces da como resultado la eliminación de algunos coeficientes por completo, lo que puede producir modelos dispersos. La regularización L2 añade una penalización L2, que es igual al cuadrado de la magnitud de los coeficientes. Todos los coeficientes se reducen por el mismo factor (por lo que no se elimina ninguno). A diferencia de la regularización L1, L2 no generará modelos dispersos.

Un parámetro de ajuste (λ) controla la fuerza del término de penalización. Cuando λ = 0, la regresión de cresta es igual a la regresión de mínimos cuadrados. Si λ = ∞, todos los coeficientes se reducen a cero. Por lo tanto, la penalización ideal se encuentra entre 0 y ∞.

Sobre Matemáticas

La regresión OLS usa la siguiente fórmula para estimar los coeficientes: si X es una matriz centrada y escalada, la matriz de productos cruzados (X`X) es casi singular cuando las columnas X están altamente correlacionadas. La regresión de cresta agrega un parámetro de cresta (k), de la matriz de identidad a la matriz de productos cruzados, formando una nueva matriz (X`X + kI). Se llama regresión de cresta porque la diagonal de unos en la matriz de correlación se puede describir como una cresta. La nueva fórmula se usa para encontrar los coeficientes: elegir un valor para k no es una tarea sencilla, lo que quizás sea una de las principales razones por las que la regresión de cresta no se usa tanto como los mínimos cuadrados o la regresión logística.
regresión de cresta
. Puede leer una forma de encontrar k en el artículo de Dorugade y DN Kashid Alternative Method for Choosing Ridge Parameter for Regression. .

Para obtener una explicación más rigurosa de la mecánica detrás del procedimiento, es posible que desee leer Ridge Regression Lecture Notes de Wessel N. van Wieringen .

Referencias:
Chatterjee, S. y Hadi, A. (2006). Análisis de regresión por ejemplo . Wiley.
Dorugade y DN Kashid. Método alternativo para elegir el parámetro Ridge para la regresión . Ciencias Matemáticas Aplicadas, vol. 4, 2010, núm. 9, 447 – 456. Recuperado el 29 de julio de 2017 de: http://www.m-hikari.com/ams/ams-2010/ams-9-12-2010/dorugadeAMS9-12-2010.pdf.
Wessel N. van Wieringen. Apuntes de clase sobre RR. Recuperado el 29 de julio de 2017 de: https://arxiv.org/pdf/1509.09169.pdf

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Modelos de ecuaciones estructurales. Una variable latente también puede estar presente (e incluida en un modelo) cuando no existe el…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!