Parámetro de ajuste / Parámetro de penalización

Actualizado por ultima vez el 9 de febrero de 2022, por Luis Benites.

Un parámetro de ajuste (λ), a veces llamado parámetro de penalización, controla la fuerza del término de penalización en la regresión de cresta y la regresión de lazo . Es básicamente la cantidad de reducción , donde los valores de los datos se reducen hacia un punto central, como la media . La contracción da como resultado modelos simples y dispersos que son más fáciles de analizar que los modelos de datos de alta dimensión con una gran cantidad de parámetros.

  • Cuando λ = 0, no se elimina ningún parámetro. La estimación es igual a la encontrada con la regresión lineal .
  • A medida que λ aumenta, más y más coeficientes se ponen a cero y se eliminan.
  • Cuando λ = ∞, se eliminan todos los coeficientes.

Existe una compensación entre el sesgo y la varianza en los estimadores resultantes . A medida que aumenta λ, aumenta el sesgo y, a medida que disminuye λ, aumenta la varianza. Por ejemplo, establecer su parámetro de ajuste en un valor bajo da como resultado una cantidad más manejable de parámetros del modelo y un sesgo más bajo, pero a expensas de una variación mucho mayor.

Penalizaciones L1 y L2

Los parámetros de ajuste son parte de un proceso llamado regularización , que funciona sesgando los datos hacia valores particulares. Los métodos de regularización populares utilizan una penalización L1 o L2 (o, a veces, una combinación de ambas):

  • Las penalizaciones L1 limitan el tamaño de los coeficientes y pueden dar como resultado modelos dispersos (es decir, modelos con un pequeño número de coeficientes); Se eliminan algunos coeficientes.
  • Las penalizaciones L2 no dan como resultado modelos dispersos porque todos los coeficientes se reducen por el mismo factor y ninguno se elimina.

Cómo elegir un parámetro de afinación

parámetro de ajuste

Varios modelos pueden ajustar un conjunto de dos puntos, incluido un modelo lineal (verde) y un número ilimitado de modelos polinómicos de mayor grado (rojo).

Elegir un parámetro de ajuste es una tarea desafiante . Los parámetros de ajuste óptimos son “difíciles de calibrar en la práctica” (Lederer y Müller, 2015) y “no son factibles en la práctica” (Fan & Tang (2013). Dependen de un atolladero de parámetros difíciles de cuantificar como parámetros molestos en el modelo de población . Las técnicas específicas tienen sus defensores y oponentes, lo que hace que la tarea sea aún más difícil. Por ejemplo, Tibshirani llama validación cruzada (un método algo popular para encontrar parámetros de ajuste) «… una forma simple e intuitiva de estimar el error de predicción «, mientras que Chand (nd) establece que el método “casi siempre falla[n] en lograr una selección de variables consistente ”.

Aunque no existe un parámetro de ajuste «óptimo» para ningún escenario en particular, es necesario encontrar uno para cualquier análisis que involucre datos de alta dimensión. Fan & Tang recomiendan:

  • Elija un método de regularización. Por ejemplo:
  • Utilice una secuencia de parámetros de ajuste para crear una serie de modelos diferentes.
  • Estudia los diferentes modelos y selecciona el que mejor se adapte a tus necesidades. Existen varios métodos para la selección de modelos, que incluyen: Cp de Mallow , Criterio de información de Akaike (AIC) y Criterio de información bayesiano (BIC) .

Aunque el concepto suena simple (elija un método, luego elija un modelo), no funciona muy bien en algunos casos. Por ejemplo, el número de modelos se vuelve difícil de manejar cuando la dimensionalidad p crece exponencialmente junto con el tamaño de la muestra . Cuando esto sucede, Fang y Tang (2013) señalan que «Hasta donde sabemos, no existe ningún trabajo que acomode la selección de parámetros de ajuste para los métodos generales de probabilidad penalizada».

Referencias:
Chand, S. (nd). Sobre la selección de parámetros de sintonización de métodos tipo lazo: un estudio de Monte Carlo. Actas de la 9.ª Conferencia Internacional de Bhurban sobre Ciencias Aplicadas y Tecnología (IBCAST) de 2012 120 Islamabad, Pakistán, del 9 al 12 de enero de 2012 Consultado el 14 de agosto de 2017 en: http://www.cmap.polytechnique.fr/~lepennec/enseignement/ M2Orsay/06177542.pdf.
Colmillo, Y y Tang C (2013). Selección de parámetros de sintonía en alta verosimilitud penalizada dimensional. Estadista JR. Soc. B, 75, Parte 3, págs. 531–552. Recuperado el 14/8/2017 de: http://www-bcf.usc.edu/~fanyingy/publications/JRSSB-FT13.pdf
Kotz, S.; et al., editores. (2006), Enciclopedia de Ciencias Estadísticas , Wiley.
Lederer y Muller (2015). No se deje engañar por los parámetros de afinación: selección de variables sin afinación en grandes dimensiones con el TREX. Recuperado el 14 de agosto de 2017 de: https://arxiv.org/abs/1404.0541
Tibshirani, R. (2013). Selección y validación del modelo 1: Validación cruzada. PPT . Recuperado el 14/8/2017 de: http://www.stat.cmu.edu/~ryantibs/datamining/lectures/18-val1.pdf

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Un variograma traza las diferencias en pares de puntos de datos, separados por una distancia de retraso. Si un proceso…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!