Hiperparámetro: definición simple

Actualizado por ultima vez el 17 de marzo de 2022, por Luis Benites.

Los hiperparámetros son parámetros del modelo que se estiman sin utilizar datos reales observados. Es básicamente una «buena conjetura» sobre cuáles podrían ser los parámetros de un modelo, sin usar sus datos reales.

Más formalmente, un hiperparámetro es un parámetro de una distribución anterior; captura la creencia previa, antes de que se observen los datos (Riggelsen, 2008). Por ejemplo, el hiperparámetro η es una suposición previa de la media (μ) de alguna distribución X. Aunque la distribución anterior normalmente no se puede describir en su totalidad, a veces es posible hacer conjeturas razonables sobre los hiperparámetros de la distribución y así construir una distribución razonable. distribución.

El término «hiperparámetro» se utiliza para distinguir los parámetros de «suposición» anteriores de otros parámetros utilizados en las estadísticas, como los coeficientes en el análisis de regresión .

Tipos

La mayoría de los hiperparámetros son de dos tipos (Fred et. al):

  • Numérico (H num ): puede ser un número real o un valor entero ; estos suelen estar limitados por un valor mínimo y un valor máximo razonables.
  • Categórico (H cat ): se elige un valor de un conjunto de valores posibles.

Uso en minería de datos

En minería de datos , un hiperparámetro se refiere a un parámetro anterior que debe ajustarse para optimizarlo (Witten et al., 2016). Un ejemplo de dicho parámetro es la “ k ” en el algoritmo del vecino más cercano . Estos parámetros deben ajustarse en el conjunto de entrenamiento solo sin mirar los datos reales, porque al hacerlo se introduce un sesgo .

El proceso de encontrar los hiperparámetros más óptimos en el aprendizaje automático se denomina optimización de hiperparámetros.
Los algoritmos comunes incluyen:

  • Optimización bayesiana: utiliza el modo para elegir qué hiperparámetros considerar, en función del rendimiento de las elecciones anteriores.
  • Grid Search: fuerza bruta todas las combinaciones posibles.
  • Búsqueda aleatoria: muestrea y evalúa aleatoriamente conjuntos de una distribución de probabilidad específica .

Referencias

Fred, A. et al. (2016). Reconocimiento de patrones: Aplicaciones y métodos: 4.ª Conferencia internacional, ICPRAM 2015, Lisboa, Portugal, 10-12 de enero de 2015, Documentos seleccionados revisados. Saltador. Recuperado el 15 de marzo de 2018 de: https://books.google.com/books?id=Bm9aCwAAQBAJ
NERSC. Mejoramiento. Recuperado el 15 de marzo de 2018 de: http://www.nersc.gov/users/data-analytics/data-analytics-2/deep-learning/hyperparameter-o/
Riggelsen, C. (2008). Métodos de Aproximación para el Aprendizaje Eficiente de Redes Bayesianas . Prensa IOS.
Witten, I. et. Alabama. (2016). Minería de datos: herramientas y técnicas prácticas de aprendizaje automático . Morgan Kaufman.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es la prueba de Durbin Watson? La prueba de Durbin Watson es una medida de la autocorrelación (también llamada…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!