Submuestreo y sobremuestreo en análisis de datos

Actualizado por ultima vez el 2 de octubre de 2021, por Luis Benites.

El submuestreo intenta reducir el sesgo (error) asociado con clases de datos desequilibradas. En el aprendizaje automático, el submuestreo y el sobremuestreo son dos técnicas que se ocupan de los desequilibrios en un conjunto de entrenamiento (la parte de los datos utilizada para ajustar un modelo). Puede submuestrear la clase mayoritaria, sobremuestrear la clase minoritaria o combinar las dos técnicas.

En general, el submuestreo (en lugar del sobremuestreo) de la clase mayoritaria funciona mejor para grandes conjuntos de datos. Esto se debe a que, con el sobremuestreo, se agregan más puntos de datos, lo que puede dar lugar a un conjunto de datos demasiado grande para usar clasificadores como máquinas de vectores de soporte (García-Pedrajas, 2010).

Submuestreo aleatorio

Con submuestreo aleatorio , elimina aleatoriamente miembros de la clase mayoritaria hasta alcanzar un umbral preestablecido.

Una ventaja de la selección aleatoria aquí es que no tiene que tomar decisiones sobre qué puntos son importantes y cuáles no: simplemente deja que el proceso aleatorio haga el trabajo. Varios estudios han demostrado que la selección aleatoria funciona tan bien como, si no mejor, que los procesos en los que se realizan elecciones de eliminación deliberada.

Sin embargo, una clara desventaja es que el proceso podría eliminar miembros importantes. Los problemas tienden a dar como resultado datos que no son homogéneos, tienen límites o características pequeñas (Dey, nd). Una forma de evitar este escollo es combinar undersampling y boosting (Liu et al., citado en García-Pedrajas, 2010). También es posible que desee volver a muestrear manualmente o reparar los agujeros en los datos de forma algorítmica.

Referencias

Dey, T. Submuestreo y sobremuestreo en el modelado de formas basado en muestras. Recuperado el 16 de diciembre de 2019 de: https://graphics.stanford.edu/courses/cs468-03-fall/Papers/deygiesen_undersampling.pdf
García-Pedrajas, N. et al. (2010). Trends in Applied Intelligent Systems: 23rd International Conference on Industrial Engineering and Other Applications of Applied Intelligent Systems , IEA/AIE 2010, Córdoba, España, 1 al 4 de junio de 2010, Actas. Springer Science & Business Media.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

1 comentario en «Submuestreo y sobremuestreo en análisis de datos»

Deja un comentario

¿Qué es la Correlación Serial/Autocorrelación? La correlación serial (también llamada Autocorrelación) es donde los términos de error en una serie…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!