Contenido de este artículo
- 0
- 0
- 0
- 0
Actualizado el 2 de octubre de 2021, por Luis Benites.
El submuestreo intenta reducir el sesgo (error) asociado con clases de datos desequilibradas. En el aprendizaje automático, el submuestreo y el sobremuestreo son dos técnicas que se ocupan de los desequilibrios en un conjunto de entrenamiento (la parte de los datos utilizada para ajustar un modelo). Puede submuestrear la clase mayoritaria, sobremuestrear la clase minoritaria o combinar las dos técnicas.
En general, el submuestreo (en lugar del sobremuestreo) de la clase mayoritaria funciona mejor para grandes conjuntos de datos. Esto se debe a que, con el sobremuestreo, se agregan más puntos de datos, lo que puede dar lugar a un conjunto de datos demasiado grande para usar clasificadores como máquinas de vectores de soporte (García-Pedrajas, 2010).
Submuestreo aleatorio
Con submuestreo aleatorio , elimina aleatoriamente miembros de la clase mayoritaria hasta alcanzar un umbral preestablecido.
Una ventaja de la selección aleatoria aquí es que no tiene que tomar decisiones sobre qué puntos son importantes y cuáles no: simplemente deja que el proceso aleatorio haga el trabajo. Varios estudios han demostrado que la selección aleatoria funciona tan bien como, si no mejor, que los procesos en los que se realizan elecciones de eliminación deliberada.
Sin embargo, una clara desventaja es que el proceso podría eliminar miembros importantes. Los problemas tienden a dar como resultado datos que no son homogéneos, tienen límites o características pequeñas (Dey, nd). Una forma de evitar este escollo es combinar undersampling y boosting (Liu et al., citado en García-Pedrajas, 2010). También es posible que desee volver a muestrear manualmente o reparar los agujeros en los datos de forma algorítmica.
Referencias
Dey, T. Submuestreo y sobremuestreo en el modelado de formas basado en muestras. Recuperado el 16 de diciembre de 2019 de: https://graphics.stanford.edu/courses/cs468-03-fall/Papers/deygiesen_undersampling.pdf
García-Pedrajas, N. et al. (2010). Trends in Applied Intelligent Systems: 23rd International Conference on Industrial Engineering and Other Applications of Applied Intelligent Systems , IEA/AIE 2010, Córdoba, España, 1 al 4 de junio de 2010, Actas. Springer Science & Business Media.
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:
La información que he revisado sobre el submuestreo es clara. Saludos