Submuestreo y sobremuestreo en análisis de datos

Contenido de este artículo

1 Submuestreo aleatorio
2 Referencias
3 Redactor del artículo
4 ¿Te hemos ayudado?

Puedes opinar sobre este contenido:

Actualizado el 2 de octubre de 2021, por Luis Benites.

El submuestreo intenta reducir el sesgo (error) asociado con clases de datos desequilibradas. En el aprendizaje automático, el submuestreo y el sobremuestreo son dos técnicas que se ocupan de los desequilibrios en un conjunto de entrenamiento (la parte de los datos utilizada para ajustar un modelo). Puede submuestrear la clase mayoritaria, sobremuestrear la clase minoritaria o combinar las dos técnicas.

En general, el submuestreo (en lugar del sobremuestreo) de la clase mayoritaria funciona mejor para grandes conjuntos de datos. Esto se debe a que, con el sobremuestreo, se agregan más puntos de datos, lo que puede dar lugar a un conjunto de datos demasiado grande para usar clasificadores como máquinas de vectores de soporte (García-Pedrajas, 2010).

Submuestreo aleatorio

Con submuestreo aleatorio , elimina aleatoriamente miembros de la clase mayoritaria hasta alcanzar un umbral preestablecido.

Una ventaja de la selección aleatoria aquí es que no tiene que tomar decisiones sobre qué puntos son importantes y cuáles no: simplemente deja que el proceso aleatorio haga el trabajo. Varios estudios han demostrado que la selección aleatoria funciona tan bien como, si no mejor, que los procesos en los que se realizan elecciones de eliminación deliberada.

Sin embargo, una clara desventaja es que el proceso podría eliminar miembros importantes. Los problemas tienden a dar como resultado datos que no son homogéneos, tienen límites o características pequeñas (Dey, nd). Una forma de evitar este escollo es combinar undersampling y boosting (Liu et al., citado en García-Pedrajas, 2010). También es posible que desee volver a muestrear manualmente o reparar los agujeros en los datos de forma algorítmica.

Referencias

Dey, T. Submuestreo y sobremuestreo en el modelado de formas basado en muestras. Recuperado el 16 de diciembre de 2019 de: https://graphics.stanford.edu/courses/cs468-03-fall/Papers/deygiesen_undersampling.pdf
García-Pedrajas, N. et al. (2010). Trends in Applied Intelligent Systems: 23rd International Conference on Industrial Engineering and Other Applications of Applied Intelligent Systems , IEA/AIE 2010, Córdoba, España, 1 al 4 de junio de 2010, Actas. Springer Science & Business Media.

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Equipo de Statologos

Luis Benites

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Director de Statologos.com
Dereck Amesquita

I am a Bachelor of Science in Economics gratuaded from the National University of San Agustin. I have experience in Python, R and other languages, I also have knowledge of statistics and econometrics. If you need help on some issues you can write to me.
Statistics content writer
Cisco Pfoccori

15 años haciendo SEO, monetizando, haciendo nichos y ayudando a empresas a mejoras sus estrategia digital. Pueden contactarme si necesitan mejorar su digitalización, actualmente trabajo para CirculoSEO.
Editor de contenido y SEO

Submuestreo y sobremuestreo en análisis de datos

Submuestreo aleatorio

Referencias

Redactor del artículo

¿Te hemos ayudado?

1 comentario en «Submuestreo y sobremuestreo en análisis de datos»

Deja un comentario Cancelar la respuesta

Submuestreo aleatorio

Referencias

Redactor del artículo

¿Te hemos ayudado?

Artículos relacionados:

1 comentario en «Submuestreo y sobremuestreo en análisis de datos»

Deja un comentario Cancelar la respuesta

You have Successfully Subscribed!