Contenido de este artículo
- 0
- 0
- 0
- 0
Actualizado el 26 de octubre de 2021, por Luis Benites.
El muestreo de reservorio es un método de muestreo aleatorio basado en cuotas, que se utiliza para obtener un tamaño de muestra particular cuando no se conoce el tamaño de la población (es decir, cuando se trata de un flujo de datos de longitud desconocida). También se puede utilizar para crear una muestra para conjuntos de datos muy grandes.
Se llama muestreo de reservorio porque los elementos seleccionados se colocan en un reservorio (es decir, un conjunto de almacenamiento). A medida que se recibe cada tupla de flujo, el algoritmo se actualiza dinámicamente. El depósito se puede actualizar con reemplazo o sin reemplazo .
Originalmente desarrollado para el procesamiento de un solo paso a partir de cintas magnéticas (Andrade et al. 2014), el muestreo de yacimientos ahora se utiliza para el procesamiento de flujos de un solo paso en la minería de datos .
Muestreo de reservorio sin reemplazo
Una muestra de yacimiento sin reemplazo es aquella donde cada elemento distinto tiene la misma probabilidad de ser seleccionado: Donde:
- n = tamaño de la población.
- m = un elemento distinto.
Como el muestreo se realiza sin reemplazo, cada elemento del conjunto es distinto (es decir, solo se selecciona una vez).
Muestreo de reservorio con reemplazo
Muestreo de reservorio con reemplazo significa que cada elemento tiene la posibilidad de ser elegido para el reservorio más de una vez. Debe garantizar que todos los elementos de la muestra tengan la misma probabilidad (1/n) de ser colocados en una cierta posición en la muestra, sin importar qué elementos estén en las otras posiciones. Formalmente, esto se escribe como:
PAGS ( – { yo 1 , yo 2 , …, yo metro , } ) = 1/ norte metro
Referencias
Andrade, H. et al. (2014). Fundamentos del procesamiento de flujo: diseño de aplicaciones, sistemas y análisis. Prensa de la Universidad de Cambridge.
Parque, B. et al. Muestreo aleatorio basado en reservorios con reemplazo del flujo de datos. (1987). En Actas de la Cuarta Conferencia Internacional SIAM sobre Minería de Datos (Proceedings in Applied Mathematics ) 4ª ed. Edición. Sociedad de Matemática Industrial y Aplicada. págs. 492-496.
Vitter, J. (1985). Muestreo aleatorio con depósito . Transacciones ACM en software matemático, vol. 11, No. 1, marzo.
Steele, P. y Pallone, S. (2017). Muestreo de yacimientos. Recuperado el 6 de enero de 2021 de: https://people.orie.cornell.edu/snp32/orie_6125/algorithms/reservoir-sampling.html
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: