Muestreo de yacimientos

Actualizado por ultima vez el 26 de octubre de 2021, por Luis Benites.

El muestreo de reservorio es un método de muestreo aleatorio basado en cuotas, que se utiliza para obtener un tamaño de muestra particular cuando no se conoce el tamaño de la población (es decir, cuando se trata de un flujo de datos de longitud desconocida). También se puede utilizar para crear una muestra para conjuntos de datos muy grandes.

Se llama muestreo de reservorio porque los elementos seleccionados se colocan en un reservorio (es decir, un conjunto de almacenamiento). A medida que se recibe cada tupla de flujo, el algoritmo se actualiza dinámicamente. El depósito se puede actualizar con reemplazo o sin reemplazo .

Originalmente desarrollado para el procesamiento de un solo paso a partir de cintas magnéticas (Andrade et al. 2014), el muestreo de yacimientos ahora se utiliza para el procesamiento de flujos de un solo paso en la minería de datos .

Muestreo de reservorio sin reemplazo

Una muestra de yacimiento sin reemplazo es aquella donde cada elemento distinto tiene la misma probabilidad de ser seleccionado: Donde:
muestreo de reservorio

  • n = tamaño de la población.
  • m = un elemento distinto.

Como el muestreo se realiza sin reemplazo, cada elemento del conjunto es distinto (es decir, solo se selecciona una vez).

Muestreo de reservorio con reemplazo

Muestreo de reservorio con reemplazo significa que cada elemento tiene la posibilidad de ser elegido para el reservorio más de una vez. Debe garantizar que todos los elementos de la muestra tengan la misma probabilidad (1/n) de ser colocados en una cierta posición en la muestra, sin importar qué elementos estén en las otras posiciones. Formalmente, esto se escribe como:

PAGS ( – { yo 1 , yo 2 , …, yo metro , } ) = 1/ norte metro

Referencias

Andrade, H. et al. (2014). Fundamentos del procesamiento de flujo: diseño de aplicaciones, sistemas y análisis. Prensa de la Universidad de Cambridge.
Parque, B. et al. Muestreo aleatorio basado en reservorios con reemplazo del flujo de datos. (1987). En Actas de la Cuarta Conferencia Internacional SIAM sobre Minería de Datos (Proceedings in Applied Mathematics ) 4ª ed. Edición. Sociedad de Matemática Industrial y Aplicada. págs. 492-496.
Vitter, J. (1985). Muestreo aleatorio con depósito . Transacciones ACM en software matemático, vol. 11, No. 1, marzo.
Steele, P. y Pallone, S. (2017). Muestreo de yacimientos. Recuperado el 6 de enero de 2021 de: https://people.orie.cornell.edu/snp32/orie_6125/algorithms/reservoir-sampling.html

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es una distribución de Laplace? La distribución de Laplace , una de las primeras distribuciones de probabilidad conocidas, es…
statologos comunidad-2

You have Successfully Subscribed!