Muestreo de yacimientos

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

Actualizado el 26 de octubre de 2021, por Luis Benites.

El muestreo de reservorio es un método de muestreo aleatorio basado en cuotas, que se utiliza para obtener un tamaño de muestra particular cuando no se conoce el tamaño de la población (es decir, cuando se trata de un flujo de datos de longitud desconocida). También se puede utilizar para crear una muestra para conjuntos de datos muy grandes.

Se llama muestreo de reservorio porque los elementos seleccionados se colocan en un reservorio (es decir, un conjunto de almacenamiento). A medida que se recibe cada tupla de flujo, el algoritmo se actualiza dinámicamente. El depósito se puede actualizar con reemplazo o sin reemplazo .

Originalmente desarrollado para el procesamiento de un solo paso a partir de cintas magnéticas (Andrade et al. 2014), el muestreo de yacimientos ahora se utiliza para el procesamiento de flujos de un solo paso en la minería de datos .

Muestreo de reservorio sin reemplazo

Una muestra de yacimiento sin reemplazo es aquella donde cada elemento distinto tiene la misma probabilidad de ser seleccionado: Donde:
muestreo de reservorio

  • n = tamaño de la población.
  • m = un elemento distinto.

Como el muestreo se realiza sin reemplazo, cada elemento del conjunto es distinto (es decir, solo se selecciona una vez).

Muestreo de reservorio con reemplazo

Muestreo de reservorio con reemplazo significa que cada elemento tiene la posibilidad de ser elegido para el reservorio más de una vez. Debe garantizar que todos los elementos de la muestra tengan la misma probabilidad (1/n) de ser colocados en una cierta posición en la muestra, sin importar qué elementos estén en las otras posiciones. Formalmente, esto se escribe como:

PAGS ( – { yo 1 , yo 2 , …, yo metro , } ) = 1/ norte metro

Referencias

Andrade, H. et al. (2014). Fundamentos del procesamiento de flujo: diseño de aplicaciones, sistemas y análisis. Prensa de la Universidad de Cambridge.
Parque, B. et al. Muestreo aleatorio basado en reservorios con reemplazo del flujo de datos. (1987). En Actas de la Cuarta Conferencia Internacional SIAM sobre Minería de Datos (Proceedings in Applied Mathematics ) 4ª ed. Edición. Sociedad de Matemática Industrial y Aplicada. págs. 492-496.
Vitter, J. (1985). Muestreo aleatorio con depósito . Transacciones ACM en software matemático, vol. 11, No. 1, marzo.
Steele, P. y Pallone, S. (2017). Muestreo de yacimientos. Recuperado el 6 de enero de 2021 de: https://people.orie.cornell.edu/snp32/orie_6125/algorithms/reservoir-sampling.html

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

¿Qué es una distribución de Laplace? La distribución de Laplace , una de las primeras distribuciones de probabilidad conocidas, es…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!