Muestreo con reemplazo versus sin reemplazo

A menudo, en las estadísticas, nos interesa recopilar datos para poder responder alguna pregunta de investigación.

Por ejemplo, es posible que queramos responder las siguientes preguntas:

1. ¿Cuál es el ingreso familiar promedio en Cincinnati, Ohio?

2. ¿Cuál es el peso medio de una determinada población de tortugas?

3. ¿Qué porcentaje de residentes en un determinado condado apoyan una determinada ley?

En cada escenario, nos interesa responder alguna pregunta sobre una población , que representa todos los elementos individuales posibles que nos interesa medir.

Sin embargo, en lugar de recopilar datos sobre cada individuo de una población, normalmente solo recopilamos datos sobre una muestra de la población, que representa una parte de la población.

Hay dos formas diferentes de recolectar muestras: muestreo con reemplazo y muestreo sin reemplazo .

Este tutorial explica la diferencia entre los dos métodos junto con ejemplos de cuándo se usa cada uno en la práctica.

Muestreo con reemplazo

Supongamos que tenemos los nombres de 5 estudiantes en un sombrero:

  • Ando
  • Kayla
  • Tyler
  • Becca
  • Jessica

Suponga que nos gustaría tomar una muestra de 2 estudiantes con reemplazo.

En el primer sorteo aleatorio, podríamos seleccionar el nombre Tyler. Luego, volvíamos a colocar su nombre en el sombrero y volvíamos a dibujar. En el segundo sorteo, podríamos seleccionar el nombre Tyler nuevamente. Por tanto, nuestra muestra sería: {Tyler, Tyler}

Este es un ejemplo de obtención de una muestra con reemplazo porque reemplazamos el nombre que elegimos después de cada sorteo aleatorio.

Cuando tomamos muestras con reemplazo, los elementos de la muestra son independientes porque el resultado de un sorteo aleatorio no se ve afectado por el sorteo anterior.

Por ejemplo, la probabilidad de elegir el nombre Tyler es 1/5 en el primer sorteo y 1/5 nuevamente en el segundo sorteo. El resultado del primer sorteo no afecta la probabilidad del resultado del segundo sorteo.

El muestreo con reemplazo se usa en muchos escenarios diferentes en estadísticas y aprendizaje automático, que incluyen:

En cada uno de estos métodos, se usa el muestreo con reemplazo porque nos permite usar el mismo conjunto de datos varias veces para construir modelos en lugar de salir y recopilar nuevos datos, lo que puede llevar mucho tiempo y ser costoso.

Muestreo sin reemplazo

Nuevamente, suponga que tenemos los nombres de 5 estudiantes en un sombrero:

  • Ando
  • Kayla
  • Tyler
  • Becca
  • Jessica

Suponga que nos gustaría tomar una muestra de 2 estudiantes sin reemplazo.

En el primer sorteo aleatorio, podríamos seleccionar el nombre Tyler. Luego dejaríamos su nombre fuera del sombrero. En el segundo sorteo, podríamos seleccionar el nombre Ando. Por tanto, nuestra muestra sería: {Tyler, Ando}

Este es un ejemplo de cómo obtener una muestra sin reemplazo porque no reemplazamos el nombre que elegimos después de cada sorteo aleatorio.

Cuando tomamos muestras sin reemplazo, los elementos de la muestra son dependientes porque el resultado de un sorteo aleatorio se ve afectado por el sorteo anterior.

Por ejemplo, la probabilidad de elegir el nombre Tyler es 1/5 en el primer sorteo y la probabilidad de elegir el nombre Ando es 1/4 en el segundo sorteo. El resultado del primer sorteo afecta la probabilidad del resultado del segundo sorteo.

El muestreo sin reemplazo es el método que usamos cuando queremos seleccionar una muestra aleatoria de una población.

Por ejemplo, si queremos estimar el ingreso familiar promedio en Cincinnati, Ohio, podría haber un total de 500,000 hogares diferentes.

Por lo tanto, es posible que deseemos recopilar una muestra aleatoria de 2.000 hogares, pero no queremos que los datos de un hogar determinado aparezcan dos veces en la muestra, por lo que podríamos muestrear sin reemplazo.

En otras palabras, una vez que hemos elegido un determinado hogar para incluirlo en la muestra, no queremos que haya ninguna posibilidad de seleccionar ese hogar para volver a incluirlo.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Siempre que ajustamos un modelo de regresión lineal en R, el modelo toma la siguiente forma: Y = β 0…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!