Muestreo sistemático en R (con ejemplos)

Los investigadores a menudo toman muestras de una población y usan los datos de la muestra para sacar conclusiones sobre la población en su conjunto.

Un método de muestreo comúnmente utilizado es el muestreo sistemático , que se implementa con un proceso simple de dos pasos:

1. Coloque a cada miembro de una población en algún orden.

2. Elija un punto de partida aleatorio y seleccione cada enésimo miembro para estar en la muestra.

Este tutorial explica cómo realizar un muestreo sistemático en R.

Ejemplo: muestreo sistemático en R

Suponga que un superintendente desea obtener una muestra de 100 estudiantes de una escuela que tiene 500 estudiantes en total. Ella elige usar un muestreo sistemático en el que coloca a cada estudiante en orden alfabético de acuerdo con su apellido, elige al azar un punto de partida y elige a cada quinto estudiante para que esté en la muestra.

El siguiente código muestra cómo crear un marco de datos falso para trabajar en R:

#Haga que este ejemplo sea reproducible
set.seed (1)

#crear una función simple para generar apellidos aleatorios
 randomNames <- función (n = 5000) {
  do.call (paste0, replicate (5, sample (LETTERS, n, TRUE), FALSE))
}

#create data frame
 df <- data.frame (last_name = randomNames (500),
                 gpa = rnorm (500, media = 82, sd = 3))

#ver las primeras seis filas del marco de datos
cabeza (df)

  apellido gpa
1 GONBW 82.19580
2 JRRWZ 85.10598
3 ORJFW 88.78065
4 XRYNL 85.94409
5 FMDCE 79.38993
6 XZBJC 80.49061

Y el siguiente código muestra cómo obtener una muestra de 100 estudiantes mediante muestreo sistemático:

#define la función para obtener una muestra sistemática 
get_sys = function (N, n) {
  k = techo (N / n)
  r = muestra (1: k, 1)
  seq (r, r + k * (n-1), k)
}

#obtener muestra sistemática
 sys_sample_df = df [get_sys ( nrow (df), 100),]

#ver las primeras seis filas del encabezado del marco de datos
 (sys_sample_df)

   apellido gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300

#ver dimensiones del marco de datos
 dim (sys_sample_df)

[1] 100 2

Observe que el primer miembro incluido en la muestra estaba en la fila 3 del marco de datos original. Cada miembro subsiguiente de la muestra se ubica 5 filas después del miembro anterior.

Y al usar dim () podemos ver que la muestra sistemática que obtuvimos es un marco de datos con 100 filas y 2 columnas.

Recursos adicionales

Tipos de métodos de muestreo Muestreo
estratificado en R
Muestreo de conglomerados en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Dos variables que pueden ocurrir en los modelos de regresión son: 1. Variables endógenas: Variables que se explican por otras…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!