Muestreo sistemático en R (con ejemplos)

Los investigadores a menudo toman muestras de una población y usan los datos de la muestra para sacar conclusiones sobre la población en su conjunto.

Un método de muestreo comúnmente utilizado es el muestreo sistemático , que se implementa con un proceso simple de dos pasos:

1. Coloque a cada miembro de una población en algún orden.

2. Elija un punto de partida aleatorio y seleccione cada enésimo miembro para estar en la muestra.

Este tutorial explica cómo realizar un muestreo sistemático en R.

Ejemplo: muestreo sistemático en R

Suponga que un superintendente desea obtener una muestra de 100 estudiantes de una escuela que tiene 500 estudiantes en total. Ella elige usar un muestreo sistemático en el que coloca a cada estudiante en orden alfabético de acuerdo con su apellido, elige al azar un punto de partida y elige a cada quinto estudiante para que esté en la muestra.

El siguiente código muestra cómo crear un marco de datos falso para trabajar en R:

#Haga que este ejemplo sea reproducible
set.seed (1)

#crear una función simple para generar apellidos aleatorios
 randomNames <- función (n = 5000) {
  do.call (paste0, replicate (5, sample (LETTERS, n, TRUE), FALSE))
}

#create data frame
 df <- data.frame (last_name = randomNames (500),
                 gpa = rnorm (500, media = 82, sd = 3))

#ver las primeras seis filas del marco de datos
cabeza (df)

  apellido gpa
1 GONBW 82.19580
2 JRRWZ 85.10598
3 ORJFW 88.78065
4 XRYNL 85.94409
5 FMDCE 79.38993
6 XZBJC 80.49061

Y el siguiente código muestra cómo obtener una muestra de 100 estudiantes mediante muestreo sistemático:

#define la función para obtener una muestra sistemática 
get_sys = function (N, n) {
  k = techo (N / n)
  r = muestra (1: k, 1)
  seq (r, r + k * (n-1), k)
}

#obtener muestra sistemática
 sys_sample_df = df [get_sys ( nrow (df), 100),]

#ver las primeras seis filas del encabezado del marco de datos
 (sys_sample_df)

   apellido gpa
3 ORJFW 88.78065
8 RWPSB 81.96988
13 RACZU 79.21433
18 ZOHKA 80.47246
23 QJETK 87.09991
28 JTHWB 83.87300

#ver dimensiones del marco de datos
 dim (sys_sample_df)

[1] 100 2

Observe que el primer miembro incluido en la muestra estaba en la fila 3 del marco de datos original. Cada miembro subsiguiente de la muestra se ubica 5 filas después del miembro anterior.

Y al usar dim () podemos ver que la muestra sistemática que obtuvimos es un marco de datos con 100 filas y 2 columnas.

Recursos adicionales

Tipos de métodos de muestreo Muestreo
estratificado en R
Muestreo de conglomerados en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Dos variables que pueden ocurrir en los modelos de regresión son: 1. Variables endógenas: Variables que se explican por otras…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!