Cómo calcular distribuciones de muestreo en R

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

Una distribución de muestreo es una distribución de probabilidad de una determinada estadística basada en muchas muestras aleatorias de una sola población.

Este tutorial explica cómo hacer lo siguiente con distribuciones de muestreo en R:

  • Genere una distribución de muestreo.
  • Visualice la distribución muestral.
  • Calcule la desviación estándar y media de la distribución muestral.
  • Calcule probabilidades con respecto a la distribución muestral.

Generar una distribución de muestreo en R

El siguiente código muestra cómo generar una distribución de muestreo en R:

#Haga que este ejemplo sea reproducible
 set.seed (0)

# definir el número de muestras
 n = 10000

#create un vector vacío de longitud n
 sample_means = rep (NA, n)

#llene el vector vacío con medias
 para (i en 1: n) {
  sample_means [i] = mean ( rnorm (20, mean = 5.3, sd = 9))
}

#ver los primeros seis medios de muestra
 head (sample_means)

[1] 5.283992 6.304845 4.259583 3.915274 7.756386 4.532656

En este ejemplo usamos la función rnorm () para calcular la media de 10,000 muestras en las que cada tamaño de muestra era 20 y se generó a partir de una distribución normal con una media de 5.3 y una desviación estándar de 9.

Podemos ver que la primera muestra tenía una media de 5,283992, la segunda muestra una media de 6,304845 y así sucesivamente.

Visualice la distribución de muestreo

El siguiente código muestra cómo crear un histograma simple para visualizar la distribución de muestreo:

#create histogram para visualizar la distribución de muestreo 
hist (sample_means, main = "", xlab = " Sample Means ", col = " steelblue ")

Distribución muestral en el histograma R

Podemos ver que la distribución muestral tiene forma de campana con un pico cerca del valor 5.

Sin embargo, a partir de las colas de la distribución, podemos ver que algunas muestras tenían medias superiores a 10 y otras tenían medias inferiores a 0.

Encuentre la media y la desviación estándar

El siguiente código muestra cómo calcular la desviación estándar y media de la distribución muestral:

#medio de distribución muestral
mean (sample_means)

[1] 5.287195

# desviación estándar de la distribución muestral
 sd (sample_means)

[1] 2.00224

T heoretically la media de la distribución de muestreo debe ser 5.3. Podemos ver que la media de muestreo real en este ejemplo es 5.287195 , que está cerca de 5.3.

Y, en teoría, la desviación estándar de la distribución muestral debería ser igual a s / √n, que sería 9 / √20 = 2.012. Podemos ver que la desviación estándar real de la distribución muestral es 2.00224 , que está cerca de 2.012.

Calcular probabilidades

El siguiente código muestra cómo calcular la probabilidad de obtener un determinado valor para una media de la muestra, según la media de la población, la desviación estándar de la población y el tamaño de la muestra.

# calcular la probabilidad de que la media de la muestra sea menor o igual a 6
suma (medias_muestra <= 6) / longitud (medias_muestra)

En este ejemplo particular, encontramos la probabilidad de que la media de la muestra sea menor o igual a 6, dado que la media de la población es 5.3, la desviación estándar de la población es 9 y el tamaño de la muestra es 20 es 0.6417 .

Esto está muy cerca de la probabilidad calculada por la Calculadora de distribución de muestreo :

Cálculo de distribución de muestreo

El código completo

El código R completo utilizado en este ejemplo se muestra a continuación:

#Haga que este ejemplo sea reproducible
 set.seed (0)

# definir el número de muestras
 n = 10000

#create un vector vacío de longitud n
 sample_means = rep (NA, n)

#llene el vector vacío con medias
 para (i en 1: n) {
  sample_means [i] = mean ( rnorm (20, mean = 5.3, sd = 9))
}

#ver los primeros seis medios de muestra
 head (sample_means)

#crear histograma para visualizar la distribución de muestreo
 hist (sample_means, main = "", xlab = " Sample Means ", col = " steelblue ")

# media de la distribución muestral
 media (sample_means)

# desviación estándar de la distribución muestral
 sd (sample_means)

# calcular la probabilidad de que la media de la muestra sea menor o igual a 6
suma (medias_muestra <= 6) / longitud (medias_muestra)

Recursos adicionales

Introducción a las distribuciones
muestrales Calculadora de distribución muestral
Introducción al teorema del límite central

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Uno de los problemas más comunes que encontrará en el aprendizaje automático es la multicolinealidad . Esto ocurre cuando dos…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!