Cómo calcular la desviación estándar en R

Actualizado el 7 de mayo de 2021, por Luis Benites.

Este tutorial explica cómo calcular la desviación estándar en R, incluida una explicación de la fórmula utilizada, así como varios ejemplos.

¿Qué es la desviación estándar?

La desviación estándar es una forma común de medir qué tan «dispersos» están los valores en un conjunto de datos. La fórmula para encontrar la desviación estándar de una muestra es:

Σ (x i – μ) 2 / (n-1)

donde Σ es un símbolo elegante que significa «suma», x i es el i- ésimo valor en el conjunto de datos, μ es el valor medio del conjunto de datos y n es el tamaño de la muestra.

Cómo calcular la desviación estándar en R

Podemos usar la función sd () incorporada para calcular fácilmente la desviación estándar de una muestra en R.

Por ejemplo, el siguiente código ilustra cómo encontrar la desviación estándar de muestra de un conjunto de datos:

#create dataset
 data <- c (1, 3, 4, 6, 11, 14, 17, 20, 22, 23)

#find desviación estándar
 sd (datos)

# [1] 8.279157

Tenga en cuenta que la desviación estándar es equivalente a la raíz cuadrada de la varianza:

sqrt (var (datos))

# [1] 8.279157

Tenga en cuenta que también podríamos escribir nuestra propia función personalizada para encontrar la desviación estándar de la muestra:

#crear una función personalizada para encontrar la desviación estándar
 find_sd <- function (x) {
  sqrt (suma ((x-mean (x)) ^ 2 / (length (x) -1)))
}

#find desviación estándar
 find_sd (datos)

# [1] 8.279157

También tenga en cuenta que debemos especificar na.rm = TRUE si deseamos calcular la desviación estándar muestral de un conjunto de datos y hay valores faltantes presentes:

#crear vector de valores con NA
 data_NA <- c (1, NA, 4, 6, NA, 14, 17, 20, 22, 23)

#intento de encontrar la desviación estándar
 sd (data_NA)

# [1] NA

# encontrar la desviación estándar excluyendo los valores perdidos
 sd (data_NA, na.rm = TRUE)

# [1] 8.61788

Cómo calcular varias desviaciones estándar en R a la vez

En los ejemplos anteriores, mostramos cómo encontrar la desviación estándar para un solo vector de valores. Sin embargo, también podemos usar la función sd () para encontrar la desviación estándar de una o más variables en un conjunto de datos.

Por ejemplo, considere los mtcars del conjunto de datos R integrado :

#ver las primeras seis líneas del encabezado del conjunto de datos de mtcars
 (mtcars)

# mpg cyl disp hp drat wt qsec vs am gear carb
# Mazda RX4 21,0 6160110 3,90 2,620 16,46 0 1 4 4
# Mazda RX4 Wag 21.0 6160110 3.90 2.875 17.02 0 1 4 4
# Datsun 710 22,8 4108 93 3,85 2,320 18,61 1 1 4 1
#Hornet 4 Impulso 21,4 6 258110 3,08 3,215 19,44 1 0 3 1
#Hornet Sportabout 18,7 8360175 3,15 3,440 17,02 0 0 3 2
#Valiente 18,1 6225105 2,76 3,460 20,22 1 0 3 1

Para encontrar la desviación estándar de la variable mpg , podemos usar el siguiente código:

# encontrar la desviación estándar de mpg
 sd (mtcars $ mpg)

# [1] 6.026948

También podemos encontrar la desviación estándar de varias variables a la vez usando la función apply () . Por ejemplo, el siguiente código ilustra cómo encontrar la desviación estándar de las variables mpg, cyl y wt todas a la vez:

# encontrar la desviación estándar de mpg , cyl y wt
 aplica (mtcars [, c ('mpg', 'cyl', 'wt')], 2, sd)

Y podemos encontrar la desviación estándar de cada variable en el conjunto de datos usando el siguiente código:

#find desviación estándar de todas las variables
 aplicables (mtcars, 2, sd)

# mpg cyl disp hp drat wt 
# 6.0269481 1.7859216 123.9386938 68.5628685 0.5346787 0.9784574 
# qsec vs am gear carb 
# 1.7869432 0.5040161 0.4989909 0.7378041 1.6152000 
  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Directo & CEO de Statologos LSI

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

Deja un comentario

Un gráfico circular es un tipo de gráfico que tiene la forma de un círculo y utiliza "rebanadas" para representar…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!