Cómo calcular deciles en R (con ejemplos)

En estadística, los deciles son números que dividen un conjunto de datos en diez grupos de igual frecuencia.

El primer decil es el punto donde el 10% de todos los valores de datos se encuentran por debajo de él. El segundo decil es el punto donde el 20% de todos los valores de datos se encuentran por debajo de él, y así sucesivamente.

Podemos usar la siguiente sintaxis para calcular los deciles de un conjunto de datos en R:

cuantil (datos, problemas = seq (.1, .9, por = .1 ))

El siguiente ejemplo muestra cómo utilizar esta función en la práctica.

Ejemplo: calcular deciles en R

El siguiente código muestra cómo crear un conjunto de datos falso con 20 valores y luego calcular los valores para los deciles del conjunto de datos:

#create dataset
 data <- c (56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
          89, 90, 91, 92, 93, 93, 94, 95, 97, 99)

# calcular los deciles del cuantil del conjunto de datos
 (datos, problemas = seq (.1, .9, por = .1 ))

 10% 20% 30% 40% 50% 60% 70% 80% 90% 
63,4 67,8 76,5 83,6 88,5 90,4 92,3 93,2 95,2 

La forma de interpretar los deciles es la siguiente:

  • El 10% de todos los valores de datos se encuentran por debajo de 63,4
  • El 20% de todos los valores de datos se encuentran por debajo de 67,8 .
  • El 30% de todos los valores de datos se encuentran por debajo de 76,5 .
  • El 40% de todos los valores de datos se encuentran por debajo de 83,6 .
  • El 50% de todos los valores de datos se encuentran por debajo de 88,5 .
  • El 60% de todos los valores de los datos se encuentran por debajo de 90,4 .
  • El 70% de todos los valores de los datos se encuentran por debajo de 92,3 .
  • El 80% de todos los valores de datos se encuentran por debajo de 93,2 .
  • El 90% de todos los valores de los datos se encuentran por debajo de 95,2 .

Vale la pena señalar que el valor en el percentil 50 es igual al valor mediano del conjunto de datos.

Ejemplo: colocar valores en deciles en R

Para colocar cada valor de datos en un decil, podemos usar la función ntile (x, ngroups) del paquete dplyr en R.

A continuación, se explica cómo utilizar esta función para el conjunto de datos que creamos en el ejemplo anterior:

biblioteca (dplyr)

#create conjunto de datos
data <- data.frame (valores = c (56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                            89, 90, 91, 92, 93, 93, 94, 95, 97, 99))

# coloque cada valor en un decil
 datos $ decil <- ntile (datos, 10)

#ver datos
datos

   valores decil
1 56 1
2 58 1
3 64 2
4 67 2
5 68 3
6 73 3
7 78 4
8 83 4
9 84 5
10 88 5
11 89 6
12 90 6
13 91 7
14 92 7
15 93 8
16 93 8
17 94 9
18 95 9
19 97 10
20 99 10

La forma de interpretar la salida es la siguiente:

  • El valor de los datos 56 cae entre el percentil 0% y el 10%, por lo que cae en el primer decil.
  • El valor de los datos 58 cae entre el percentil 0% y el 10%, por lo que cae en el primer decil.
  • El valor de los datos 64 cae entre el percentil 10% y 20%, por lo que cae en el segundo decil.
  • El valor de los datos 67 cae entre el percentil 10% y 20%, por lo que cae en el segundo decil.
  • El valor de los datos 68 cae entre el percentil 20% y 30%, por lo que cae en el tercer decil.

Y así.

Recursos adicionales

Cómo calcular percentiles en R
Cómo calcular cuartiles en R
Cómo crear tablas de frecuencia en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Puede usar la siguiente sintaxis para eliminar filas que contienen una determinada cadena en un DataFrame de pandas: df [df…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!