Cómo calcular deciles en R (con ejemplos)

En estadística, los deciles son números que dividen un conjunto de datos en diez grupos de igual frecuencia.

El primer decil es el punto donde el 10% de todos los valores de datos se encuentran por debajo de él. El segundo decil es el punto donde el 20% de todos los valores de datos se encuentran por debajo de él, y así sucesivamente.

Podemos usar la siguiente sintaxis para calcular los deciles de un conjunto de datos en R:

cuantil (datos, problemas = seq (.1, .9, por = .1 ))

El siguiente ejemplo muestra cómo utilizar esta función en la práctica.

Ejemplo: calcular deciles en R

El siguiente código muestra cómo crear un conjunto de datos falso con 20 valores y luego calcular los valores para los deciles del conjunto de datos:

#create dataset
 data <- c (56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
          89, 90, 91, 92, 93, 93, 94, 95, 97, 99)

# calcular los deciles del cuantil del conjunto de datos
 (datos, problemas = seq (.1, .9, por = .1 ))

 10% 20% 30% 40% 50% 60% 70% 80% 90% 
63,4 67,8 76,5 83,6 88,5 90,4 92,3 93,2 95,2 

La forma de interpretar los deciles es la siguiente:

  • El 10% de todos los valores de datos se encuentran por debajo de 63,4
  • El 20% de todos los valores de datos se encuentran por debajo de 67,8 .
  • El 30% de todos los valores de datos se encuentran por debajo de 76,5 .
  • El 40% de todos los valores de datos se encuentran por debajo de 83,6 .
  • El 50% de todos los valores de datos se encuentran por debajo de 88,5 .
  • El 60% de todos los valores de los datos se encuentran por debajo de 90,4 .
  • El 70% de todos los valores de los datos se encuentran por debajo de 92,3 .
  • El 80% de todos los valores de datos se encuentran por debajo de 93,2 .
  • El 90% de todos los valores de los datos se encuentran por debajo de 95,2 .

Vale la pena señalar que el valor en el percentil 50 es igual al valor mediano del conjunto de datos.

Ejemplo: colocar valores en deciles en R

Para colocar cada valor de datos en un decil, podemos usar la función ntile (x, ngroups) del paquete dplyr en R.

A continuación, se explica cómo utilizar esta función para el conjunto de datos que creamos en el ejemplo anterior:

biblioteca (dplyr)

#create conjunto de datos
data <- data.frame (valores = c (56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                            89, 90, 91, 92, 93, 93, 94, 95, 97, 99))

# coloque cada valor en un decil
 datos $ decil <- ntile (datos, 10)

#ver datos
datos

   valores decil
1 56 1
2 58 1
3 64 2
4 67 2
5 68 3
6 73 3
7 78 4
8 83 4
9 84 5
10 88 5
11 89 6
12 90 6
13 91 7
14 92 7
15 93 8
16 93 8
17 94 9
18 95 9
19 97 10
20 99 10

La forma de interpretar la salida es la siguiente:

  • El valor de los datos 56 cae entre el percentil 0% y el 10%, por lo que cae en el primer decil.
  • El valor de los datos 58 cae entre el percentil 0% y el 10%, por lo que cae en el primer decil.
  • El valor de los datos 64 cae entre el percentil 10% y 20%, por lo que cae en el segundo decil.
  • El valor de los datos 67 cae entre el percentil 10% y 20%, por lo que cae en el segundo decil.
  • El valor de los datos 68 cae entre el percentil 20% y 30%, por lo que cae en el tercer decil.

Y así.

Recursos adicionales

Cómo calcular percentiles en R
Cómo calcular cuartiles en R
Cómo crear tablas de frecuencia en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Puede usar la siguiente sintaxis para eliminar filas que contienen una determinada cadena en un DataFrame de pandas: df [df…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!