Cómo calcular cuantiles por grupo en R (con ejemplos)

En estadística, los cuantiles son valores que dividen un conjunto de datos clasificado en grupos iguales.

Para calcular los cuantiles agrupados por una determinada variable en R, podemos usar las siguientes funciones del paquete dplyr en R:

biblioteca (dplyr)

# definir cuantiles de interés
 q = c (.25, .5, .75)

#calcular cuantiles agrupando la variable
 df%>%
  group_by (grouping_variable)%>%
  resumir (quant25 = quantile (numeric_variable, probs = q [1]),
            quant50 = cuantil (numeric_variable, probs = q [2]),
            quant75 = cuantil (variable_numérica, probs = q [3]))

Los siguientes ejemplos muestran cómo utilizar esta sintaxis en la práctica.

Ejemplos: cuantiles por grupo en R

El siguiente código muestra cómo calcular los cuantiles para el número de victorias agrupadas por equipo para un conjunto de datos en R:

biblioteca (dplyr)

#create data
 df <- data. frame (equipo = c ('A', 'A', 'A', 'A', 'A', 'A', 'A', 'A',
                        'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
                        'C', 'C', 'C', 'C', 'C', 'C', 'C', 'C'),
                 gana = c (2, 4, 4, 5, 7, 9, 13, 13, 15, 15, 14, 13,
                        11, 9, 9, 8, 8, 16, 19, 21, 24, 20, 19, 18))

#ver las primeras seis filas de datos
cabeza (df)

  el equipo gana
1 A 2
2 A 4
3 A 4
4 A 5
5 A 7
6 A 9

# definir cuantiles de interés
 q = c (.25, .5, .75)

#calcular cuantiles agrupando la variable
 df%>%
  group_by (equipo)%>%
  resumir (quant25 = quantile (gana, probs = q [1]),
            quant50 = cuantil (gana, probs = q [2]),
            quant75 = quantile (gana, probs = q [3]))

  equipo quant25 quant50 quant75           
1 A 4 6 10  
2 B 9 12 14,2
3 C 17,5 19 20,2

Tenga en cuenta que también podemos especificar cualquier cantidad de cuantiles que nos gustaría:

# definir cuantiles de interés
 q = c (.2, .4, .6, .8)

#calcular cuantiles agrupando la variable
 df%>%
  group_by (equipo)%>%
  resumir (quant20 = quantile (gana, probs = q [1]),
            quant40 = cuantil (gana, probs = q [2]),
            quant60 = cuantil (gana, probs = q [3]),
            quant80 = cuantil (gana, probs = q [4]))

  equipo quant20 quant40 quant60 quant80
              
1 A 4 4,8 7,4 11,4
2 B 9 10,6 13,2 14,6
3 C 16,8 18,8 19,2 20,6

También podemos optar por calcular solo un cuantil por grupo. Por ejemplo, aquí se explica cómo calcular el percentil 90 del número de victorias de cada equipo:

#calcular el percentil 90 de victorias por equipo
 df%>%
  group_by (equipo)%>%
  resumir (quant90 = quantile (gana, probs = 0.9 ))

   equipo quant90
     
1 A 13  
2 B 15  
3 C 21,9

Recursos adicionales

Cómo calcular los cuartiles en R
Cómo calcular los deciles en R
Cómo calcular los percentiles en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La distancia de Hamming entre dos vectores es simplemente la suma de los elementos correspondientes que difieren entre los vectores.…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!