La guía completa: cómo agrupar y resumir datos en R

Dos de las tareas más comunes que realizará en el análisis de datos son agrupar y resumir datos. Afortunadamente, el paquete dplyr en R le permite agrupar y resumir datos rápidamente.

Este tutorial proporciona una guía rápida para comenzar con dplyr.

Instalar y cargar el paquete dplyr

Antes de poder utilizar las funciones del paquete dplyr, primero debe cargar el paquete:

#install dplyr (si aún no está instalado)
 install.packages (' dplyr ')

#cargar  
biblioteca dplyr (dplyr)

A continuación, ilustraremos varios ejemplos de cómo usar las funciones en dplyr para agrupar y resumir datos usando el conjunto de datos R integrado llamado mtcars :

#obtener filas y columnas de mtcars
tenue (mtcars)

[1] 32 11

#ver las primeras seis filas de mtcars
 head (mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21,0 6160110 3,90 2,620 16,46 0 1 4 4
Mazda RX4 Wag 21.0 6160110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22,8 4108 93 3,85 2,320 18,61 1 1 4 1
Hornet 4 Impulso 21,4 6258110 3,08 3,215 19,44 1 0 3 1
Hornet Sportabout 18,7 8360175 3,15 3,440 17,02 0 0 3 2
Valiente 18,1 6225105 2,76 3,460 20,22 1 0 3 1

La sintaxis básica que usaremos para agrupar y resumir datos es la siguiente:

data%>%
   group_by (col_name)%>%
   resume (summary_name = summary_function)

Nota: Las funciones resumir () y resumir () son equivalentes.

Ejemplo 1: encontrar la media y la mediana por grupo

El siguiente código muestra cómo calcular medidas de tendencia central por grupo, incluida la media y la mediana:

# encontrar mpg medio por cilindro
mtcars%>%
  group_by (cyl)%>%
   resume (mean_mpg = mean (mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl mean_mpg
      
1 4 26,7
2 6 19,7
3 8 15,1

# encontrar la mediana de mpg por cilindro
 mtcars%>%
   group_by (cyl)%>%
   resumir (median_mpg = median (mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl median_mpg
        
1 4 26  
2 6 19,7
3 8 15,2

Ejemplo 2: encontrar medidas de propagación por grupo

El siguiente código muestra cómo calcular las medidas de dispersión por grupo, incluida la desviación estándar, el rango intercuartílico y la desviación absoluta mediana:

#find sd, IQR y mad por cilindro
mtcars%>%
  group_by (cyl)%>%
   resume (sd_mpg = sd (mpg, na.rm = TRUE ),
            iqr_mpg = IQR (mpg, na.rm = VERDADERO ),
            mad_mpg = mad (mpg, na.rm = VERDADERO ))

# A tibble: 3 x 4
    cyl sd_mpg iqr_mpg mad_mpg
          
1 4 4,51 7,60 6,52
2 6 1,45 2,35 1,93
3 8 2,56 1,85 1,56

Ejemplo 3: Buscar recuento por grupo

El siguiente código muestra cómo encontrar el recuento y el recuento único por grupo en R:

# encontrar el recuento de filas y el recuento de filas único por cilindro
mtcars%>%
  group_by (cyl)%>%
   resume (count_mpg = n (),
            u_count_mpg = n_distinct (mpg))

# A tibble: 3 x 3
    cyl count_mpg u_count_mpg
              
1 4 11 9
2 6 7 6
3 8 14 12

Ejemplo 4: Encontrar percentil por grupo

El siguiente código muestra cómo encontrar el percentil 90 de los valores de mpg por grupo de cilindros:

# Encuentre el percentil 90 de mpg para cada grupo de cilindros
mtcars%>%
  group_by (cyl)%>%
   resume (quant90 = quantile (mpg, probs = .9))

# A tibble: 3 x 2
    cyl quant90
     
1 4 32,4
2 6 21,2
3 8 18,3

Recursos adicionales

Puede encontrar la documentación completa para el paquete dplyr junto con útiles hojas de trucos de visualización aquí .

Otras funciones útiles que se pueden utilizar junto con group_by () y Resumir () incluyen funciones para el filtrado de filas de tramas de datos y la organización de filas en ciertos órdenes .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Deja un comentario en el muro del agradecimiento para que todos sepán que Statologos explica mejor y facil y si te es viable puedes hacer una donación:

Puedes hacer un donativo
Muro del agradecimiento

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

El espacio muestral de un experimento es el conjunto de todos los posibles resultados del experimento. Por ejemplo, supongamos que…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!