La guía completa: cómo agrupar y resumir datos en R

Dos de las tareas más comunes que realizará en el análisis de datos son agrupar y resumir datos. Afortunadamente, el paquete dplyr en R le permite agrupar y resumir datos rápidamente.

Este tutorial proporciona una guía rápida para comenzar con dplyr.

Instalar y cargar el paquete dplyr

Antes de poder utilizar las funciones del paquete dplyr, primero debe cargar el paquete:

#install dplyr (si aún no está instalado)
 install.packages (' dplyr ')

#cargar  
biblioteca dplyr (dplyr)

A continuación, ilustraremos varios ejemplos de cómo usar las funciones en dplyr para agrupar y resumir datos usando el conjunto de datos R integrado llamado mtcars :

#obtener filas y columnas de mtcars
tenue (mtcars)

[1] 32 11

#ver las primeras seis filas de mtcars
 head (mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21,0 6160110 3,90 2,620 16,46 0 1 4 4
Mazda RX4 Wag 21.0 6160110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22,8 4108 93 3,85 2,320 18,61 1 1 4 1
Hornet 4 Impulso 21,4 6258110 3,08 3,215 19,44 1 0 3 1
Hornet Sportabout 18,7 8360175 3,15 3,440 17,02 0 0 3 2
Valiente 18,1 6225105 2,76 3,460 20,22 1 0 3 1

La sintaxis básica que usaremos para agrupar y resumir datos es la siguiente:

data%>%
   group_by (col_name)%>%
   resume (summary_name = summary_function)

Nota: Las funciones resumir () y resumir () son equivalentes.

Ejemplo 1: encontrar la media y la mediana por grupo

El siguiente código muestra cómo calcular medidas de tendencia central por grupo, incluida la media y la mediana:

# encontrar mpg medio por cilindro
mtcars%>%
  group_by (cyl)%>%
   resume (mean_mpg = mean (mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl mean_mpg
      
1 4 26,7
2 6 19,7
3 8 15,1

# encontrar la mediana de mpg por cilindro
 mtcars%>%
   group_by (cyl)%>%
   resumir (median_mpg = median (mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl median_mpg
        
1 4 26  
2 6 19,7
3 8 15,2

Ejemplo 2: encontrar medidas de propagación por grupo

El siguiente código muestra cómo calcular las medidas de dispersión por grupo, incluida la desviación estándar, el rango intercuartílico y la desviación absoluta mediana:

#find sd, IQR y mad por cilindro
mtcars%>%
  group_by (cyl)%>%
   resume (sd_mpg = sd (mpg, na.rm = TRUE ),
            iqr_mpg = IQR (mpg, na.rm = VERDADERO ),
            mad_mpg = mad (mpg, na.rm = VERDADERO ))

# A tibble: 3 x 4
    cyl sd_mpg iqr_mpg mad_mpg
          
1 4 4,51 7,60 6,52
2 6 1,45 2,35 1,93
3 8 2,56 1,85 1,56

Ejemplo 3: Buscar recuento por grupo

El siguiente código muestra cómo encontrar el recuento y el recuento único por grupo en R:

# encontrar el recuento de filas y el recuento de filas único por cilindro
mtcars%>%
  group_by (cyl)%>%
   resume (count_mpg = n (),
            u_count_mpg = n_distinct (mpg))

# A tibble: 3 x 3
    cyl count_mpg u_count_mpg
              
1 4 11 9
2 6 7 6
3 8 14 12

Ejemplo 4: Encontrar percentil por grupo

El siguiente código muestra cómo encontrar el percentil 90 de los valores de mpg por grupo de cilindros:

# Encuentre el percentil 90 de mpg para cada grupo de cilindros
mtcars%>%
  group_by (cyl)%>%
   resume (quant90 = quantile (mpg, probs = .9))

# A tibble: 3 x 2
    cyl quant90
     
1 4 32,4
2 6 21,2
3 8 18,3

Recursos adicionales

Puede encontrar la documentación completa para el paquete dplyr junto con útiles hojas de trucos de visualización aquí .

Otras funciones útiles que se pueden utilizar junto con group_by () y Resumir () incluyen funciones para el filtrado de filas de tramas de datos y la organización de filas en ciertos órdenes .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

El espacio muestral de un experimento es el conjunto de todos los posibles resultados del experimento. Por ejemplo, supongamos que…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!