Contenido de este artículo
- 0
- 0
- 0
- 0
Dos de las tareas más comunes que realizará en el análisis de datos son agrupar y resumir datos. Afortunadamente, el paquete dplyr en R le permite agrupar y resumir datos rápidamente.
Este tutorial proporciona una guía rápida para comenzar con dplyr.
Instalar y cargar el paquete dplyr
Antes de poder utilizar las funciones del paquete dplyr, primero debe cargar el paquete:
#install dplyr (si aún no está instalado) install.packages (' dplyr ') #cargar biblioteca dplyr (dplyr)
A continuación, ilustraremos varios ejemplos de cómo usar las funciones en dplyr para agrupar y resumir datos usando el conjunto de datos R integrado llamado mtcars :
#obtener filas y columnas de mtcars tenue (mtcars) [1] 32 11 #ver las primeras seis filas de mtcars head (mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21,0 6160110 3,90 2,620 16,46 0 1 4 4 Mazda RX4 Wag 21.0 6160110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22,8 4108 93 3,85 2,320 18,61 1 1 4 1 Hornet 4 Impulso 21,4 6258110 3,08 3,215 19,44 1 0 3 1 Hornet Sportabout 18,7 8360175 3,15 3,440 17,02 0 0 3 2 Valiente 18,1 6225105 2,76 3,460 20,22 1 0 3 1
La sintaxis básica que usaremos para agrupar y resumir datos es la siguiente:
data%>% group_by (col_name)%>% resume (summary_name = summary_function)
Nota: Las funciones resumir () y resumir () son equivalentes.
Ejemplo 1: encontrar la media y la mediana por grupo
El siguiente código muestra cómo calcular medidas de tendencia central por grupo, incluida la media y la mediana:
# encontrar mpg medio por cilindro mtcars%>% group_by (cyl)%>% resume (mean_mpg = mean (mpg, na.rm = TRUE )) # A tibble: 3 x 2 cyl mean_mpg 1 4 26,7 2 6 19,7 3 8 15,1 # encontrar la mediana de mpg por cilindro mtcars%>% group_by (cyl)%>% resumir (median_mpg = median (mpg, na.rm = TRUE )) # A tibble: 3 x 2 cyl median_mpg 1 4 26 2 6 19,7 3 8 15,2
Ejemplo 2: encontrar medidas de propagación por grupo
El siguiente código muestra cómo calcular las medidas de dispersión por grupo, incluida la desviación estándar, el rango intercuartílico y la desviación absoluta mediana:
#find sd, IQR y mad por cilindro mtcars%>% group_by (cyl)%>% resume (sd_mpg = sd (mpg, na.rm = TRUE ), iqr_mpg = IQR (mpg, na.rm = VERDADERO ), mad_mpg = mad (mpg, na.rm = VERDADERO )) # A tibble: 3 x 4 cyl sd_mpg iqr_mpg mad_mpg 1 4 4,51 7,60 6,52 2 6 1,45 2,35 1,93 3 8 2,56 1,85 1,56
Ejemplo 3: Buscar recuento por grupo
El siguiente código muestra cómo encontrar el recuento y el recuento único por grupo en R:
# encontrar el recuento de filas y el recuento de filas único por cilindro mtcars%>% group_by (cyl)%>% resume (count_mpg = n (), u_count_mpg = n_distinct (mpg)) # A tibble: 3 x 3 cyl count_mpg u_count_mpg 1 4 11 9 2 6 7 6 3 8 14 12
Ejemplo 4: Encontrar percentil por grupo
El siguiente código muestra cómo encontrar el percentil 90 de los valores de mpg por grupo de cilindros:
# Encuentre el percentil 90 de mpg para cada grupo de cilindros mtcars%>% group_by (cyl)%>% resume (quant90 = quantile (mpg, probs = .9)) # A tibble: 3 x 2 cyl quant90 1 4 32,4 2 6 21,2 3 8 18,3
Recursos adicionales
Puede encontrar la documentación completa para el paquete dplyr junto con útiles hojas de trucos de visualización aquí .
Otras funciones útiles que se pueden utilizar junto con group_by () y Resumir () incluyen funciones para el filtrado de filas de tramas de datos y la organización de filas en ciertos órdenes .
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: