Cómo crear rápidamente tablas dinámicas en R

Actualizado el 17 de julio de 2024, por Luis Benites.

En Excel, las tablas dinámicas ofrecen una forma sencilla de agrupar y resumir datos.

Por ejemplo, si tenemos el siguiente conjunto de datos en Excel, podemos usar una tabla dinámica para resumir rápidamente las ventas totales por región:

Esto nos dice:

  • La Región A tuvo 51 ventas totales
  • La Región B tuvo 85 ventas totales
  • La Región C tuvo 140 ventas totales

O podríamos resumir mediante otra métrica, como las ventas promedio por región:

Resulta que podemos crear rápidamente tablas dinámicas similares en R utilizando el group_by () y resumir () funciones de la dplyr paquete.

Este tutorial proporciona varios ejemplos de cómo hacerlo.

Ejemplo: crear tablas dinámicas en R

Primero, creemos el mismo conjunto de datos en R que usamos en los ejemplos anteriores de Excel:

#create data frame 
df <- data. marco (región = c ('A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C'),
                 dispositivo = c ('X', 'X', 'Y', 'X', 'Y', 'Y', 'X', 'X', 'Y', 'Y'),
                 ventas = c (12, 18, 21, 22, 34, 29, 38, 36, 34, 32))

#ver marco de datos
 df

   ventas de dispositivos regionales
1 HACHA 12
2 HACHA 18
3 AY 21
4 BX 22
5 POR 34
6 POR 29
7 CX 38
8 CX 36
9 CY 34
10 CY 32

A continuación, vamos a cargar el paquete dplyr y utilizar el group_by () y resume () funciones para agrupar por región y encontrar la suma de las ventas por región:

biblioteca (dplyr)

 # encontrar la suma de ventas por región
df%>%
  group_by (region)%>% 
   resumir (sum_sales = sum (ventas))

# A tibble: 3 x 2
  region sum_sales
        
1 A 51
2 B 85
3 C 140

Podemos ver que estos números coinciden con los números que se muestran en el ejemplo introductorio de Excel.

También podemos calcular las ventas medias por región:

# encontrar las ventas promedio por región
df%>%
  group_by (region)%>% 
   resume (mean_sales = mean (ventas))

# A tibble: 3 x 2
  región mean_sales
        
1 A 17  
2 B 28,3
3 C 35  

Una vez más, estos números coinciden con los números que se muestran en el ejemplo de Excel anterior.

Tenga en cuenta que también podemos agrupar por múltiples variables. Por ejemplo, podríamos encontrar la suma de las ventas agrupadas por región y tipo de dispositivo:

# encontrar la suma de las ventas por región y tipo de dispositivo
df%>%
  group_by (región, dispositivo)%>% 
   resumir (sum_sales = sum (ventas))

# A tibble: 6 x 3
# Grupos: región [3]
  región dispositivo sum_sales
          
1 HACHA 30
2 AY 21
3 BX 22
4 POR 63
5 CX 74
6 CY 66  

Recursos adicionales

Cómo realizar una VLOOKUP (similar a Excel) en R
La guía completa: Cómo agrupar y resumir datos en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

El V de Cramer es una medida de la fuerza de asociación entre dos variables nominales . Va de 0…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!