Cómo eliminar filas duplicadas en R

A menudo, puede estar interesado en eliminar filas duplicadas en un marco de datos en R. Afortunadamente, esto es fácil de hacer usando la función distintiva () de la biblioteca dplyr .

biblioteca (dplyr)

Este tutorial explica varios ejemplos de cómo utilizar esta función en la práctica utilizando el siguiente marco de datos:

#create marco de datos
df <- data.frame (x = c ('a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'e' ),
                 y = c (1, 2, 2, 4, 4, 5, 9, 17, 17, 25))

#ver marco de datos
 df

   xy
1 a 1
2 b 2
3 b 2
4 b 4
5 c 4
6 c 5
7 c 9
8 d 17
9 d 17
10 y 25

Ejemplo 1: eliminar filas completamente duplicadas

El siguiente código muestra cómo eliminar filas que son duplicados completos de otras filas:

# mostrar solo filas únicas
distinto (df)

  xy
1 a 1
2 b 2
3 b 4
4 c 4
5 c 5
6 c 9
7 días 17
8 y 25

# encontrar el número total de filas en el marco de datos original
 nrow (df)

[1] 10

# encontrar el número total de filas únicas
 nrow (distintas (df))

[1] 8

# encontrar el número total de filas duplicadas
nrow (df) - nrow (distinto (df)) 

[1] 2

Podemos ver que se eliminaron 2 filas duplicadas del marco de datos.

Ejemplo 2: eliminar duplicados en una columna

El siguiente código muestra cómo eliminar filas que tienen duplicados en una columna específica de un marco de datos:

#muestre solo valores únicos en la columna x
distinto (df, x)

  X
1 a
2 b
3 c
4 días
5 e

# mostrar solo valores únicos en la columna x
 distintos (df, y)

   y
1 1
2 2
3 4
4 5
5 9
6 17
7 25

También puede eliminar valores duplicados en una columna y aún conservar todas las demás columnas en el marco de datos:

#muestre solo valores únicos en la columna xy mantenga otras columnas 
distintas (df, x, .keep_all = TRUE )

  xy
1 a 1
2 b 2
3 c 4
4 días 17
5 e 25

#muestre solo valores únicos en la columna y y mantenga otras columnas
 distintas (df, y, .keep_all = TRUE )

  xy
1 a 1
2 b 2
3 b 4
4 c 5
5 c 9
6 días 17
7 y 25

Puede encontrar la documentación completa para la distinta () la función aquí .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Bootstrapping es un método que se puede utilizar para estimar el error estándar de cualquier estadística y producir un intervalo…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!