Cómo eliminar filas duplicadas en R

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

A menudo, puede estar interesado en eliminar filas duplicadas en un marco de datos en R. Afortunadamente, esto es fácil de hacer usando la función distintiva () de la biblioteca dplyr .

biblioteca (dplyr)

Este tutorial explica varios ejemplos de cómo utilizar esta función en la práctica utilizando el siguiente marco de datos:

#create marco de datos
df <- data.frame (x = c ('a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'e' ),
                 y = c (1, 2, 2, 4, 4, 5, 9, 17, 17, 25))

#ver marco de datos
 df

   xy
1 a 1
2 b 2
3 b 2
4 b 4
5 c 4
6 c 5
7 c 9
8 d 17
9 d 17
10 y 25

Ejemplo 1: eliminar filas completamente duplicadas

El siguiente código muestra cómo eliminar filas que son duplicados completos de otras filas:

# mostrar solo filas únicas
distinto (df)

  xy
1 a 1
2 b 2
3 b 4
4 c 4
5 c 5
6 c 9
7 días 17
8 y 25

# encontrar el número total de filas en el marco de datos original
 nrow (df)

[1] 10

# encontrar el número total de filas únicas
 nrow (distintas (df))

[1] 8

# encontrar el número total de filas duplicadas
nrow (df) - nrow (distinto (df)) 

[1] 2

Podemos ver que se eliminaron 2 filas duplicadas del marco de datos.

Ejemplo 2: eliminar duplicados en una columna

El siguiente código muestra cómo eliminar filas que tienen duplicados en una columna específica de un marco de datos:

#muestre solo valores únicos en la columna x
distinto (df, x)

  X
1 a
2 b
3 c
4 días
5 e

# mostrar solo valores únicos en la columna x
 distintos (df, y)

   y
1 1
2 2
3 4
4 5
5 9
6 17
7 25

También puede eliminar valores duplicados en una columna y aún conservar todas las demás columnas en el marco de datos:

#muestre solo valores únicos en la columna xy mantenga otras columnas 
distintas (df, x, .keep_all = TRUE )

  xy
1 a 1
2 b 2
3 c 4
4 días 17
5 e 25

#muestre solo valores únicos en la columna y y mantenga otras columnas
 distintas (df, y, .keep_all = TRUE )

  xy
1 a 1
2 b 2
3 b 4
4 c 5
5 c 9
6 días 17
7 y 25

Puede encontrar la documentación completa para la distinta () la función aquí .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Bootstrapping es un método que se puede utilizar para estimar el error estándar de cualquier estadística y producir un intervalo…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!