Cómo soltar filas duplicadas en un marco de datos de Pandas

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

La forma más sencilla de eliminar filas duplicadas en un DataFrame de pandas es mediante la función drop_duplicates () , que utiliza la siguiente sintaxis:

df.drop_duplicates (subset = None, keep = ‘first’, inplace = False)

dónde:

  • subconjunto: qué columnas considerar para identificar duplicados. El valor predeterminado son todas las columnas.
  • mantener: indica qué duplicados (si los hay) conservar.
    • primero: elimine todas las filas duplicadas excepto la primera.
    • último: elimina todas las filas duplicadas excepto el último.
    • Falso : elimina todos los duplicados.
  • inplace: indica si colocar los duplicados en su lugar o devolver una copia del DataFrame.

Este tutorial proporciona varios ejemplos de cómo utilizar esta función en la práctica en el siguiente DataFrame:

importar pandas como pd

#create DataFrame 
df = pd. DataFrame ({'equipo': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'puntos': [3, 7, 7, 8, 8, 9],
                   'asiste': [8, 6, 7, 9, 9, 3]})

#display Impresión de DataFrame
 (df)

  puntos de equipo asiste
0 a 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 días 9 3

Ejemplo 1: eliminar duplicados en todas las columnas

El siguiente código muestra cómo eliminar filas que tienen valores duplicados en todas las columnas:

df. drop_duplicates ()

        puntos de equipo asiste
0 a 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 días 9 3

De forma predeterminada, la función drop_duplicates () elimina todos los duplicados excepto el primero.

Sin embargo, podríamos usar el argumento keep = False para eliminar todos los duplicados por completo:

df. drop_duplicates (mantener = Falso )

	puntos de equipo asiste
0 a 3 8
1 b 7 6
2 b 7 7
5 días 9 3

Ejemplo 2: eliminar duplicados en columnas específicas

El siguiente código muestra cómo eliminar filas que tienen valores duplicados solo en las columnas tituladas equipo y puntos :

df. drop_duplicates (subconjunto = [' equipo ', ' puntos '])

        puntos de equipo asiste
0 a 3 8
1 b 7 6
3 c 8 9
5 días 9 3

Recursos adicionales

Cómo ordenar valores en un DataFrame de Pandas
Cómo filtrar un DataFrame de Pandas en múltiples condiciones
Cómo insertar una columna en un DataFrame de Pandas

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

A menudo, es posible que deba convertir números a formatos de fecha en R. La forma más sencilla de hacerlo…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!