Cómo soltar filas duplicadas en un marco de datos de Pandas

La forma más sencilla de eliminar filas duplicadas en un DataFrame de pandas es mediante la función drop_duplicates () , que utiliza la siguiente sintaxis:

df.drop_duplicates (subset = None, keep = ‘first’, inplace = False)

dónde:

  • subconjunto: qué columnas considerar para identificar duplicados. El valor predeterminado son todas las columnas.
  • mantener: indica qué duplicados (si los hay) conservar.
    • primero: elimine todas las filas duplicadas excepto la primera.
    • último: elimina todas las filas duplicadas excepto el último.
    • Falso : elimina todos los duplicados.
  • inplace: indica si colocar los duplicados en su lugar o devolver una copia del DataFrame.

Este tutorial proporciona varios ejemplos de cómo utilizar esta función en la práctica en el siguiente DataFrame:

importar pandas como pd

#create DataFrame 
df = pd. DataFrame ({'equipo': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'puntos': [3, 7, 7, 8, 8, 9],
                   'asiste': [8, 6, 7, 9, 9, 3]})

#display Impresión de DataFrame
 (df)

  puntos de equipo asiste
0 a 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 días 9 3

HOLA, estas en Statologos la enciclopedia más grande de estadística aplicada en español, no olvides que tienes un potente buscador de información en el menú utilizalo sabiamente 😉

Ejemplo 1: eliminar duplicados en todas las columnas

El siguiente código muestra cómo eliminar filas que tienen valores duplicados en todas las columnas:

df. drop_duplicates ()

        puntos de equipo asiste
0 a 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 días 9 3

De forma predeterminada, la función drop_duplicates () elimina todos los duplicados excepto el primero.

Sin embargo, podríamos usar el argumento keep = False para eliminar todos los duplicados por completo:

df. drop_duplicates (mantener = Falso )

	puntos de equipo asiste
0 a 3 8
1 b 7 6
2 b 7 7
5 días 9 3

Ejemplo 2: eliminar duplicados en columnas específicas

El siguiente código muestra cómo eliminar filas que tienen valores duplicados solo en las columnas tituladas equipo y puntos :

df. drop_duplicates (subconjunto = [' equipo ', ' puntos '])

        puntos de equipo asiste
0 a 3 8
1 b 7 6
3 c 8 9
5 días 9 3

Recursos adicionales

Cómo ordenar valores en un DataFrame de Pandas
Cómo filtrar un DataFrame de Pandas en múltiples condiciones
Cómo insertar una columna en un DataFrame de Pandas

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, es posible que deba convertir números a formatos de fecha en R. La forma más sencilla de hacerlo…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!