Contenido de este artículo
- 0
- 0
- 0
- 0
La forma más sencilla de eliminar filas duplicadas en un DataFrame de pandas es mediante la función drop_duplicates () , que utiliza la siguiente sintaxis:
df.drop_duplicates (subset = None, keep = ‘first’, inplace = False)
dónde:
- subconjunto: qué columnas considerar para identificar duplicados. El valor predeterminado son todas las columnas.
- mantener: indica qué duplicados (si los hay) conservar.
- primero: elimine todas las filas duplicadas excepto la primera.
- último: elimina todas las filas duplicadas excepto el último.
- Falso : elimina todos los duplicados.
- inplace: indica si colocar los duplicados en su lugar o devolver una copia del DataFrame.
Este tutorial proporciona varios ejemplos de cómo utilizar esta función en la práctica en el siguiente DataFrame:
importar pandas como pd #create DataFrame df = pd. DataFrame ({'equipo': ['a', 'b', 'b', 'c', 'c', 'd'], 'puntos': [3, 7, 7, 8, 8, 9], 'asiste': [8, 6, 7, 9, 9, 3]}) #display Impresión de DataFrame (df) puntos de equipo asiste 0 a 3 8 1 b 7 6 2 b 7 7 3 c 8 9 4 c 8 9 5 días 9 3
Ejemplo 1: eliminar duplicados en todas las columnas
El siguiente código muestra cómo eliminar filas que tienen valores duplicados en todas las columnas:
df. drop_duplicates () puntos de equipo asiste 0 a 3 8 1 b 7 6 2 b 7 7 3 c 8 9 5 días 9 3
De forma predeterminada, la función drop_duplicates () elimina todos los duplicados excepto el primero.
Sin embargo, podríamos usar el argumento keep = False para eliminar todos los duplicados por completo:
df. drop_duplicates (mantener = Falso ) puntos de equipo asiste 0 a 3 8 1 b 7 6 2 b 7 7 5 días 9 3
Ejemplo 2: eliminar duplicados en columnas específicas
El siguiente código muestra cómo eliminar filas que tienen valores duplicados solo en las columnas tituladas equipo y puntos :
df. drop_duplicates (subconjunto = [' equipo ', ' puntos ']) puntos de equipo asiste 0 a 3 8 1 b 7 6 3 c 8 9 5 días 9 3
Recursos adicionales
Cómo ordenar valores en un DataFrame de Pandas
Cómo filtrar un DataFrame de Pandas en múltiples condiciones
Cómo insertar una columna en un DataFrame de Pandas
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: