Contenido de este artículo
- 0
- 0
- 0
- 0
Actualizado el 17 de julio de 2024, por Luis Benites.
A menudo, puede estar interesado en contar el número de observaciones por grupo en un DataFrame de pandas.
Afortunadamente, esto es fácil de hacer usando las funciones groupby () y size () con la siguiente sintaxis:
df. groupby (' nombre_columna '). tamaño ()
Este tutorial explica varios ejemplos de cómo utilizar esta función en la práctica utilizando el siguiente marco de datos:
importar numpy como np
importar pandas como pd
#create pandas DataFrame
df = pd. DataFrame ({'equipo': ['A', 'A', 'B', 'B', 'B', 'C', 'C'],
'división': ['E', 'W', 'E', 'E', 'W', 'W', 'E'],
'rebotes': [11, 8, 7, 6, 6, 5, 12]})
#display Impresión de DataFrame
(df)
rebotes de división de equipo
0 AE 11
1 AW 8
2 BE 7
3 BE 6
4 BW 6
5 CW 5
6 CE 12
Ejemplo 1: contar por una variable
El siguiente código muestra cómo contar el número total de observaciones por equipo:
#contar observaciones totales por variable 'equipo'
df. groupby (' equipo '). tamaño ()
equipo
A 2
B 3
C 2
dtype: int64
De la salida podemos ver que:
- El equipo A tiene 2 observaciones
- El equipo B tiene 3 observaciones
- El equipo C tiene 2 observaciones
Tenga en cuenta que el código anterior produce una serie. En la mayoría de los casos, queremos trabajar con un DataFrame, por lo que podemos usar la función reset_index () para producir un DataFrame en su lugar:
df. groupby (' equipo '). tamaño (). reset_index (nombre = ' obs ')
equipo obs
0 A 2
1 B 3
2 C 2
Ejemplo 2: contar y ordenar por una variable
También podemos usar la función sort_values () para ordenar los recuentos de grupos.
Podemos especificar ascendente = Falso para ordenar los recuentos de grupos de mayor a menor o ascendente = Verdadero para ordenar de menor a mayor:
df. groupby (' equipo '). tamaño (). reset_index (nombre = ' obs '). sort_values ([' obs '], ascendente = Verdadero )
equipo obs
0 A 2
2 C 2
1 B 3
Ejemplo 3: contar por múltiples variables
También podemos contar la cantidad de observaciones agrupadas por múltiples variables en un DataFrame de pandas:
#contar observaciones agrupadas por equipo y división
df. groupby ([' equipo ', ' división ']). tamaño (). reset_index (nombre = ' obs ')
obs de la división del equipo
0 A E 1
1 A W 1
2 B E 2
3 B W 1
4 C E 1
5 C W 1
De la salida podemos ver que:
- 1 observación pertenece al equipo A y división E
- 1 observación pertenece al equipo A y división W
- 2 observaciones pertenecen al equipo B y división E
- 1 observación pertenece al equipo B y división W
- 1 observación pertenece al equipo C y división E
- 1 observación pertenece al equipo C y división W
Recursos adicionales
Cómo calcular la suma de columnas en pandas
Cómo calcular la media de columnas en pandas
Cómo encontrar el valor máximo de columnas en pandas
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: