Cómo crear tablas de frecuencia en Python

Una tabla de frecuencias es una tabla que muestra las frecuencias de diferentes categorías. Este tipo de tabla es particularmente útil para comprender la distribución de valores en un conjunto de datos.

Este tutorial explica cómo crear tablas de frecuencia en Python.

Tabla de frecuencia unidireccional para una serie

Para encontrar las frecuencias de valores individuales en una serie pandas, puede usar la función value_counts () :

importar pandas como pd

#define Series
datos = pd.Series ([1, 1, 1, 2, 3, 3, 3, 3, 4, 4, 5])

# encontrar frecuencias de cada valor
 data.value_counts ()

3 4
1 3
4 2
5 1
2 1

Puede agregar el argumento sort = False si no desea que los valores de datos estén ordenados por frecuencia:

data.value_counts (sort = False )

1 3
2 1
3 4
4 2
5 1

La forma de interpretar la salida es la siguiente:

  • El valor «1» aparece 3 veces en la Serie.
  • El valor “2” ocurre 1 vez en la Serie.
  • El valor «3» aparece 4 veces en la Serie.

Y así.

Tabla de frecuencia unidireccional para un marco de datos

Para buscar frecuencias de unos pandas trama de datos que puede utilizar la tabla de referencias cruzadas () función, que utiliza la siguiente sytax:

tabla de referencias cruzadas (índice, columnas)

dónde:

  • índice: nombre de la columna por agrupar
  • columnas: nombre para dar a la columna de frecuencia

Por ejemplo, supongamos que tenemos un DataFrame con información sobre la calificación en letras, la edad y el sexo de 10 estudiantes diferentes en una clase. A continuación, le mostramos cómo encontrar la frecuencia para cada calificación de letra:

#crear datos
df = pd.DataFrame ({'Grado': ['A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'D', 'D '],
                   'Edad': [18, 18, 18, 19, 19, 20, 18, 18, 19, 19],
                   'Género': ['M', 'M', 'F', 'F', 'F', 'M', 'M', 'F', 'M', 'F']})

#ver datos
df

	Grado Edad Sexo
0 A 18 M
1 A 18 M
2 A 18 F
3 B 19 F
4 B 19 F
5 B 20 M
6 B 18 M
7 C 18 F
8 D 19 M
9 D 19 F 	  

# encontrar la frecuencia de cada calificación de letra
 pd.crosstab (índice = df [' Calificación '], columnas = ' recuento ')

recuento de col_0
Calificación	
A 3
B 4
C 1
D 2

La forma de interpretar esto es la siguiente:

  • 3 estudiantes recibieron una ‘A’ en la clase.
  • 4 estudiantes recibieron una ‘B’ en la clase.
  • 1 estudiante recibió una ‘C’ en la clase.
  • 2 estudiantes recibieron una ‘D’ en la clase.

Podemos usar una sintaxis similar para encontrar los recuentos de frecuencia de otras columnas. Por ejemplo, aquí se explica cómo encontrar la frecuencia por edad:

pd.crosstab (índice = df [' Edad '], columnas = ' recuento ')

recuento de col_0
Edad	
18 5
19 4
20 1

La forma de interpretar esto es la siguiente:

  • 5 estudiantes tienen 18 años.
  • 4 estudiantes tienen 19 años.
  • 1 estudiante tiene 20 años.

También puede mostrar fácilmente las frecuencias como proporciones de todo el conjunto de datos dividiendo por la suma:

#define tabla cruzada
tab = pd.crosstab (index = df ['Edad'], columnas = 'recuento')

#encontrar proporciones 
tab / tab.sum ()

recuento de col_0
Edad	
18 0,5
19 0,4
20 0,1

La forma de interpretar esto es la siguiente:

  • El 50% de los estudiantes tiene 18 años.
  • El 40% de los estudiantes tiene 19 años.
  • El 10% de los estudiantes tiene 20 años.

Tablas de frecuencias bidireccionales para un marco de datos

También puede crear una tabla de frecuencia bidireccional para mostrar las frecuencias de dos variables diferentes en el conjunto de datos. Por ejemplo, a continuación se explica cómo crear una tabla de frecuencia bidireccional para las variables Edad y Grado:

pd.crosstab (índice = df [' Edad '], columnas = df [' Grado '])


Grado A B C D
Edad				
18 3 1 1 0
19 0 2 0 2
20 0 1 0 0

La forma de interpretar esto es la siguiente:

  • Hay 3 estudiantes que tienen 18 años y recibieron una ‘A’ en la clase.
  • Hay 1 estudiante que tiene 18 años y recibió una ‘B’ en la clase.
  • Hay 1 estudiante que tiene 18 años y recibió una ‘C’ en la clase.
  • Hay 0 estudiantes que tienen 18 años y recibieron una ‘D’ en la clase.

Y así.

Puede encontrar la documentación completa de la tabla de referencias cruzadas () la función aquí .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una forma de cuantificar la relación entre dos variables es utilizar el coeficiente de correlación de Pearson , que es…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!