Cómo calcular la correlación entre dos columnas en Pandas

Actualizado por ultima vez el 7 de mayo de 2021, por .

Puede usar la siguiente sintaxis para calcular la correlación entre dos columnas en un DataFrame de pandas:

df [' columna1 ']. corr (df ​​[' columna2 '])

Los siguientes ejemplos muestran cómo utilizar esta sintaxis en la práctica.

Ejemplo 1: calcular la correlación entre dos columnas

El siguiente código muestra cómo calcular la correlación entre columnas en un DataFrame de pandas:

importar pandas como pd

#create DataFrame
 df = pd. DataFrame ({' puntos ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' asiste ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebotes ': [11, 8, 10, 6, 6, 5, 9, 12]})

#ver las primeras cinco filas de DataFrame
 df. cabeza ()

        puntos ayuda a rebotes
0 25 5 11
1 12 7 8
2 15 7 10
3 14 9 6
4 19 12 6

#calcular la correlación entre puntos y asistencias
 df [' puntos ']. corr (df ​​[' asiste '])

-0,359384

El coeficiente de correlación es -0,359 . Dado que esta correlación es negativa, nos dice que los puntos y las asistencias están correlacionados negativamente.

En otras palabras, a medida que aumentan los valores en la columna de puntos, los valores en la columna de asistencias tienden a disminuir.

Ejemplo 2: Calcular la importancia de la correlación

Para determinar si un coeficiente de correlación es estadísticamente significativo, puede usar la función pearsonr (x, y) de la biblioteca SciPy .

El siguiente código muestra cómo utilizar esta función en la práctica:

importar pandas como pd
 desde scipy. estadísticas de  importación pearsonr

#create DataFrame
 df = pd. DataFrame ({' puntos ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' asiste ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebotes ': [11, 8, 10, 6, 6, 5, 9, 12]})

#calcular el valor p del coeficiente de correlación entre puntos y asistencias
 pearsonr (df [' puntos '], df [' asiste '])

(-0,359384, 0,38192)

El primer valor de la salida muestra el coeficiente de correlación (-0,359384) y el segundo valor muestra el valor p (0,38192) asociado con este coeficiente de correlación.

Dado que el valor p no es menor que α = 0.05, concluiríamos que la correlación entre puntos y asistencias no es estadísticamente significativa.

Recursos adicionales

Cómo calcular la correlación de rango de Spearman en Python
Cómo calcular la correlación parcial en Python
Cómo calcular la correlación cruzada en Python

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, la asimetría y la curtosis son dos formas de medir la forma de una distribución. La asimetría es…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!