Cómo calcular la correlación entre dos columnas en Pandas

Actualizado el 17 de julio de 2024, por Luis Benites.

Puede usar la siguiente sintaxis para calcular la correlación entre dos columnas en un DataFrame de pandas:

df [' columna1 ']. corr (df ​​[' columna2 '])

Los siguientes ejemplos muestran cómo utilizar esta sintaxis en la práctica.

Ejemplo 1: calcular la correlación entre dos columnas

El siguiente código muestra cómo calcular la correlación entre columnas en un DataFrame de pandas:

importar pandas como pd

#create DataFrame
 df = pd. DataFrame ({' puntos ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' asiste ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebotes ': [11, 8, 10, 6, 6, 5, 9, 12]})

#ver las primeras cinco filas de DataFrame
 df. cabeza ()

        puntos ayuda a rebotes
0 25 5 11
1 12 7 8
2 15 7 10
3 14 9 6
4 19 12 6

#calcular la correlación entre puntos y asistencias
 df [' puntos ']. corr (df ​​[' asiste '])

-0,359384

El coeficiente de correlación es -0,359 . Dado que esta correlación es negativa, nos dice que los puntos y las asistencias están correlacionados negativamente.

En otras palabras, a medida que aumentan los valores en la columna de puntos, los valores en la columna de asistencias tienden a disminuir.

Ejemplo 2: Calcular la importancia de la correlación

Para determinar si un coeficiente de correlación es estadísticamente significativo, puede usar la función pearsonr (x, y) de la biblioteca SciPy .

El siguiente código muestra cómo utilizar esta función en la práctica:

importar pandas como pd
 desde scipy. estadísticas de  importación pearsonr

#create DataFrame
 df = pd. DataFrame ({' puntos ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' asiste ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebotes ': [11, 8, 10, 6, 6, 5, 9, 12]})

#calcular el valor p del coeficiente de correlación entre puntos y asistencias
 pearsonr (df [' puntos '], df [' asiste '])

(-0,359384, 0,38192)

El primer valor de la salida muestra el coeficiente de correlación (-0,359384) y el segundo valor muestra el valor p (0,38192) asociado con este coeficiente de correlación.

Dado que el valor p no es menor que α = 0.05, concluiríamos que la correlación entre puntos y asistencias no es estadísticamente significativa.

Recursos adicionales

Cómo calcular la correlación de rango de Spearman en Python
Cómo calcular la correlación parcial en Python
Cómo calcular la correlación cruzada en Python

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

En estadística, la asimetría y la curtosis son dos formas de medir la forma de una distribución. La asimetría es…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!