Cómo calcular la correlación entre múltiples variables en R

Actualizado el 7 de mayo de 2021, por Luis Benites.

Una forma de cuantificar la relación entre dos variables es utilizar el coeficiente de correlación de Pearson , que es una medida de la asociación lineal entre dos variables . Siempre toma un valor entre -1 y 1 donde:

  • -1 indica una correlación lineal perfectamente negativa entre dos variables
  • 0 indica que no hay correlación lineal entre dos variables
  • 1 indica una correlación lineal perfectamente positiva entre dos variables

Este tutorial explica cómo calcular la correlación entre múltiples variables en R, usando el siguiente marco de datos como ejemplo:

#create marco de datos
df <- data.frame (a <- c (2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23),
                 b <- c (23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43),
                 c <- c (13, 14, 14, 14, 15, 17, 18, 19, 22, 20, 24, 26),
                 d <- c (6, 6, 7, 8, 8, 8, 7, 6, 5, 3, 3, 2))

Ejemplo 1: correlación entre dos variables

El siguiente código muestra cómo calcular la correlación entre dos variables en el marco de datos:

cor (df $ a, df $ b)

[1] 0,9279869

Ejemplo 2: correlación entre múltiples variables

El siguiente código muestra cómo calcular la correlación entre tres variables en el marco de datos:

cor (df [, c (' a ', ' b ', ' c ')])

          a B C
a 1.0000000 0.9279869 0.9604329
b 0,9279869 1,0000000 0,8942139
c 0,9604329 0,8942139 1,000000000

La forma de interpretar la salida es la siguiente:

  • La correlación entre una y b es 0,9279869.
  • La correlación entre una y c es 0,9604329.
  • La correlación entre b y c es 0,8942139.

Ejemplo 3: correlación entre todas las variables

El siguiente código muestra cómo calcular la correlación entre todas las variables en un marco de datos:

cor (df)

           a B C D
a 1.0000000 0.9279869 0.9604329 -0.7915488
b 0,9279869 1,0000000 0,8942139 -0,7917973
c 0.9604329 0.8942139 1.0000000 -0.8063549
d -0.7915488 -0.7917973 -0.8063549 1.0000000

Ejemplo 4: Correlación entre solo variables numéricas

El siguiente código muestra cómo calcular la correlación entre solo las variables numéricas en un marco de datos:

cor (df [, no listados ( lapply (df, es. numérico ))])

           a B C D
a 1.0000000 0.9279869 0.9604329 -0.7915488
b 0,9279869 1,0000000 0,8942139 -0,7917973
c 0.9604329 0.8942139 1.0000000 -0.8063549
d -0.7915488 -0.7917973 -0.8063549 1.0000000

Ejemplo 5: visualizar correlaciones

El siguiente código muestra cómo crear una gráfica de pares, un tipo de gráfica que le permite visualizar la relación entre cada combinación de variables por pares:

#cargar paquete psicológico
biblioteca (psiquiatra)

#crear pares trazar 
pares. paneles (df)

Recursos adicionales

Cómo calcular la correlación parcial en R
Cómo calcular la correlación punto-biserial en R
Cómo calcular la correlación de rodadura en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

La regresión cuadrática es un tipo de regresión que podemos usar para cuantificar la relación entre una variable predictora y…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!