Cómo crear e interpretar gráficos de pares en R

Un diagrama de pares es una matriz de diagramas de dispersión que le permite comprender la relación por pares entre diferentes variables en un conjunto de datos.

Afortunadamente, es fácil crear una gráfica de pares en R usando la función pares () . Este tutorial proporciona varios ejemplos de cómo utilizar esta función en la práctica.

Ejemplo 1: Gráfico de pares de todas las variables

El siguiente código ilustra cómo crear una gráfica de pares básica para todas las variables en un marco de datos en R:

#Haga que este ejemplo sea reproducible 
set.seed (0)

#create marco de datos 
var1 <- rnorm (1000)
var2 <- var1 + rnorm (1000, 0, 2)
var3 <- var2 - rnorm (1000, 0, 5)
 
df <- data.frame (var1, var2, var3)

#crear pares par de parcelas  
(df)

La forma de interpretar la matriz es la siguiente:

  • Los nombres de las variables se muestran a lo largo de los cuadros diagonales.
  • Todos los demás cuadros muestran un diagrama de dispersión de la relación entre cada combinación de variables por pares. Por ejemplo, el cuadro en la esquina superior derecha de la matriz muestra un diagrama de dispersión de valores para var1 y var3 . El cuadro en el medio a la izquierda muestra un diagrama de dispersión de valores para var1 y var2 , y así sucesivamente.

Esta única gráfica nos da una idea de la relación entre cada par de variables en nuestro conjunto de datos. Por ejemplo, var1 y var2 parecen tener una correlación positiva, mientras que var1 y var3 parecen tener poca o ninguna correlación.

Ejemplo 2: Gráfico de pares de variables específicas

El siguiente código ilustra cómo crear una gráfica de pares básica solo para las dos primeras variables en un conjunto de datos:

#create pairs traza solo para pares var1 y var2 
(df ​​[, 1: 2])

Gráfico de pares de variables específicas en R

Ejemplo 3: modificar la estética de una gráfica de pares

El siguiente código ilustra cómo modificar la estética de un gráfico de pares, incluido el título, el color y las etiquetas:

pares (df,
      col = ' azul ', #modificar 
      etiquetas de color = c (' Primera ', ' Segunda ', ' Tercera '), #modificar etiquetas 
      main = ' Título personalizado ') #modificar título

Parcela de pares personalizados en R

Ejemplo 4: obtención de correlaciones con ggpairs

También puede obtener el coeficiente de correlación de Pearson entre variables utilizando la función ggpairs () de la biblioteca GGally. El siguiente código ilustra cómo utilizar esta función:

#instale las bibliotecas necesarias
install.packages ('ggplot2')
install.packages ('GGally')

#cargar biblioteca de
 bibliotecas (ggplot2)
biblioteca (GGally)

#crear pares trazar
 ggpairs (df)

Función ggpairs en el ejemplo de R

La forma de interpretar esta matriz es la siguiente:

  • Los nombres de las variables se muestran en los bordes exteriores de la matriz.
  • Los cuadros a lo largo de las diagonales muestran la gráfica de densidad para cada variable.
  • Los cuadros de la esquina inferior izquierda muestran el diagrama de dispersión entre cada variable.
  • Los cuadros de la esquina superior derecha muestran el coeficiente de correlación de Pearson entre cada variable. Por ejemplo, la correlación entre var1 y var2 es 0.425 .

El beneficio de usar ggpairs () sobre los pares de funciones base R () es que puede obtener más información sobre las variables. Específicamente, puede ver el coeficiente de correlación entre cada combinación de variables por pares, así como una gráfica de densidad para cada variable individual.

Puede encontrar la documentación completa para la función ggpairs () aquí .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, la varianza combinada simplemente se refiere al promedio de dos o más variaciones de grupo. Usamos la palabra…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!