Cómo crear una matriz de correlación en Stata

En estadística, a menudo nos interesa comprender la relación entre dos variables. Por ejemplo, es posible que queramos comprender la relación entre la cantidad de horas que estudia un estudiante y la puntuación del examen que recibe.

Una forma de cuantificar esta relación es utilizar el coeficiente de correlación de Pearson , que es una medida de la asociación lineal entre dos variables .Tiene un valor entre -1 y 1 donde:

  • -1 indica una correlación lineal perfectamente negativa entre dos variables
  • 0 indica que no hay correlación lineal entre dos variables
  • 1 indica una correlación lineal perfectamente positiva entre dos variables

Cuanto más lejos esté el coeficiente de correlación de cero, más fuerte será la relación entre las dos variables.

Pero en algunos casos queremos comprender la correlación entre más de un par de variables. En estos casos, podemos crear una matriz de correlación , que es una tabla cuadrada que muestra los coeficientes de correlación entre varias combinaciones de variables por pares.

En este tutorial explicamos cómo crear una matriz de correlación en Stata.

Cómo crear una matriz de correlación en Stata

El comando corr se puede utilizar para producir una matriz de correlación para un conjunto de datos en particular en Stata.

Para ilustrar esto, carguemos los datos del censo de 1980 en Stata escribiendo lo siguiente en el cuadro de comando:

use http://www.stata-press.com/data/r13/census13

Luego, podemos obtener un resumen rápido del conjunto de datos escribiendo lo siguiente en el cuadro de comando:

resumir

Esto produce la siguiente tabla:

Matriz de correlación en Stata

Vemos que el conjunto de datos contiene nueve variables diferentes. Para crear una matriz de correlación para cada combinación por pares de variables en el conjunto de datos, podemos escribir lo siguiente en el cuadro de comando:

corr

Esto produce la siguiente matriz de correlación:

Ejemplo de una matriz de correlación en Stata

Los números que se muestran en la tabla representan los coeficientes de correlación de Pearson para cada combinación de variables por pares. Por ejemplo, la correlación entre pop y estado es -0.0540 . Esto indica que estas dos variables tienen una correlación levemente negativa.

Observe que la correlación a lo largo de las diagonales de la tabla es cada 1,0000, ya que cada variable está perfectamente correlacionada consigo misma.

También puede crear una matriz de correlación solo para un determinado subconjunto de variables en un conjunto de datos especificando las variables después del comando corr . Por ejemplo, aquí se explica cómo crear una matriz de correlación solo para las variables pop , medage y region :

corr pop medage region

Esto produce la siguiente matriz de correlación solo para estas tres variables:

Ejemplo de matriz de correlación en Stata

También es posible poner una estrella junto a los coeficientes de correlación que son estadísticamente significativos a un cierto nivel de significancia usando el comando pwcorr (que produce el mismo resultado que corr ) junto con el comando star () .

Por ejemplo, el siguiente código produce una matriz de correlación para cada variable en el conjunto de datos del censo y coloca una estrella junto a los coeficientes de correlación que son estadísticamente significativos en α = 0.05:

pwcorr, estrella (.05)

Matriz de correlación con significación estadística en Stata

Observe cómo varios de los coeficientes de correlación de la tabla son estadísticamente significativos en α = 0.05. Podríamos establecer α como cualquier número que quisiéramos, pero las opciones comunes son .01, .05 y .10.

En general, cuanto más bajo establezcamos el valor de α, menos coeficientes de correlación serán estadísticamente significativos. Por ejemplo, supongamos que establecemos α = 0.01.

pwcorr, estrella (.01)

Matriz de correlación en Stata

Observe cómo menos coeficientes de correlación tienen una estrella junto a ellos.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La distancia de Mahalanobis es la distancia entre dos puntos en un espacio multivariado. A menudo se usa para encontrar…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!