Contenido de este artículo
- 0
- 0
- 0
- 0
Actualizado el 17 de julio de 2024, por Luis Benites.
En estadística, a menudo nos interesa comprender la relación entre dos variables.
Por ejemplo, es posible que queramos comprender la relación entre la cantidad de horas que estudia un estudiante y la puntuación del examen que recibe.
Una forma de cuantificar esta relación es utilizar el coeficiente de correlación de Pearson , que es una medida de la asociación lineal entre dos variables .Tiene un valor entre -1 y 1 donde:
- -1 indica una correlación lineal perfectamente negativa entre dos variables
- 0 indica que no hay correlación lineal entre dos variables
- 1 indica una correlación lineal perfectamente positiva entre dos variables
Cuanto más lejos esté el coeficiente de correlación de cero, más fuerte será la relación entre las dos variables.
Relacionado: ¿Qué se considera una correlación “fuerte”?
Pero en algunos casos queremos comprender la correlación entre más de un par de variables. En estos casos, podemos crear una matriz de correlación , que es una tabla cuadrada que muestra los coeficientes de correlación entre varias variables.
Ejemplo de una matriz de correlación
La siguiente matriz de correlación muestra los coeficientes de correlación entre varias variables relacionadas con la educación:
Cada celda de la tabla muestra la correlación entre dos variables específicas.Por ejemplo, la celda resaltada a continuación muestra que la correlación entre “horas dedicadas a estudiar” y “puntaje del examen” es 0.82 , lo que indica que están fuertemente correlacionados positivamente. Más horas dedicadas a estudiar está fuertemente relacionado con puntajes más altos en los exámenes.
Y la celda resaltada a continuación muestra que la correlación entre «horas dedicadas a estudiar» y «horas dedicadas a dormir» es -0,22 , lo que indica que tienen una correlación débilmente negativa. Más horas dedicadas al estudio se asocia con menos horas dedicadas a dormir.
Y la celda resaltada a continuación muestra que la correlación entre «horas dedicadas a dormir» y «puntaje de CI» es 0.06 , lo que indica que básicamente no están correlacionados. Existe muy poca asociación entre la cantidad de horas que duerme un estudiante y su puntaje de CI.
También observe que los coeficientes de correlación a lo largo de la diagonal de la tabla son todos iguales a 1 porque cada variable está perfectamente correlacionada consigo misma. Estas celdas no son útiles para la interpretación.
Variaciones de la matriz de correlación
Observe que una matriz de correlación es perfectamente simétrica. Por ejemplo, la celda superior derecha muestra exactamente el mismo valor que la celda inferior izquierda:
Esto se debe a que ambas celdas miden la correlación entre «horas dedicadas a estudiar» y «calificación de la escuela».
Debido a que una matriz de correlación es simétrica, la mitad de los coeficientes de correlación que se muestran en la matriz son redundantes e innecesarios. Por lo tanto, a veces solo se mostrará la mitad de la matriz de correlación:
Y a veces, una matriz de correlación se coloreará como un mapa de calor para que los coeficientes de correlación sean aún más fáciles de leer:
Cuándo usar una matriz de correlación
En la práctica, una matriz de correlación se usa comúnmente por tres razones:
1. Una matriz de correlación resume convenientemente un conjunto de datos.
Una matriz de correlación es una forma sencilla de resumir las correlaciones entre todas las variables en un conjunto de datos. Por ejemplo, supongamos que tenemos el siguiente conjunto de datos que tiene la siguiente información para 1,000 estudiantes:
Sería muy difícil entender la relación entre cada variable simplemente mirando los datos sin procesar. Afortunadamente, una matriz de correlación puede ayudarnos a comprender rápidamente las correlaciones entre cada par de variables.
2. Una matriz de correlación sirve como diagnóstico para la regresión.
Un supuesto clave de la regresión lineal múltiple es que ninguna variable independiente en el modelo está altamente correlacionada con otra variable en el modelo. Cuando dos variables independientes están altamente correlacionadas, esto da como resultado un problema conocido como multicolinealidad y puede dificultar la interpretación de los resultados de la regresión.
Una de las formas más fáciles de detectar un posible problema de multicolinealidad es mirar una matriz de correlación y verificar visualmente si alguna de las variables está altamente correlacionada entre sí.
3. Se puede utilizar una matriz de correlación como entrada en otros análisis.
Una matriz de correlación se utiliza como entrada para otros análisis complejos, como el análisis factorial exploratorio y los modelos de ecuaciones estructurales.
Recursos adicionales
Cómo crear una matriz de correlación en Excel
Cómo crear una matriz de correlación en SPSS
Cómo crear una matriz de correlación en Stata
Cómo crear una matriz de correlación en Python
Cómo crear una matriz de correlación en Matlab
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: