¿Qué se considera una correlación “fuerte”?

En estadística, a menudo nos interesa comprender cómo se relacionan dos variables entre sí. Por ejemplo, podríamos querer saber:

  • ¿Cuál es la relación entre la cantidad de horas que estudia un estudiante y la puntuación del examen que recibe?
  • ¿Cuál es la relación entre la temperatura exterior y la cantidad de conos de helado que vende un camión de comida?
  • ¿Cuál es la relación entre los dólares gastados en marketing y los ingresos totales obtenidos para una determinada empresa?

En cada uno de estos escenarios, intentamos comprender la relación entre dos variables diferentes.

En estadística, una de las formas más comunes en que cuantificamos una relación entre dos variables es utilizando el coeficiente de correlación de Pearson , que es una medida de la asociación lineal entre dos variables .Tiene un valor entre -1 y 1 donde:

  • -1 indica una correlación lineal perfectamente negativa entre dos variables
  • 0 indica que no hay correlación lineal entre dos variables
  • 1 indica una correlación lineal perfectamente positiva entre dos variables

Denotado a menudo como r , este número nos ayuda a comprender qué tan fuerte es una relación entre dos variables.Cuanto más lejos esté r de cero, más fuerte será la relación entre las dos variables .

Es importante señalar que dos variables pueden tener una fuerte correlación positiva o una fuerte correlación negativa .

Fuerte correlación positiva: cuando el valor de una variable aumenta, el valor de la otra variable aumenta de manera similar. Por ejemplo, cuantas más horas estudia un estudiante, más alta tiende a ser la puntuación de su examen. Las horas estudiadas y los puntajes de los exámenes tienen una fuerte correlación positiva.

Fuerte correlación negativa: cuando el valor de una variable aumenta, el valor de la otra variable tiende a disminuir. Por ejemplo, cuanto más envejece un pollo, menos huevos tienden a producir. La edad de las gallinas y la producción de huevos tienen una fuerte correlación negativa.

La siguiente tabla muestra la regla empírica para interpretar la fuerza de la relación entre dos variables según el valor de r :

Valor absoluto de r Fuerza de la relación
r <0,25 Sin relación
0,25 <r <0,5 Relación débil
0,5 <r <0,75 Relación moderada
r> 0,75 Relación fuerte

La correlación entre dos variables se considera fuerte si el valor absoluto de r es mayor que 0,75 .Sin embargo, la definición de una correlación «fuerte» puede variar de un campo a otro.

Médico

Por ejemplo, a menudo en los campos médicos, la definición de una relación «fuerte» suele ser mucho más baja. Si la relación entre tomar un determinado medicamento y la reducción de los ataques cardíacos es r = 0.3, esto podría considerarse una relación «débilmente positiva» en otros campos, pero en medicina es lo suficientemente significativa como para que valga la pena tomar el medicamento para reducir la posibilidades de sufrir un ataque cardíaco.

Recursos humanos

En otro campo, como los recursos humanos, las correlaciones más bajas también podrían usarse con más frecuencia. Por ejemplo, se ha demostrado que la correlación entre las calificaciones universitarias y el desempeño laboral es de aproximadamente r = 0,16 . Esto es bastante bajo, pero es lo suficientemente grande como para que sea algo que una empresa al menos miraría durante un proceso de entrevista.

Tecnología

Y en un campo como el de la tecnología, la correlación entre las variables podría necesitar ser mucho mayor en algunos casos para ser considerada «fuerte». Por ejemplo, si una empresa crea un automóvil autónomo y la correlación entre las decisiones de giro del automóvil y la probabilidad de sufrir un accidente es r = 0,95 , es probable que esto sea demasiado bajo para que el automóvil se considere seguro, ya que el resultado de la fabricación la decisión incorrecta puede ser fatal.

Visualización de correlaciones

No importa en qué campo se encuentre, es útil crear un diagrama de dispersión de las dos variables que está estudiando para que pueda al menos examinar visualmente la relación entre ellas.

Por ejemplo, supongamos que tenemos el siguiente conjunto de datos que muestra la altura y el peso de 12 personas:

Es un poco difícil entender la relación entre estas dos variables con solo mirar los datos sin procesar. Sin embargo, es mucho más fácil entender la relación si creamos una gráfica de dispersión con la altura en el eje xy el peso en el eje y:

Claramente, existe una relación positiva entre las dos variables.

Crear un diagrama de dispersión es una buena idea por dos razones más:

(1) Un diagrama de dispersión le permite identificar valores atípicos que afectan la correlación.

Un valor atípico extremo puede cambiar drásticamente un coeficiente de correlación de Pearson. Considere el ejemplo siguiente, en el que las variables X e Y tienen un coeficiente de correlación de Pearson de r = 0,00 .

Pero ahora imagina que tenemos un valor atípico en el conjunto de datos:

Este valor atípico hace que la correlación sea r = 0,878 . Este único punto de datos cambia completamente la correlación y hace que parezca que existe una fuerte relación entre las variables X e Y , cuando en realidad no la hay.

(2) Un diagrama de dispersión puede ayudarlo a identificar relaciones no lineales entre variables.

Un coeficiente de correlación de Pearson simplemente nos dice si dos variables están relacionadas linealmente . Pero incluso si un coeficiente de correlación de Pearson nos dice que dos variables no están correlacionadas, aún podrían tener algún tipo de relación no lineal. Esta es otra razón por la que resulta útil crear un diagrama de dispersión.

Por ejemplo, considere la gráfica de dispersión a continuación entre las variables X e Y , en la que su correlación es r = 0.00 .

Las variables claramente no tienen relación lineal, sino que hacer tener una relación no lineal: Los valores de y son simplemente los valores de x al cuadrado. Un coeficiente de correlación por sí solo no podría captar esta relación, pero un diagrama de dispersión sí.

Conclusión

En resumen:

  • Como regla general, una correlación superior a 0,75 se considera una correlación «fuerte» entre dos variables.
  • Sin embargo, esta regla general puede variar de un campo a otro. Por ejemplo, una correlación mucho más baja podría considerarse fuerte en un campo médico en comparación con un campo tecnológico. Es mejor utilizar la experiencia específica del dominio al decidir qué se considera sólido.
  • Cuando se usa una correlación para describir la relación entre dos variables, es útil crear también un diagrama de dispersión para que pueda identificar cualquier valor atípico en el conjunto de datos junto con una posible relación no lineal.

Recursos adicionales

¿Qué se considera una correlación «débil»?
Calculadora de matriz de correlación
Cómo leer una matriz de correlación

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una pirámide de población es un gráfico que muestra la distribución por edad y sexo de una población determinada. Es…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!