Cómo calcular la distancia de Mahalanobis en R

La distancia de Mahalanobis es la distancia entre dos puntos en un espacio multivariado. A menudo se usa para encontrar valores atípicos en análisis estadísticos que involucran varias variables.

Este tutorial explica cómo calcular la distancia de Mahalanobis en R.

Ejemplo: Distancia de Mahalanobis en R

Utilice los siguientes pasos para calcular la distancia de Mahalanobis para cada observación en un conjunto de datos en R.

Paso 1: crea el conjunto de datos.

Primero, crearemos un conjunto de datos que muestra el puntaje del examen de 20 estudiantes junto con la cantidad de horas que pasaron estudiando, la cantidad de exámenes de preparación que tomaron y su calificación actual en el curso:

#crear datos
df = data.frame (puntuación = c (91, 93, 72, 87, 86, 73, 68, 87, 78, 99, 95, 76, 84, 96, 76, 80, 83, 84, 73, 74) ,
        horas = c (16, 6, 3, 1, 2, 3, 2, 5, 2, 5, 2, 3, 4, 3, 3, 3, 4, 3, 4, 4),
        preparación = c (3, 4, 0, 3, 4, 0, 1, 2, 1, 2, 3, 3, 3, 2, 2, 2, 3, 3, 2, 2),
        grado = c (70, 88, 80, 83, 88, 84, 78, 94, 90, 93, 89, 82, 95, 94, 81, 93, 93, 90, 89, 89))

#ver las primeras seis filas del encabezado de datos
 (df)

  puntaje de horas grado de preparación
1 91 16 3 70
2 93 6 4 88
3 72 3 0 80
4 87 1 3 83
5 86 2 4 88
6 73 3 0 84

Paso 2: Calcule la distancia de Mahalanobis para cada observación.

A continuación, usaremos la función mahalanobis () incorporada en R para calcular la distancia de Mahalanobis para cada observación, que usa la siguiente sintaxis:

mahalanobis (x, centro, cov)

dónde:

  • x: matriz de datos
  • centro: vector medio de la distribución
  • cov: matriz de covarianza de la distribución

El siguiente código muestra cómo implementar esta función para nuestro conjunto de datos:

#calcular la distancia de Mahalanobis para cada observación
mahalanobis (df, colMeans (df), cov (df))

 [1] 16.5019630 2.6392864 4.8507973 5.2012612 3.8287341 4.0905633
 [7] 4.2836303 2.4198736 1.6519576 5.6578253 3.9658770 2.9350178
[13] 2.8102109 4.3682945 1.5610165 1.4595069 2.0245748 0.7502536
[19] 2.7351292 2.2642268

Paso 3: Calcule el valor p para cada distancia de Mahalanobis.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La regresión lineal es un método que podemos utilizar para comprender la relación entre una o más variables predictoras y…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!