Cómo calcular la distancia de Mahalanobis en R

La distancia de Mahalanobis es la distancia entre dos puntos en un espacio multivariado. A menudo se usa para encontrar valores atípicos en análisis estadísticos que involucran varias variables.

Este tutorial explica cómo calcular la distancia de Mahalanobis en R.

Ejemplo: Distancia de Mahalanobis en R

Utilice los siguientes pasos para calcular la distancia de Mahalanobis para cada observación en un conjunto de datos en R.

Paso 1: crea el conjunto de datos.

Primero, crearemos un conjunto de datos que muestra el puntaje del examen de 20 estudiantes junto con la cantidad de horas que pasaron estudiando, la cantidad de exámenes de preparación que tomaron y su calificación actual en el curso:

#crear datos
df = data.frame (puntuación = c (91, 93, 72, 87, 86, 73, 68, 87, 78, 99, 95, 76, 84, 96, 76, 80, 83, 84, 73, 74) ,
        horas = c (16, 6, 3, 1, 2, 3, 2, 5, 2, 5, 2, 3, 4, 3, 3, 3, 4, 3, 4, 4),
        preparación = c (3, 4, 0, 3, 4, 0, 1, 2, 1, 2, 3, 3, 3, 2, 2, 2, 3, 3, 2, 2),
        grado = c (70, 88, 80, 83, 88, 84, 78, 94, 90, 93, 89, 82, 95, 94, 81, 93, 93, 90, 89, 89))

#ver las primeras seis filas del encabezado de datos
 (df)

  puntaje de horas grado de preparación
1 91 16 3 70
2 93 6 4 88
3 72 3 0 80
4 87 1 3 83
5 86 2 4 88
6 73 3 0 84

Paso 2: Calcule la distancia de Mahalanobis para cada observación.

A continuación, usaremos la función mahalanobis () incorporada en R para calcular la distancia de Mahalanobis para cada observación, que usa la siguiente sintaxis:

mahalanobis (x, centro, cov)

dónde:

  • x: matriz de datos
  • centro: vector medio de la distribución
  • cov: matriz de covarianza de la distribución

El siguiente código muestra cómo implementar esta función para nuestro conjunto de datos:

#calcular la distancia de Mahalanobis para cada observación
mahalanobis (df, colMeans (df), cov (df))

 [1] 16.5019630 2.6392864 4.8507973 5.2012612 3.8287341 4.0905633
 [7] 4.2836303 2.4198736 1.6519576 5.6578253 3.9658770 2.9350178
[13] 2.8102109 4.3682945 1.5610165 1.4595069 2.0245748 0.7502536
[19] 2.7351292 2.2642268

Paso 3: Calcule el valor p para cada distancia de Mahalanobis.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Deja un comentario en el muro del agradecimiento para que todos sepán que Statologos explica mejor y facil y si te es viable puedes hacer una donación:

Puedes hacer un donativo
Muro del agradecimiento

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

La regresión lineal es un método que podemos utilizar para comprender la relación entre una o más variables predictoras y…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!