Cómo calcular la distancia de Mahalanobis en SPSS

La distancia de Mahalanobis es la distancia entre dos puntos en un espacio multivariado. A menudo se usa para encontrar valores atípicos en análisis estadísticos que involucran varias variables.

Este tutorial explica cómo calcular la distancia de Mahalanobis en SPSS.

Ejemplo: Distancia de Mahalanobis en SPSS

Supongamos que tenemos el siguiente conjunto de datos que muestra el puntaje del examen de 20 estudiantes junto con la cantidad de horas que pasaron estudiando, la cantidad de exámenes de preparación que tomaron y su calificación actual en el curso:

Podemos utilizar los siguientes pasos para calcular la distancia de Mahalanobis para cada observación en el conjunto de datos para determinar si hay valores atípicos multivariados.

Paso 1: seleccione la opción de regresión lineal.

Haga clic en la pestaña Analizar , luego en Regresión y luego en Lineal :

Paso 2: selecciona la opción Mahalanobis.

Arrastre la puntuación de la variable de respuesta al cuadro etiquetado como Dependiente. Arrastre las otras tres variables predictoras al cuadro etiquetado Independiente (s). Luego haga clic en el botón Guardar . En la nueva ventana que aparece, asegúrese de que la casilla junto a Mahalanobis esté marcada. Luego haga clic en Continuar . Luego haga clic en Aceptar .

Distancia de Mahalanobis en SPSS

Una vez que haga clic en Aceptar , la distancia de Mahalanobis para cada observación en el conjunto de datos aparecerá en una nueva columna titulada MAH_1 :

Podemos ver que algunas de las distancias son mucho mayores que otras. Para determinar si alguna de las distancias es estadísticamente significativa, necesitamos calcular sus valores p.

Paso 3: Calcule los valores p de cada distancia de Mahalanobis.

Haga clic en la pestaña Transformar y luego en Calcular variable .

En el cuadro Variable de destino , elija un nuevo nombre para la variable que está creando. Elegimos «pvalue». En el cuadro Expresión numérica , escriba lo siguiente:

1 – CDF.CHISQ (MAH_1, 3)

Luego haga clic en Aceptar .

Esto producirá un valor p que corresponde al valor Chi-Cuadrado con 3 grados de libertad. Usamos 3 grados de libertad porque hay 3 variables predictoras en nuestro modelo de regresión.

Paso 4: Interprete los valores p.

Una vez que haga clic en Aceptar , el valor p para cada distancia de Mahalanobis se mostrará en una nueva columna:

Valores p para la distancia de Mahalanobis en SPSS

De forma predeterminada, SPSS solo muestra los valores p con dos decimales. Puede aumentar el número de posiciones decimales haciendo clic en Vista variable en la parte inferior de SPSS y aumentando el número en la columna Decimales :

Una vez que regrese a la Vista de datos , puede ver cada valor p mostrado con cinco lugares decimales. Cualquier valor p que sea menor que .001 se considera un valor atípico.

Podemos ver que la primera observación es el único valor atípico en el conjunto de datos porque tiene un valor p menor que .001:

Cómo manejar valores atípicos

Si hay un valor atípico en sus datos, tiene un par de opciones:

1. Asegúrese de que el valor atípico no sea el resultado de un error de entrada de datos.

A veces, una persona simplemente ingresa el valor de datos incorrecto al registrar datos. Si hay un valor atípico, primero verifique que el valor de los datos se ingresó correctamente y que no fue un error.

2. Elimine el valor atípico.

Si el valor es un valor atípico verdadero, puede optar por eliminarlo si tendrá un impacto significativo en su análisis general. Solo asegúrese de mencionar en su informe o análisis final que eliminó un valor atípico.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Los diagramas de caja son útiles para visualizar el resumen de cinco números de un conjunto de datos, que incluye:…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!