Cómo identificar valores atípicos en SPSS

Un valor atípico es una observación que se encuentra anormalmente alejada de otros valores en un conjunto de datos. Los valores atípicos pueden ser problemáticos porque pueden afectar los resultados de un análisis.

Este tutorial explica cómo identificar y manejar valores atípicos en SPSS.

Cómo identificar valores atípicos en SPSS

Supongamos que tenemos el siguiente conjunto de datos que muestra el ingreso anual (en miles) de 15 personas:

Una forma de determinar si existen valores atípicos es crear un diagrama de caja para el conjunto de datos. Para hacerlo, haga clic en la pestaña Analizar , luego en Estadísticas descriptivas y luego en Explorar :

En la nueva ventana que aparece, arrastre el ingreso variable al cuadro denominado Lista de dependientes. Luego haga clic en Estadísticas y asegúrese de que la casilla junto a Percentiles esté marcada. Luego haga clic en Continuar . Luego haga clic en Aceptar .

Una vez que haga clic en Aceptar , aparecerá un diagrama de caja:

Diagrama de caja en SPSS

Si no hay círculos ni asteriscos en ninguno de los extremos del diagrama de caja, esto es una indicación de que no hay valores atípicos.

SPSS considera que cualquier valor de datos es un valor atípico si se encuentra fuera de los siguientes rangos:

  • 3er cuartil + 1,5 * rango intercuartílico
  • 1er cuartil – rango intercuartílico 1,5 *

Podemos calcular el rango intercuartil tomando la diferencia entre el percentil 75 y 25 en la fila etiquetada Bisagras de Tukey en la salida:

Gama intercuartil de bisagras de Tukey en SPSS

Para este conjunto de datos, el rango intercuartílico es 82 – 36 = 46 . Por lo tanto, cualquier valor fuera de los siguientes rangos se consideraría valores atípicos:

  • 82 + 1,5 * 46 = 151
  • 36 – 1,5 * 46 = -33

Obviamente, los ingresos no pueden ser negativos, por lo que el límite inferior de este ejemplo no es útil. Sin embargo, cualquier ingreso superior a 151 se consideraría un valor atípico.

Por ejemplo, supongamos que el valor más grande en nuestro conjunto de datos fuera 152. Aquí está el diagrama de caja para este conjunto de datos:

Diagrama de caja con valores atípicos en SPSS

El círculo es una indicación de que hay un valor atípico en los datos. El número 15 indica qué observación del conjunto de datos es la más atípica.

SPSS también considera que cualquier valor de datos es un valor atípico extremo si se encuentra fuera de los siguientes rangos:

  • 3er cuartil + 3 * rango intercuartil
  • 1er cuartil – rango intercuartílico 3 *

Por lo tanto, cualquier valor fuera de los siguientes rangos se consideraría valores atípicos extremos en este ejemplo:

  • 82 + 3 * 46 = 220
  • 36 – 3 * 46 = -102

Por ejemplo, supongamos que el valor más grande en nuestro conjunto de datos es 221. Aquí está el diagrama de caja para este conjunto de datos:

Valor atípico extremo en un diagrama de caja en SPSS

El asterisco (*) es una indicación de que hay un valor atípico extremo en los datos. El número 15 indica qué observación del conjunto de datos es la más atípica.

Cómo manejar valores atípicos

Si hay un valor atípico en sus datos, tiene algunas opciones:

1. Asegúrese de que el valor atípico no sea el resultado de un error de entrada de datos.

A veces, una persona simplemente ingresa el valor de datos incorrecto al registrar datos. Si hay un valor atípico, primero verifique que el valor se ingresó correctamente y que no fue un error.

2. Elimine el valor atípico.

Si el valor es un valor atípico verdadero, puede optar por eliminarlo si tendrá un impacto significativo en su análisis general. Solo asegúrese de mencionar en su informe o análisis final que eliminó un valor atípico.

3. Asigne un nuevo valor al valor atípico .

Si el valor atípico resulta ser el resultado de un error de entrada de datos, puede decidir asignarle un nuevo valor, como la media o la mediana del conjunto de datos.

Recursos adicionales

Si está trabajando con varias variables a la vez, es posible que desee utilizar la distancia de Mahalanobis para detectar valores atípicos.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, es posible que desee cambiar el nombre de una o más columnas en un DataFrame de pandas. Afortunadamente,…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!