¿Qué es un Z-Score modificado? (Definición y ejemplo)

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

En estadística, una puntuación z nos dice a cuántas desviaciones estándar se encuentra un valor de la media . Usamos la siguiente fórmula para calcular una puntuación z:

Puntuación Z = (x i – μ) / σ

dónde:

  • x i : un solo valor de datos
  • μ: la media del conjunto de datos
  • σ: la desviación estándar del conjunto de datos

Las puntuaciones Z se utilizan a menudo para detectar valores atípicos en un conjunto de datos. Por ejemplo, las observaciones con una puntuación z menor que -3 o mayor que 3 a menudo se consideran valores atípicos.

Sin embargo, las puntuaciones z pueden verse afectadas por valores de datos inusualmente grandes o pequeños, por lo que una forma más sólida de detectar valores atípicos es utilizar una puntuación z modificada , que se calcula como:

Puntuación z modificada = 0,6745 (x i – x̃) / MAD

dónde:

  • x i : un solo valor de datos
  • x̃: la mediana del conjunto de datos
  • MAD: la desviación absoluta mediana del conjunto de datos

Una puntuación z modificada es más robusta porque utiliza la mediana para calcular las puntuaciones z en lugar de la media, que se sabe que está influenciada por valores atípicos .

Iglewicz y Hoaglin recomiendan que los valores con puntuaciones z modificadas inferiores a -3,5 o superiores a 3,5 se etiqueten como posibles valores atípicos.

El siguiente ejemplo paso a paso muestra cómo calcular las puntuaciones z modificadas para un conjunto de datos determinado.

Paso 1: crear los datos

Supongamos que tenemos el siguiente conjunto de datos con 16 valores:

Paso 2: Encuentra la mediana

A continuación, encontraremos la mediana. Esto representa el punto medio del conjunto de datos, que resulta ser 16 .

Paso 3: Encuentre la diferencia absoluta entre cada valor y la mediana

A continuación, encontraremos la diferencia absoluta entre el valor de cada dato individual y la mediana. Por ejemplo, la diferencia absoluta entre el primer valor de los datos y la mediana se calcula como:

Diferencia absoluta = | 6 – 16 | = 10

Podemos usar la misma fórmula para calcular la diferencia absoluta entre cada valor de datos individuales y la mediana:

Paso 4: Encuentre la desviación absoluta mediana

A continuación, encontraremos la desviación absoluta mediana. Esta es la mediana de la segunda columna, que resulta ser 8 .

Paso 5: Encuentre la puntuación Z modificada para cada valor de datos

Por último, podemos calcular la puntuación z modificada para cada valor de datos utilizando la siguiente fórmula:

Puntuación z modificada = 0,6745 (x i – x̃) / MAD

Por ejemplo, la puntuación z modificada para el primer valor de datos se calcula como:

Puntuación z modificada = 0,6745 * (6-16) / 8 = -0,843

Podemos repetir esta fórmula para cada valor del conjunto de datos:

Podemos ver que ningún valor en el conjunto de datos tiene una puntuación z modificada menor que -3.5 o mayor que 3.5, por lo que no etiquetaríamos ningún valor en este conjunto de datos como un valor atípico potencial.

Cómo manejar valores atípicos

Si hay un valor atípico en su conjunto de datos, tiene algunas opciones:

  • Asegúrese de que el valor atípico no sea el resultado de un error de entrada de datos. A veces, una persona simplemente ingresa el valor de datos incorrecto al registrar datos. Si hay un valor atípico, primero verifique que el valor se ingresó correctamente y que no fue un error.
  • Asigne un nuevo valor al valor atípico . Si el valor atípico resulta ser el resultado de un error de entrada de datos, puede decidir asignarle un nuevo valor, como la media o la mediana del conjunto de datos.
  • Elimina el valor atípico. Si el valor es un valor atípico verdadero, puede optar por eliminarlo si tendrá un impacto significativo en su análisis general. Solo asegúrese de mencionar en su informe o análisis final que eliminó un valor atípico.
  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

La prueba de Friedman es una alternativa no paramétrica al ANOVA de medidas repetidas . Se utiliza para determinar si…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!