Cómo realizar la prueba de Grubbs en Python

La prueba de Grubbs se utiliza para identificar la presencia de valores atípicos en un conjunto de datos. Para utilizar esta prueba, un conjunto de datos debe tener una distribución aproximadamente normal y tener al menos 7 observaciones.

Este tutorial explica cómo realizar la prueba de Grubbs en Python.

Prueba de Grubbs en Python

Para realizar la prueba de Grubbs en Python, podemos usar la función smirnov_grubbs () del paquete outlier_utils , que usa la siguiente sintaxis:

smirnov_grubbs.test (datos, alfa = .05)

dónde:

  • datos: un vector numérico de valores de datos
  • alfa: el nivel de significancia que se utilizará para la prueba. El valor predeterminado es .05

Para usar esta función, primero debe instalar el paquete outlier_utils :

pip install outlier_utils

Una vez que este paquete está instalado, puede realizar la prueba de Grubbs. Los siguientes ejemplos ilustran cómo hacerlo.

Ejemplo 1: prueba de Grubbs de dos caras

El siguiente código ilustra cómo realizar una prueba de Grubbs de dos lados, que detectará valores atípicos en ambos extremos del conjunto de datos.

importar numpy como np
 de valores atípicos importar smirnov_grubbs como grubbs

#define data
datos = np.array ([5, 14, 15, 15, 14, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40])

#realice las pruebas de 
Grubbs. prueba (datos, alfa = .05)

matriz ([5, 14, 15, 15, 14, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29])

Esta función simplemente devuelve una matriz con los valores atípicos eliminados. En este caso, el valor máximo de 40 era un valor atípico, por lo que se eliminó.

Ejemplo 2: prueba de Grubbs unilateral

El siguiente código ilustra cómo realizar una prueba de Grubbs unilateral para el valor mínimo y el valor máximo en un conjunto de datos:

importar numpy como np
 de valores atípicos importar smirnov_grubbs como grubbs

#define data
datos = np.array ([5, 14, 15, 15, 14, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40])

#realice la prueba de Grubbs para ver si el valor mínimo es un valor atípico de 
grubbs. prueba_mín (datos, alfa = .05)

matriz ([5, 14, 15, 15, 14, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40])

#realice la prueba de Grubbs para ver si el valor mínimo es un valor atípico de
 grubbs. prueba_máx (datos, alfa = .05)

matriz ([5, 14, 15, 15, 14, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29])

La prueba de valores atípicos mínimos no detectó el valor mínimo como un valor atípico. Sin embargo, la prueba de valor atípico máximo determinó que el valor máximo de 40 era un valor atípico, por lo que se eliminó.

Ejemplo 3: Extraiga el índice del valor atípico

El siguiente código ilustra cómo extraer el índice del valor atípico:

importar numpy como np
 de valores atípicos importar smirnov_grubbs como grubbs

#define data
datos = np.array ([5, 14, 15, 15, 14, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40])

#realice la prueba de Grubbs e identifique el índice (si lo hay) de los 
grubbs atípicos . max_test_indices (datos, alfa = .05)

[dieciséis]

Esto nos dice que hay un valor atípico en la posición 16 del índice de la matriz.

Ejemplo 4: Extraiga el valor del valor atípico

El siguiente código ilustra cómo extraer el valor del valor atípico:

importar numpy como np
 de valores atípicos importar smirnov_grubbs como grubbs

#define data
datos = np.array ([5, 14, 15, 15, 14, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40])

#realice la prueba de Grubbs e identifique el valor real (si lo hay) de los valores atípicos de 
grubbs. max_test_outliers (datos, alfa = .05)

[40]

Esto nos dice que hay un valor atípico con un valor de 40.

Cómo manejar valores atípicos

Si la prueba de Grubbs identifica un valor atípico en su conjunto de datos, tiene algunas opciones:

1. Vuelva a verificar para asegurarse de que el valor no sea un error tipográfico o de entrada de datos. A veces, los valores que aparecen como valores atípicos en los conjuntos de datos son simplemente errores tipográficos realizados por una persona al ingresar los datos. Primero, verifique que el valor se haya ingresado correctamente antes de tomar más decisiones.

2. Asigne un nuevo valor al valor atípico . Si el valor atípico resulta ser el resultado de un error tipográfico o de entrada de datos, puede decidir asignarle un nuevo valor, como la media o la mediana del conjunto de datos.

3. Elimine el valor atípico.Si el valor es un valor atípico verdadero, puede optar por eliminarlo si tendrá un impacto significativo en su análisis.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una tabla de frecuencias es una tabla que muestra información sobre frecuencias. Las frecuencias simplemente nos dicen cuántas veces ha…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!