Cómo convertir datos en Winsorize: definición y ejemplos

Para winsorize medios de datos para establecer valores atípicos extremos igual a un determinado percentil de los datos.

Por ejemplo, una winorización del 90% establece todas las observaciones superiores al percentil 95 igual al valor del percentil 95 y todas las observaciones inferiores al percentil 5 igual al valor del percentil 5.

En efecto, para mejorar los datos significa cambiar los valores extremos en un conjunto de datos a valores menos extremos.

Ejemplo: cómo convertir datos en Winsorize

Supongamos que tenemos el siguiente conjunto de datos:

3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Para realizar una winorización del 90% en este conjunto de datos, primero encontraríamos el percentil 5 y el percentil 95, que resultan ser:

  • Percentil 5: 12,35
  • Percentil 95: 92,05

Luego, estableceríamos cualquier valor por debajo de 12,35 igual a 12,35 y cualquier valor por encima de 92,05 igual a 92,05:

12,35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92,05

En este caso, el valor 3 se cambió a 12,35 y el valor 98 se cambió a 92,05 .

¿Por qué Winsorize Data?

La media y la desviación estándar son dos formas comunes de medir la ubicación del centro de un conjunto de datos y la extensión de las observaciones en un conjunto de datos, respectivamente.

Sin embargo, estas dos métricas pueden verse influenciadas por valores atípicos extremos. Por lo tanto, la obtención de datos nos permite establecer valores atípicos extremos iguales a valores menos extremos.

Esto a menudo nos permite obtener una visión más precisa de la media y la desviación estándar del conjunto de datos.

Recorte frente a Winsorización

Otra forma común de lidiar con los valores atípicos es recortarlos del conjunto de datos, lo que significa eliminarlos por completo.

Por ejemplo, considere el conjunto de datos de antes:

3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Si quisiéramos recortar los valores que caen por debajo del percentil 5 o por encima del percentil 95, simplemente eliminaríamos los valores 3 y 98 .

Aquí hay un par de reglas generales sobre cuándo usar recortar frente a winorizar:

Recorte: tiene sentido recortar valores de datos cuando algunos valores parecen completamente irrazonables, es decir, son el resultado de un error de entrada de datos.

Winsorizar: tiene sentido ganar en datos cuando queremos retener las observaciones que están en los extremos, pero no queremos tomarlas demasiado literalmente.

Precauciones sobre la extracción de datos

A continuación, se indican algunas cosas que debe tener en cuenta al decidir si desea convertir los datos en código:

1. Si no hay valores atípicos extremos, la optimización de los datos solo modificará ligeramente los valores más pequeños y más grandes. Por lo general, esta no es una buena idea, ya que significa que solo estamos modificando los valores de los datos por el bien de las modificaciones.

2. Los valores atípicos pueden representar casos extremos interesantes en los datos. Por lo tanto, antes de modificar los valores atípicos, es una buena idea examinarlos más de cerca para ver qué podría haberlos causado.

3. Debe decidir si desea o no administrar los datos después de recopilarlos, no antes. Debería ver si realmente hay valores atípicos extremos antes de decidirse a realizar la winsorización. Si no existen valores atípicos extremos, la winsorización puede ser innecesaria.

Tutorial: Winsorize Data en Excel

Consulte este tutorial para ver un ejemplo paso a paso de cómo convertir un conjunto de datos en Excel.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, el término confiabilidad se refiere a la consistencia de una medida. Si medimos algo como inteligencia, conocimiento, productividad,…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!