Cómo convertir datos en Winsorize: definición y ejemplos

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

Actualizado el 17 de julio de 2024, por Luis Benites.

Para winsorize medios de datos para establecer valores atípicos extremos igual a un determinado percentil de los datos.

Por ejemplo, una winorización del 90% establece todas las observaciones superiores al percentil 95 igual al valor del percentil 95 y todas las observaciones inferiores al percentil 5 igual al valor del percentil 5.

En efecto, para mejorar los datos significa cambiar los valores extremos en un conjunto de datos a valores menos extremos.

Ejemplo: cómo convertir datos en Winsorize

Supongamos que tenemos el siguiente conjunto de datos:

3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Para realizar una winorización del 90% en este conjunto de datos, primero encontraríamos el percentil 5 y el percentil 95, que resultan ser:

  • Percentil 5: 12,35
  • Percentil 95: 92,05

Luego, estableceríamos cualquier valor por debajo de 12,35 igual a 12,35 y cualquier valor por encima de 92,05 igual a 92,05:

12,35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92,05

En este caso, el valor 3 se cambió a 12,35 y el valor 98 se cambió a 92,05 .

¿Por qué Winsorize Data?

La media y la desviación estándar son dos formas comunes de medir la ubicación del centro de un conjunto de datos y la extensión de las observaciones en un conjunto de datos, respectivamente.

Sin embargo, estas dos métricas pueden verse influenciadas por valores atípicos extremos. Por lo tanto, la obtención de datos nos permite establecer valores atípicos extremos iguales a valores menos extremos.

Esto a menudo nos permite obtener una visión más precisa de la media y la desviación estándar del conjunto de datos.

Recorte frente a Winsorización

Otra forma común de lidiar con los valores atípicos es recortarlos del conjunto de datos, lo que significa eliminarlos por completo.

Por ejemplo, considere el conjunto de datos de antes:

3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Si quisiéramos recortar los valores que caen por debajo del percentil 5 o por encima del percentil 95, simplemente eliminaríamos los valores 3 y 98 .

Aquí hay un par de reglas generales sobre cuándo usar recortar frente a winorizar:

Recorte: tiene sentido recortar valores de datos cuando algunos valores parecen completamente irrazonables, es decir, son el resultado de un error de entrada de datos.

Winsorizar: tiene sentido ganar en datos cuando queremos retener las observaciones que están en los extremos, pero no queremos tomarlas demasiado literalmente.

Precauciones sobre la extracción de datos

A continuación, se indican algunas cosas que debe tener en cuenta al decidir si desea convertir los datos en código:

1. Si no hay valores atípicos extremos, la optimización de los datos solo modificará ligeramente los valores más pequeños y más grandes. Por lo general, esta no es una buena idea, ya que significa que solo estamos modificando los valores de los datos por el bien de las modificaciones.

2. Los valores atípicos pueden representar casos extremos interesantes en los datos. Por lo tanto, antes de modificar los valores atípicos, es una buena idea examinarlos más de cerca para ver qué podría haberlos causado.

3. Debe decidir si desea o no administrar los datos después de recopilarlos, no antes. Debería ver si realmente hay valores atípicos extremos antes de decidirse a realizar la winsorización. Si no existen valores atípicos extremos, la winsorización puede ser innecesaria.

Tutorial: Winsorize Data en Excel

Consulte este tutorial para ver un ejemplo paso a paso de cómo convertir un conjunto de datos en Excel.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

En estadística, el término confiabilidad se refiere a la consistencia de una medida. Si medimos algo como inteligencia, conocimiento, productividad,…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!