Estadísticas robustas / estimación (robustez) y punto de ruptura

Actualizado por ultima vez el 3 de abril de 2022, por Luis Benites.

Contenido:
Definición de estadísticas
robustas Estimadores robustos y no robustos
Cuando no se debe confiar en el
punto de ruptura de la robustez

¿Qué son las Estadísticas Robustas?

Las estadísticas sólidas son resistentes a los valores atípicos . En otras palabras, si su conjunto de datos contiene valores muy altos o muy bajos, algunas estadísticas serán buenos estimadores para los parámetros de población y algunas estadísticas serán malos estimadores. Por ejemplo, la media es muy susceptible a los valores atípicos (no es robusta), mientras que la mediana no se ve afectada por los valores atípicos (es robusta ).

Estimadores robustos y no robustos

(Haga clic en un término para ver el artículo principal)
Estimadores robustos:

Estimadores no robustos:

Las estadísticas robustas son diferentes de las pruebas robustas , que se definen como pruebas que seguirán funcionando bien incluso si se alteran o violan una o más suposiciones. Por ejemplo, la prueba de igualdad de varianzas de Levene sigue siendo robusta incluso si se viola el supuesto de normalidad .

Cuando no debe confiar en la robustez.

estadísticas sólidas

Las estadísticas sólidas funcionan asumiendo que sus datos siguen una distribución normal.

Las estadísticas robustas asumen que su distribución subyacente es normal, por lo que no debe usarlas para distribuciones sesgadas o multimodales . Estas estadísticas funcionan asumiendo que los datos subyacentes son aproximadamente normales; si usa estas estadísticas en una distribución de forma diferente, darán resultados engañosos. Dicho esto, no funcionan bien para todas las distribuciones de forma normal, como mezclas de dos distribuciones normales (llamada distribución contaminada).

Si bien las estadísticas sólidas son resistentes a los valores atípicos, no siempre son apropiadas por la misma razón; también significa que las estadísticas que presenta no dan idea de los valores atípicos. Por ejemplo, el precio medio de una casa donde vivo es de unos 250.000 dólares. Eso no suena demasiado impresionante, y se te puede perdonar si piensas que debo vivir en una ciudad bastante «promedio». Sin embargo, vivo junto al río, y aunque la mayoría de las casas se venden por ese precio, aproximadamente el 1% de las casas están en el río y se venden por $ 2-3 millones.

Punto de ruptura

Un punto de ruptura es el punto después del cual un estimador se vuelve inútil. Es una medida de robustez; Cuanto mayor sea el punto de ruptura, mejor será el estimador. Si un estimador tiene un punto de ruptura alto, puede llamarse estadístico resistente .

Hay dos tipos de puntos de ruptura: puntos de ruptura de muestra finita y puntos de ruptura asintótica.

Puntos de descomposición de muestras finitas

El punto de ruptura de la muestra finita se define como la fracción de datos a los que se les pueden dar valores arbitrarios sin hacer que el estimador sea arbitrariamente demasiado grande o demasiado pequeño. Por lo general, depende del tamaño de la muestra , n , y se puede escribir como una función de n .

Como ejemplo, considere la media aritmética como el estimador de un conjunto de datos. Está dado por ( x 1 + x 2 + … + x n )/n. Puede cambiar el valor calculado de la media en una cantidad arbitrariamente grande, simplemente cambiando uno de los puntos de datos en una gran cantidad. Por lo tanto, el punto de ruptura es solo 1/n.

Puntos de ruptura asintótica

El punto de ruptura asintótico es a lo que generalmente se hace referencia cuando se usa el término «punto de ruptura», y es el punto de ruptura de muestra finita cuando n tiende a infinito.

En el ejemplo anterior, 1/n tiende a 0 cuando n tiende a infinito, por lo que el punto de ruptura (asintótico) de la media es solo 0. Esto nos dice que la media, como estimación, no es para nada robusta o resistente. Esto es todo lo contrario de la mediana, que tiene el punto de ruptura más alto posible, de 1/2 (Wilcox, 2010).

Referencias

Geyer, Charles. Desglose las notas de teoría de puntos. Recuperado de http://www.stat.umn.edu/geyer/5601/notes/break.pdf el 23 de junio de 2018

Estadísticas de MBA Skool, punto de ruptura. Recuperado de
https://www.mbaskool.com/business-concepts/statistics/8606-breakdown-point.html el 23 de junio de 2018.

Davies & Gather. El punto de ruptura: ejemplos y contraejemplos. REVSTAT – Revista estadística, volumen 5, número 1, marzo de 2007, 1–17. Recuperado de https://www.ine.pt/revstat/pdf/rs070101.pdf el 23 de junio de 2018

Sakata y Blanco. Punto de ruptura. Enciclopedia de Ciencias Estadísticas. Primera publicación: 15 de agosto de 2006 https://doi.org/10.1002/0471667196.ess0607.pub2. Recuperado de https://onlinelibrary.wiley.com/doi/full/10.1002/0471667196.ess0607.pub2 el 23 de junio de 2018.

Wilcox, R. (2010). Fundamentos de los métodos estadísticos modernos: mejora sustancial de la potencia y la precisión . Medios de comunicación de ciencia y negocios de Springer.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Una distribución de severidad (o distribución de severidad de pérdida ) es una distribución de probabilidad de la cantidad de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!