Muestra Bootstrap: definición, ejemplo

Contenido de este artículo

1 ¿Qué es una muestra Bootstrap?
2 ¿Por qué volver a muestrear?
3 Ejecución del procedimiento
4 Notación
5 Método de percentil Bootstrap
6 Redactor del artículo
7 ¿Te hemos ayudado?

Puedes opinar sobre este contenido:

Actualizado el 17 de noviembre de 2021, por Luis Benites.

¿Qué es una muestra Bootstrap?

Una muestra de arranque es una muestra más pequeña que se «arranca» de una muestra más grande. Bootstrapping es un tipo de remuestreo en el que se extraen repetidamente grandes cantidades de muestras más pequeñas del mismo tamaño, con reemplazo , a partir de una única muestra original.

Por ejemplo, supongamos que su muestra estaba compuesta por diez números: 49, 34, 21, 18, 10, 8, 6, 5, 2, 1. Saca al azar tres números 5, 1 y 49. Luego los reemplaza números en la muestra y dibujar tres números de nuevo. Repite el proceso de dibujar x números B veces. Por lo general, las muestras originales son mucho más grandes que este simple ejemplo, y B puede llegar a miles. Después de un gran número de iteraciones, las estadísticas de arranque se compilan en una distribución de arranque. Está reemplazando sus números nuevamente en el bote, por lo que sus remuestreos pueden tener el mismo elemento repetido varias veces (por ejemplo, 49 podría aparecer una docena de veces en una docena de remuestreos).

Bootstrapping se basa libremente en la ley de los grandes números , que establece que si toma muestras una y otra vez, sus datos deberían aproximarse a los datos de la población real . Esto funciona, quizás sorprendentemente, incluso cuando usa una sola muestra para generar los datos.

Se extrae una muestra de arranque empírica de las observaciones.
Una muestra de arranque paramétrica se extrae de una distribución parametrizada (por ejemplo, una distribución normal ).

¿Por qué volver a muestrear?

Idealmente, le gustaría extraer muestras grandes y no repetidas de una población para crear una distribución de muestreo para una estadística. Sin embargo, es posible que esté limitado a una muestra debido a las finanzas o el tiempo. Este método de muestra única puede servir como una minipoblación, a partir de la cual se extraen pequeñas muestras repetidas con reemplazo una y otra vez. Además de ahorrar tiempo y dinero, las muestras de arranque pueden ser aproximaciones bastante buenas para los parámetros de población.

Ejecución del procedimiento

Bootstrapping generalmente se realiza con software (por ejemplo, Stata o con el paquete R Bootstrap ); El proceso generalmente sigue tres pasos:

Vuelva a muestrear un conjunto de datos x veces,
Encuentre una estadística de resumen (llamada estadística de arranque ) para cada una de las x muestras,
Calcule el error estándar para la estadística de arranque utilizando la desviación estándar de la distribución de arranque.

Notación

El número de muestras de arranque se puede indicar con B (por ejemplo, si vuelve a muestrear 10 veces, entonces B = 10).
Una muestra de arranque se identifica mediante la notación de «estrella»: x* ₁ , x _2* ,…x* _n . Esto es similar a la notación para datos de muestra, que tradicionalmente se denota por: x ₁ , x ₂ ,…x _n
Una estrella junto a una estadística, como s* o x̄*, indica que la estadística se calculó mediante remuestreo. Una estadística de arranque a veces se denota con una T, donde T* _b sería la estadística de muestra de arranque B ^th T.

Método de percentil Bootstrap

El método de percentil de arranque es una forma de calcular los intervalos de confianza para las muestras de arranque.

Con el método simple, se recorta un determinado porcentaje (p. ej., 5 % o 10 %) del extremo inferior y superior de la estadística muestral (p. ej., la media o la desviación estándar). El número que recorte depende del intervalo de confianza que esté buscando. Por ejemplo, un intervalo de confianza del 90 % generaría un recorte de 100 % – 90 % = 10 % (es decir, 5 % en ambos extremos). O, dicho de otra manera (ligeramente más técnica), puede obtener un intervalo de confianza del 90 % tomando el límite inferior 5 % y el límite superior 95 % cuantiles de la replicación B T ₁ , T ₂ ,… _TB .

Un método más complicado es el método BCa de Efron (ver DiCiccio y Efron, 1993), que significa sesgo corregido y acelerado. Además de ajustar el sesgo, también corrige la asimetría en el modelo. Otras variantes incluyen la extensión bayesiana de Rubin y el método ABC de DiCiccio y Efron .

Este rango recortado para la estadística es el intervalo de confianza para el parámetro de interés de la población.

Referencias:
DiCiccio, TJ y Efron B. (1996) Intervalos de confianza Bootstrap. Ciencia Estadística, 11, 189-228.
Efron, B. y Tibshirani, R. (1993) Introducción a Bootstrap. Chapman and Hall, Nueva York, Londres.
Rubín, D (1981). El arranque bayesiano. Anales de Estadística 9 130–134.

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: