Muestreo de importancia: definición simple

Actualizado por ultima vez el 18 de octubre de 2021, por Luis Benites.

El muestreo de importancia es una forma de predecir la probabilidad de un evento raro . Junto con Markov Chain Monte Carlo , es la principal herramienta de simulación para generar modelos de distribuciones de probabilidad difíciles de definir.

muestreo de importancia

Solo 3 de cada 1000 eventos se encuentran en las colas extremas de una curva de campana (±3 desviaciones estándar). Crédito de la imagen: Universidad de Virginia.

Los eventos raros generalmente se pueden encontrar en las colas de las distribuciones de probabilidad . Por ejemplo, en una curva de campana para el coeficiente intelectual, los Albert Einstein del mundo se encuentran por encima de tres desviaciones estándar de la media . La rareza de encontrar resultados como este hace que sea extremadamente difícil muestrear números lo suficientemente grandes para cualquier análisis estadístico significativo. Además, la distribución de probabilidad de estos eventos raros se verá marcadamente diferente de la curva de campana. Aunque predecir cuándo podría nacer otro Einstein probablemente no sea tan crítico, predecir otros eventos raros, como la fatiga en las estructuras de ingeniería o la llegada a tierra de huracanes de categoría 5, puede ser una cuestión de vida o muerte.

Además de encontrar probabilidades en colas, el muestreo de importancia también se puede usar para encontrar expectativas de funciones aleatorias.

Densidad de polarización

Una forma de producir muestras lo suficientemente grandes es cambiar la función de densidad de probabilidad para generar eventos más raros. Esta función de densidad alternativa se deriva de la función original de interés (en el ejemplo anterior, la curva de campana) y generalmente se denomina densidad de polarización . El objetivo final es reducir la varianza de sus estimaciones. Los pasos básicos son:

  1. Elija un modelo para el proceso que desea estudiar (es decir, obtenga la función de densidad de polarización y defina los parámetros del modelo (por ejemplo, la media y la varianza)),
  2. Extraiga muestras aleatorias del modelo parametrizado,
  3. Ejecute su análisis estadístico en la función de densidad de polarización,
  4. Modifique esos resultados para reflejar los cambios que realizó en la distribución de probabilidad.
  5. Analice la salida.

Muestreo de Importancia y Procedimientos Monte Carlo

El muestreo de importancia acelera los procedimientos de Monte Carlo para eventos raros (un «procedimiento de Monte Carlo» es un muestreo basado en paseos aleatorios). Como acelera el proceso, a veces se denomina «simulación rápida mediante muestreo de importancia». También se denomina «procedimiento de Monte Carlo forzado» porque obliga al procedimiento de Monte Carlo a comportarse de manera un tanto anormal.

Si está utilizando procedimientos de Monte Carlo, lo más probable es que esté utilizando software debido a la gran cantidad de cálculos involucrados. Muchos paquetes de software estadístico incluyen algoritmos Monte Carlo, incluidos Minitab , R y SPSS .

fórmulas

Las fórmulas detrás del Muestreo por Importancia son algo esotéricas, principalmente debido al cálculo involucrado. Como un ejemplo (relativamente) simple, digamos que desea crear una expectativa para alguna función, f:
μ f = ℰ p [f(X)], con

μ f = ∫ f(x)p(x)dx

Entonces, para cualquier función de densidad de probabilidad q(x) que satisfaga q(x) > 0 cuando f(x)p(x)≠ 0, tienes:

μ f = ℰ q [w(X)f(X)]

Donde:

  • w(x) = p(x)/q(x)
  • q [] = expectativa con respecto a q(x).

Ahora puede usar una muestra de sorteos independientes de q(x) para estimar μ f por


Referencias:
Neal, RM (2001). Muestreo de importancia recocido. Estadística y
Computación (11) 125-139.
Oh, M.-S. y Berger, JO (1992). Muestreo de importancia adaptativo en
la integración Monte Carlo. Revista de Computación Estadística y Simulación
(41) 143-168.
Srinivasan, R. (2013). Muestreo por Importancia: Aplicaciones en Comunicaciones y Detección. Springer Science & Business Media.
Tokdar, S. y Kass, R. (2009). Muestreo por importancia: una revisión. Recuperado el 18/8/2017 de: http://www2.stat.duke.edu/~st118/Publication/impsamp.pdf

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es la prueba de Anderson-Darling? La prueba de bondad de ajuste de Anderson-Darling (AD-Test) es una medida de qué…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!