Una introducción al ensacado en el aprendizaje automático

Cuando la relación entre un conjunto de variables predictoras y una variable de respuesta es lineal, podemos usar métodos como la regresión lineal múltiple para modelar la relación entre las variables.

Sin embargo, cuando la relación es más compleja, a menudo necesitamos depender de métodos no lineales.

Uno de estos métodos son los árboles de clasificación y regresión (a menudo abreviado CART), que utilizan un conjunto de variables predictoras para construir árboles de decisión que predicen el valor de una variable de respuesta.

Ejemplo de un árbol de regresión que usa años de experiencia y jonrones promedio para predecir el salario de un jugador de béisbol profesional.

Sin embargo, la desventaja de los modelos CART es que tienden a sufrir una gran variación . Es decir, si dividimos un conjunto de datos en dos mitades y aplicamos un árbol de decisión a ambas mitades, los resultados podrían ser bastante diferentes.

Un método que podemos utilizar para reducir la varianza de los modelos CART se conoce como ensacado , a veces denominado agregación bootstrap .

¿Qué es el embolsado?

Cuando creamos un único árbol de decisiones, solo usamos un conjunto de datos de entrenamiento para construir el modelo.

Sin embargo, el ensacado utiliza el siguiente método:

1. Tome b muestras de arranque del conjunto de datos original.

  • Recuerde que una muestra bootstrap es una muestra del conjunto de datos original en el que las observaciones se toman con reemplazo.

2. Construya un árbol de decisiones para cada muestra bootstrap.

3. Promedio de las predicciones de cada árbol para llegar a un modelo final.

  • Para los árboles de regresión, tomamos el promedio de la predicción realizada por los árboles B.
  • Para los árboles de clasificación, tomamos la predicción más común realizada por los árboles B.

El ensacado se puede usar con cualquier algoritmo de aprendizaje automático, pero es particularmente útil para los árboles de decisión porque intrínsecamente tienen una alta varianza y el ensacado puede reducir drásticamente la varianza, lo que conduce a un menor error de prueba.

Para aplicar el ensacado a los árboles de decisión, cultivamos árboles individuales B profundamente sin podarlos. Esto da como resultado árboles individuales que tienen una alta varianza, pero un bajo sesgo. Luego, cuando tomamos las predicciones promedio de estos árboles, podemos reducir la varianza.

En la práctica, el rendimiento óptimo suele ocurrir con 50 a 500 árboles, pero es posible ajustar miles de árboles para producir un modelo final.

Solo tenga en cuenta que ajustar más árboles requerirá más potencia computacional, lo que puede ser un problema o no según el tamaño del conjunto de datos.

Estimación del error fuera de la bolsa

Resulta que podemos calcular el error de prueba de un modelo empaquetado sin depender de la validación cruzada de k-fold .

La razón es porque se puede demostrar que cada muestra bootstrap contiene aproximadamente 2/3 de las observaciones del conjunto de datos original. El 1/3 restante de las observaciones que no se utilizaron para ajustarse al árbol en bolsas se denominan observaciones fuera de la bolsa (OOB) .

Podemos predecir el valor de la i-ésima observación en el conjunto de datos original tomando la predicción promedio de cada uno de los árboles en los que esa observación fue OOB.

Podemos usar este enfoque para hacer una predicción para todas las n observaciones en el conjunto de datos original y así calcular una tasa de error, que es una estimación válida del error de prueba.

El beneficio de utilizar este enfoque para estimar el error de prueba es que es mucho más rápido que la validación cruzada de k veces, especialmente cuando el conjunto de datos es grande.

Comprensión de la importancia de los predictores

Recuerde que uno de los beneficios de los árboles de decisiones es que son fáciles de interpretar y visualizar.

Cuando, en cambio, usamos el ensacado, ya no podemos interpretar o visualizar un árbol individual, ya que el modelo de ensacado final es el resultado de promediar muchos árboles diferentes. Ganamos precisión en las predicciones a expensas de la interpretabilidad.

Sin embargo, aún podemos entender la importancia de cada variable de predicción calculando la reducción total en RSS (suma de cuadrados residual) debido a la división sobre un predictor dado, promediado sobre todos los árboles B. Cuanto mayor sea el valor, más importante será el predictor.

Gráfico de importancia variable para el modelo de ensacado
Ejemplo de una gráfica de importancia variable.

De manera similar, para los modelos de clasificación podemos calcular la reducción total en el Índice de Gini debido a la división sobre un predictor dado, promediado sobre todos los árboles B. Cuanto mayor sea el valor, más importante será el predictor.

Entonces, aunque no podemos interpretar exactamente un modelo final empaquetado, aún podemos tener una idea de cuán importante es cada variable de predicción al predecir la respuesta.

Más allá del embolsado

El beneficio del ensacado es que normalmente ofrece una mejora en la tasa de error de prueba en comparación con un árbol de decisión único.

La desventaja es que las predicciones de la colección de árboles en bolsas pueden estar altamente correlacionadas si hay un predictor muy fuerte en el conjunto de datos.

En este caso, la mayoría o todos los árboles empaquetados usarán este predictor para la primera división, lo que dará como resultado árboles que son similares entre sí y tienen predicciones altamente correlacionadas.

Una forma de solucionar este problema es utilizar bosques aleatorios, que utilizan un método similar al ensacado, pero que pueden producir árboles descorrelacionados, lo que a menudo conduce a tasas de error de prueba más bajas.

Puede leer una introducción simple a los bosques aleatorios aquí .

Recursos adicionales

Introducción a los árboles de clasificación y regresión
Cómo realizar el ensacado en R (paso a paso)

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, en las estadísticas, nos interesa recopilar datos para poder responder alguna pregunta de investigación. Por ejemplo, es posible…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!