Estadísticas de poda

Actualizado por ultima vez el 13 de diciembre de 2021, por Luis Benites.

¿Qué es la poda?

estadísticas de poda

Un árbol de decisión simple.

La poda elimina partes de un modelo que no son predictivas. El proceso descarta el ruido estadístico , reduciendo el tamaño del modelo y normalmente mejorando su precisión .

La poda suele ser necesaria porque el número de subárboles potenciales crece en función del tamaño del árbol. Los algoritmos de poda de árboles eliminarán repetidamente las ramas de los árboles de acuerdo con algunos criterios que especifique. Por ejemplo, puede seleccionar un algoritmo que poda seleccionando ramas con la desviación mínima (propagación).

Métodos estadísticos de poda

Hay muchos métodos diferentes disponibles para podar un modelo, incluido el uso de un conjunto de validación o el uso de una longitud de descripción mínima como herramienta para decidir qué árboles descartar.

Si tiene un conjunto de validación separado , puede predecir en ese conjunto y calcular la desviación para el conjunto de árboles podados. Ese conjunto probablemente tendrá un mínimo dentro de los árboles bajo consideración; Simplemente elija el árbol más pequeño, el árbol con la desviación más cercana al mínimo (Venables y Ripley, 2003).

La longitud mínima de descripción es una forma de elegir entre teorías alternativas (o, en este caso, árboles alternativos). El principio básicamente establece que el mejor árbol es el que minimiza la longitud (en bits) de la «descripción» (es decir, lo que sea que describa su árbol), más la longitud de los datos cuando se codifica con la ayuda de la teoría (Dowe et al, 1996).

Estadísticas de Poda: Referencias

Dowe, D. et al. (1996). Información, Estadística e Inducción a la Ciencia – Actas de la Conferencia, Isis ’96. Científico Mundial.
Franco, E. (2000). Poda de árboles de decisión y listas. Recuperado el 20 de febrero de 2020 de: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.148.310&rep=rep1&type=pdf
Venables, W. & Ripley, B. (2003). Estadística Aplicada Moderna con S . Springer Science & Business Media.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Antes de leer esto, puede resultarle útil revisar: ¿Qué es una distribución Normal? ¿Qué es una puntuación Z? Mire el…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!