Contenido de este artículo
- 0
- 0
- 0
- 0
Actualizado el 22 de abril de 2022, por Luis Benites.
La discretización es tomar funciones o variables continuas y transformarlas en funciones o variables discretas , respectivamente.
Es un primer paso en muchos tipos de análisis, porque las funciones y los datos discretos son mucho más fáciles de analizar que sus contrapartes continuas.
La teoría detrás de la discretización
Podemos visualizar el proceso de discretización como:
- Analizando los valores continuos que toma una variable,
- Dividiéndolos en segmentos,
- Agrupándolos en bins . Primero, decida cómo seleccionar el número de contenedores; y segundo, decide qué tan anchas las harás.
Es importante darse cuenta de que en cualquier discretización real, se introduce una cierta cantidad de error. El objetivo principal siempre es minimizar el error tanto como sea posible al elegir el número de contenedores y su ancho. Podemos hacer esto aumentando el número de intervalos en los que estamos dividiendo nuestra función o variable; al igual que una foto pixelada formada por pequeños cuadrados se volverá más real a medida que reducimos el tamaño de los cuadrados. Pero cuantos más intervalos usamos, más difícil de manejar se vuelve nuestra discretización, por lo que terminamos buscando la línea fina: ¿cuál es el número mínimo de intervalos en los que podemos dividir esta función y aun así obtener resultados razonablemente precisos?
Tipos de Discretización
Cuando se discretiza una variable a la vez, se denomina discretización de variable estática . Este es el tipo más común de discretización.
La discretización de variables dinámicas implica discretizar todas las variables a la vez o simultáneamente. En la discretización de variables dinámicas, debe realizar un seguimiento y tratar cualquier interdependencia (interacción) entre las variables.
Los algoritmos de discretización no supervisados son los algoritmos más simples de usar, porque el único parámetro que especificaría es el número de intervalos a usar; o bien, cuántos valores se deben incluir en cada intervalo.
En los algoritmos de discretización supervisada , no especifica el número de contenedores, y la discretización se ejecuta en función de los cálculos basados en la entropía y la pureza.
Métodos de Discretización
El modelo de principio de longitud mínima de descripción (MDL) para la discretización es quizás el más utilizado; utiliza “repartición dinámica”, utilizando información mutua para, recursivamente , definir los mejores intervalos o contenedores. Otros mecanismos incluyen:
- Ameva : este algoritmo utiliza estadísticas de chi-cuadrado para maximizar un coeficiente de contingencia , generando el número mínimo de intervalos discretos.
- CACC : el algoritmo de coeficiente de contingencia de atributo de clase es otro método de discretización descendente supervisado que utiliza un coeficiente de contingencia. Genera contenedores con un ‘ método codicioso ‘.
- CAIM : el método de maximización de la interdependencia de atributos de clase maximiza la interdependencia mutua de atributos de clase. El objetivo es generar el menor número de contenedores para un solo atributo continuo.
Mdlp , discetize4crf y Discretize son herramientas de software que implementan el algoritmo MDL para discretizar.
Referencias
Dougherty, et. al (1995). Discr supervisado y no supervisado. de características continuas. Actas de la Duodécima Conferencia Internacional sobre Aprendizaje Automático, Tahoe City, California, del 9 al 12 de julio de 1995. Obtenido el 6 de enero de 2018 de: https://doi.org/10.1016/B978-1-55860-377-6.50032-3
Juhola, M. (2016) Curso de Estudios Avanzados de Minería de Datos. Recuperado el 6 de enero de 2018 de http://www.uta.fi/sis/tie/tl/index/Datamining6.pdf 2 de enero de 2018
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: