Discretización: definición simple, tipos, métodos

Actualizado por ultima vez el 22 de abril de 2022, por Luis Benites.

La discretización es tomar funciones o variables continuas y transformarlas en funciones o variables discretas , respectivamente.

Es un primer paso en muchos tipos de análisis, porque las funciones y los datos discretos son mucho más fáciles de analizar que sus contrapartes continuas.

La teoría detrás de la discretización

Podemos visualizar el proceso de discretización como:

  1. Analizando los valores continuos que toma una variable,
  2. Dividiéndolos en segmentos,
  3. Agrupándolos en bins . Primero, decida cómo seleccionar el número de contenedores; y segundo, decide qué tan anchas las harás.

Es importante darse cuenta de que en cualquier discretización real, se introduce una cierta cantidad de error. El objetivo principal siempre es minimizar el error tanto como sea posible al elegir el número de contenedores y su ancho. Podemos hacer esto aumentando el número de intervalos en los que estamos dividiendo nuestra función o variable; al igual que una foto pixelada formada por pequeños cuadrados se volverá más real a medida que reducimos el tamaño de los cuadrados. Pero cuantos más intervalos usamos, más difícil de manejar se vuelve nuestra discretización, por lo que terminamos buscando la línea fina: ¿cuál es el número mínimo de intervalos en los que podemos dividir esta función y aun así obtener resultados razonablemente precisos?

Tipos de Discretización

Cuando se discretiza una variable a la vez, se denomina discretización de variable estática . Este es el tipo más común de discretización.

La discretización de variables dinámicas implica discretizar todas las variables a la vez o simultáneamente. En la discretización de variables dinámicas, debe realizar un seguimiento y tratar cualquier interdependencia (interacción) entre las variables.

Los algoritmos de discretización no supervisados ​​son los algoritmos más simples de usar, porque el único parámetro que especificaría es el número de intervalos a usar; o bien, cuántos valores se deben incluir en cada intervalo.

En los algoritmos de discretización supervisada , no especifica el número de contenedores, y la discretización se ejecuta en función de los cálculos basados ​​en la entropía y la pureza.

Métodos de Discretización

El modelo de principio de longitud mínima de descripción (MDL) para la discretización es quizás el más utilizado; utiliza “repartición dinámica”, utilizando información mutua para, recursivamente , definir los mejores intervalos o contenedores. Otros mecanismos incluyen:

  • Ameva : este algoritmo utiliza estadísticas de chi-cuadrado para maximizar un coeficiente de contingencia , generando el número mínimo de intervalos discretos.
  • CACC : el algoritmo de coeficiente de contingencia de atributo de clase es otro método de discretización descendente supervisado que utiliza un coeficiente de contingencia. Genera contenedores con un ‘ método codicioso ‘.
  • CAIM : el método de maximización de la interdependencia de atributos de clase maximiza la interdependencia mutua de atributos de clase. El objetivo es generar el menor número de contenedores para un solo atributo continuo.

Mdlp , discetize4crf y Discretize son herramientas de software que implementan el algoritmo MDL para discretizar.

Referencias

Dougherty, et. al (1995). Discr supervisado y no supervisado. de características continuas. Actas de la Duodécima Conferencia Internacional sobre Aprendizaje Automático, Tahoe City, California, del 9 al 12 de julio de 1995. Obtenido el 6 de enero de 2018 de: https://doi.org/10.1016/B978-1-55860-377-6.50032-3
Juhola, M. (2016) Curso de Estudios Avanzados de Minería de Datos. Recuperado el 6 de enero de 2018 de http://www.uta.fi/sis/tie/tl/index/Datamining6.pdf 2 de enero de 2018

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es un estudio de casos y controles? Un estudio de casos y controles es un estudio retrospectivo que mira…
statologos comunidad-2

You have Successfully Subscribed!