Agrupamiento difuso: definición

Actualizado por ultima vez el 28 de febrero de 2022, por Luis Benites.

¿Qué es el agrupamiento difuso?

El agrupamiento difuso es un método de agrupamiento donde los puntos de datos pueden pertenecer a más de un grupo («clúster») . El agrupamiento divide los puntos de datos en grupos según la similitud entre los elementos y busca patrones o similitudes entre los elementos de un conjunto; Los elementos de los grupos deben ser lo más similares posible entre sí y lo más diferentes posible de los elementos de otros grupos. Computacionalmente, es mucho más fácil crear límites borrosos que conformarse con un grupo para un punto.

En el agrupamiento «duro», cada punto de datos solo puede estar en un clúster. En el agrupamiento «suave» o «difuso», los puntos de datos pueden pertenecer a más de un grupo. El agrupamiento difuso utiliza soluciones de mínimos cuadrados para encontrar la ubicación óptima para cualquier punto de datos. Esta ubicación óptima puede estar en un espacio de probabilidad entre dos (o más) grupos.

El agrupamiento borroso es muy similar a los orbitales atómicos y al comportamiento de los electrones: un electrón no está en una sola ubicación, sino que solo tiene la probabilidad de estar en una capa orbital particular. Si piensa en las capas orbitales como «grupos» y en los electrones como «puntos de datos» (donde a cada punto de datos se le asigna una probabilidad de estar ubicado en un grupo en particular), entonces tiene una comprensión básica de los fundamentos del agrupamiento difuso.

Algoritmos

Los algoritmos de agrupamiento borroso se dividen en dos áreas: agrupamiento borroso clásico y agrupamiento borroso basado en formas.

Algoritmos clásicos de agrupamiento difuso.

  1. Algoritmo Fuzzy C-Means (FCM) . Este algoritmo ampliamente utilizado es prácticamente idéntico al algoritmo K-Means . En teoría, un punto de datos puede pertenecer a todos los grupos, con una función de pertenencia (también llamada grado de pertenencia) entre 0 y 1, donde: 0 es donde el punto de datos está en el punto más alejado posible del centro de un grupo y 1 es donde los datos punto está más cerca del centro. Los subtipos incluyen C-Means posibilistas (PCM), C-Means posibilistas borrosos (FPCM) y C-Means borrosos posibilistas (PFCM).
  2. Algoritmo Gustafson-Kessel (GK) : asocia un punto de datos con un clúster y una matriz . Mientras que C-means asume que los grupos son esféricos, GK tiene grupos de forma elíptica.
  3. Algoritmo Gath-Geva (también llamado descomposición de mezcla gaussiana): similar a FCM, pero los grupos pueden tener cualquier forma.

Algoritmos de agrupamiento difuso basados ​​en formas.

  1. Forma circular: los algoritmos de forma circular (CS) son los que restringen el punto de datos a una forma circular. Cuando este algoritmo se incorpora a Fuzzy C-Means, se denomina CS-FCM.
  2. Forma elíptica : un algoritmo que restringe puntos a formas elípticas. Se utiliza en el algoritmo GK.
  3. Forma genérica : la mayoría de los objetos de la vida real no son ni circulares ni elípticos; el algoritmo genérico permite grupos de cualquier forma.

Referencias:
Suganya, R. & Shanthi, R. Fuzzy C-Means Algorithm — A Review. International Journal of Scientific and Research Publications, volumen 2, número 11, noviembre de 2012 1

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Gráfico de distribución alfa PDF . La distribución alfa se ha utilizado para problemas de desgaste de herramientas y se…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!