Agrupamiento de enlace completo

Actualizado por ultima vez el 13 de septiembre de 2021, por Luis Benites.

El agrupamiento de vinculación completo ( vecino más lejano ) es una forma de calcular la distancia entre los agrupamientos en el agrupamiento jerárquico. El método se basa en la distancia máxima; la similitud de dos grupos cualesquiera es la similitud de su par más diferente .

Agrupación de enlaces completa frente a enlace único

El agrupamiento de enlaces completos es la distancia entre los elementos más distantes en cada grupo. En comparación, el enlace simple mide la similitud del par más similar . El que use (un enlace único o un enlace completo) depende de sus datos y de lo que quiera lograr con la agrupación. El enlace simple puede dar como resultado grupos largos y fibrosos y «encadenamientos», mientras que el enlace completo tiende a formar grupos muy compactos [1].
agrupamiento de enlaces completo

Una desventaja del agrupamiento de enlaces completo es que se comporta mal cuando hay valores atípicos [2]. Esto no es un problema con un solo enlace.

Ejemplo de agrupamiento de vínculos completo

La siguiente matriz de distancias muestra las distancias por pares entre los elementos A, B, C y D:

Paso 1: Identifique el par con la distancia más corta. Para este ejemplo, eso es A, B.

matriz de distancia

En esta matriz de distancia, la distancia más corta (resaltada en amarillo) es entre los pares A y B.

Paso 2: Haz una nueva matriz con el par combinado (del Paso 1). En esta etapa, sabemos que la diagonal será todo ceros (porque la distancia entre cualquier punto y sí mismo es cero): la matriz se refleja a lo largo de la diagonal, por lo que solo necesitamos encontrar valores para la mitad inferior (debajo de la fila de ceros ). ).
ejemplo de agrupamiento de enlaces completo

Paso 3: complete la primera entrada en blanco encontrando la distancia máxima. La primera entrada en blanco está en la intersección de C y A,B: Mirando en la matriz del Paso 1, la distancia C a A es 40 y C a B es 20: El máximo de estas dos distancias (40 y 20) es 40 , por lo que se coloca en la celda:



Paso 4: Rellene las casillas restantes, encontrando la distancia máxima entre pares, repitiendo la técnica del Paso 3:

Paso 5: repita los pasos 2 a 4 en la nueva matriz que creó en el paso 4 anterior. En otras palabras, su matriz del Paso 4 se convierte en su nueva matriz del Paso 1. Si encuentra las distancias máximas para estos nuevos pares, debería terminar con:

Continúe hasta que todos los artículos hayan sido agrupados. Para este ejemplo, debe seguir los pasos una vez más para obtener:

Referencias

[1] Adams, R. Agrupación jerárquica. Artículo publicado en Princeton.edu. Recuperado el 22 de noviembre de 2021 de: https://www.cs.princeton.edu/courses/archive/fall18/cos324/files/hierarchical-clustering.pdf
[2] Milligan, GW (1980). Un examen del efecto de seis tipos de perturbación de error en quince algoritmos de agrupamiento . Psicometría, 45, 325–342

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Cuál es el mayor error posible? El mayor error posible (GPE, por sus siglas en inglés) es la cantidad más…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!