Agrupación jerárquica/dendrograma: definición simple, ejemplos

Actualizado por ultima vez el 16 de noviembre de 2021, por Luis Benites.

¿Qué es el agrupamiento jerárquico?

La agrupación jerárquica es donde construye un árbol de agrupación (un dendrograma) para representar datos, donde cada grupo (o «nodo») se vincula a dos o más grupos sucesores. Los grupos están anidados y organizados como un árbol, lo que idealmente termina como un esquema de clasificación significativo.

Cada nodo del árbol de clústeres contiene un grupo de datos similares; Los nodos se agrupan en el gráfico junto a otros nodos similares. Los conglomerados de un nivel se unen con los del siguiente nivel, utilizando un grado de similitud; El proceso continúa hasta que todos los nodos están en el árbol, lo que brinda una instantánea visual de los datos contenidos en todo el conjunto. El número total de clústeres no está predeterminado antes de iniciar la creación del árbol.

¿Qué es un Dendograma?

agrupación jerárquica

Un dendograma (derecha) que representa grupos anidados (izquierda).

Un dendrograma es un tipo de diagrama de árbol que muestra un agrupamiento jerárquico: relaciones entre conjuntos de datos similares. Se utilizan con frecuencia en biología para mostrar la agrupación entre genes o muestras, pero pueden representar cualquier tipo de datos agrupados.

Partes de un dendograma

dendograma Un dendograma puede ser un gráfico de columnas (como en la imagen de abajo) o un gráfico de filas. Algunos dendogramas son circulares o tienen una forma fluida, pero el software generalmente producirá un gráfico de filas o columnas. No importa cuál sea la forma, el gráfico básico se compone de las mismas partes:

  • El clado es la rama. Generalmente etiquetado con letras griegas de izquierda a derecha (por ejemplo, α β, δ…).
  • Cada clado tiene una o más hojas . Las hojas en la imagen de arriba son:
    • Simple (simplicifolius): F
    • Doble (bífolio): DE
    • Triple (trifolio): ABC

Un clado teóricamente puede tener una cantidad infinita de hojas. Sin embargo, cuantas más hojas tenga, más difícil será leer el gráfico a simple vista.

Cómo leer un dendograma

Los clados se ordenan de acuerdo a cuán similares (o diferentes) son. Los clados que están cerca de la misma altura son similares entre sí; los clados con diferentes alturas son diferentes: cuanto mayor es la diferencia de altura, mayor es la diferencia (puede medir la similitud de muchas maneras diferentes; una de las medidas más populares es el coeficiente de correlación de Pearson ).
dendograma2

  • Las hojas A, B y C son más parecidas entre sí que con las hojas D, E o F.
  • Las hojas D y E son más parecidas entre sí que con las hojas A, B, C o F.
  • La hoja F es sustancialmente diferente de todas las demás hojas.

Tenga en cuenta que en el gráfico anterior, la misma clave, β une las hojas A, B, C, D y E. Eso significa que los dos grupos (A, B, C y D, E) son más similares entre sí de lo que son. son para F.

Algoritmos de agrupamiento jerárquico

Todos los algoritmos de agrupamiento jerárquico son monótonos : aumentan o disminuyen. Los algoritmos pueden ser de abajo hacia arriba o de arriba hacia abajo :

1. De abajo hacia arriba ( Clustering aglomerativo jerárquico , HAC):

  1. Trate cada documento como un solo grupo al comienzo del algoritmo.
  2. Fusionó (aglomeró) dos elementos a la vez en un nuevo grupo. Cómo se fusionan los pares implica calcular una diferencia entre cada par fusionado y las otras muestras. Hay muchas maneras de hacer esto. Opciones populares:
    1. Enlace completo : similitud del par más lejano. Un inconveniente es que los valores atípicos pueden provocar la fusión de grupos cercanos más tarde de lo óptimo.
    2. Enlace simple : similitud del par más cercano. Esto puede causar la fusión prematura de grupos con pares cercanos, incluso si esos grupos son bastante diferentes en general.
    3. Promedio de grupo : similitud entre grupos.
    4. Similitud de centroide: cada iteración fusiona los grupos con el punto central más similar.
  3. El proceso de emparejamiento continúa hasta que todos los elementos se fusionan en un solo grupo.

Los HAC representan la gran mayoría de los algoritmos de agrupamiento jerárquico. Sin embargo, una desventaja es que tienen requisitos computacionales y de almacenamiento significativos , especialmente para big data. Estos algoritmos complejos tienen aproximadamente el cuádruple del tamaño del algoritmo K-means . Además, la fusión no se puede revertir, lo que puede crear un problema si tiene datos ruidosos y de gran dimensión.

2. De arriba hacia abajo (agrupación divisiva):

  1. Los datos comienzan como un clúster combinado.
  2. El grupo se divide en dos partes distintas, según algún grado de similitud.
  3. Los grupos se dividen en dos una y otra vez hasta que solo contienen un único punto de datos.

El agrupamiento divisivo se usa muy raramente.

Desventajas

El agrupamiento jerárquico puede conducir fácilmente a dendogramas que son simplemente erróneos. A menos que conozca sus datos de adentro hacia afuera (bastante imposible para grandes conjuntos de datos), esto es en gran medida inevitable. Una de las principales razones de esto es que el algoritmo de agrupamiento funcionará incluso con los datos más inadecuados. Otra razón es que la decisión que tome para crear grupos (Paso 2 anterior) puede conducir a dendrogramas significativamente diferentes. La elección puede ser difícil de hacer por adelantado, y es posible que no pueda saber cuál de los cuatro resultados finales es el más adecuado.

Ejemplo de la vida real

El hecho de que el algoritmo de agrupamiento jerárquico funcione incluso si se presentan con datos aparentemente no relacionados puede ser tanto positivo como negativo. Por ejemplo, un equipo de investigación de 2003 utilizó el agrupamiento jerárquico para “apoyar la idea de que muchos… subtipos de tumores de mama representan entidades de enfermedades biológicamente distintas”. Para el ojo humano, los datos originales parecían ruido, pero el algoritmo pudo encontrar patrones.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Los efectos marginales nos dicen cómo cambia una variable dependiente (resultado) cuando cambia una variable independiente específica (variable explicativa). Se…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!