Método de Ward (método de la varianza mínima)

Actualizado por ultima vez el 16 de diciembre de 2021, por Luis Benites.

¿Qué es el Método de Ward?

El método de Ward (también conocido como método de varianza mínima o método de agrupamiento de varianza mínima de Ward ) es una alternativa al agrupamiento de enlace único . Popular en campos como la lingüística, gusta porque generalmente crea grupos compactos de tamaño uniforme (Szmrecsanyi, 2012).

Como la mayoría de los otros métodos de agrupamiento, el método de Ward es computacionalmente intensivo. Sin embargo, Ward’s tiene significativamente menos cálculos que otros métodos. El inconveniente es que esto generalmente da como resultado clústeres menos que óptimos. Dicho esto, los clústeres resultantes suelen ser lo suficientemente buenos para la mayoría de los propósitos.

Índice de suma de cuadrados, E

Al igual que otros métodos de agrupamiento, el método de Ward comienza con n grupos, cada uno de los cuales contiene un solo objeto. Estos n grupos se combinan para formar un grupo que contiene todos los objetos. En cada paso, el proceso crea un nuevo conglomerado que minimiza la varianza , medida por un índice llamado E (también llamado índice de suma de cuadrados ).

En cada paso, se hacen los siguientes cálculos para encontrar E :

  1. Encuentre la media de cada conglomerado.
  2. Calcule la distancia entre cada objeto en un grupo particular y la media de ese grupo .
  3. Cuadre las diferencias del Paso 2.
  4. Suma (suma) los valores cuadrados del Paso 3.
  5. Suma todas las sumas de cuadrados del Paso 4.

Para seleccionar un nuevo conglomerado en cada paso, se deben considerar todas las combinaciones posibles de conglomerados. Todo este engorroso procedimiento hace que sea prácticamente imposible realizarlo a mano, lo que convierte a una computadora en una necesidad para la mayoría de los conjuntos de datos que contienen más de un puñado de puntos de datos. Dicho esto, Cluster Analysis for Researchers de Charles Romesburg incluye un ejemplo muy completo y fácil de seguir para calcular E a mano en un pequeño conjunto de datos (a partir de la página 130).

El método de Ward está disponible para ejecutarse en muchos programas populares, incluidos SPSS, SYSTAT y S-PLUS.

En SPSS:

  1. Haga clic en «Analizar> clasificar> Agrupación jerárquica».
  2. Haga clic en «Método»
    método de Ward
  3. Elija «Método de Ward» en el menú desplegable «Método de grupo».

Referencias

Romesburg, C. (2004. Análisis de conglomerados para investigadores Lulu.com.
Szmrecsanyi, B. (2012). Variación gramatical en dialectos del inglés británico: un estudio en dialectometría basada en corpus . Cambridge University Press.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es el sesgo de membresía? El sesgo de pertenencia es cuando un grupo de personas tiende a tener una…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!