Índice Jaccard / Coeficiente de similitud

Actualizado por ultima vez el 21 de diciembre de 2021, por Luis Benites.

¿Qué es el Índice Jaccard?

El índice de similitud de Jaccard (a veces denominado coeficiente de similitud de Jaccard ) compara los miembros de dos conjuntos para ver qué miembros se comparten y cuáles son distintos. Es una medida de similitud para los dos conjuntos de datos, con un rango de 0% a 100%. Cuanto mayor sea el porcentaje, más similares serán las dos poblaciones. Aunque es fácil de interpretar, es extremadamente sensible a muestras pequeñas y puede dar resultados erróneos, especialmente con muestras muy pequeñas o conjuntos de datos con observaciones faltantes.

Cómo calcular el índice de Jaccard

La fórmula para encontrar el índice es:

Índice Jaccard = (el número en ambos conjuntos) / (el número en cualquiera de los conjuntos) * 100

La misma fórmula en notación es:
J(X,Y) = |X∩Y| / |X∪Y|

En pasos, eso es:

  1. Cuente el número de miembros que se comparten entre ambos conjuntos.
  2. Cuente el número total de miembros en ambos conjuntos (compartidos y no compartidos).
  3. Divida el número de miembros compartidos (1) por el número total de miembros (2).
  4. Multiplica el número que encontraste en (3) por 100.

Este porcentaje te dice qué tan similares son los dos conjuntos.

  • Dos conjuntos que comparten todos los miembros serían 100% similares. cuanto más cerca del 100%, más similitud (por ejemplo, el 90% es más similar que el 89%).
  • Si no comparten miembros, son 0% similares.
  • El punto medio, 50%, significa que los dos conjuntos comparten la mitad de los miembros.

Ejemplos

Un ejemplo simple usando la notación de conjuntos: ¿Qué tan similares son estos dos conjuntos?

  • A = {0,1,2,5,6}
  • B = {0,2,3,4,5,7,9}

Solución : J(A,B) = |A∩B| / |A∪B| = |{0,2,5}| / |{0,1,2,3,4,5,6,7,9}| = 3/9 = 0,33.

Notas :

  1. La cardinalidad de A, denotada |A| es un conteo del número de elementos en el conjunto A.
  2. Aunque es habitual dejar la respuesta en forma decimal si usa la notación de conjunto, puede multiplicar por 100 para obtener una similitud del 33,33 %.

Problema de ejemplo sin notaciones establecidas: Los investigadores están estudiando la biodiversidad en dos selvas tropicales. Catalogan especímenes de seis especies diferentes, A,B,C,D,E,F. Dos especies son compartidas entre las dos selvas tropicales. ¿Qué es el coeficiente de Jaccard?
Solución :

  1. Dos especies (3 y 5) se comparten entre ambas poblaciones.
  2. Hay 6 especies únicas en las dos poblaciones.
  3. 2/6 = 1/3
  4. 1/3 * 100 = 33,33%.

Las selvas tropicales A y B son 33% similares.

Distancia Jaccard

Una estadística similar, la distancia de Jaccard, es una medida de cuán diferentes son dos conjuntos. Es el complemento del índice de Jaccard y se puede encontrar restando el índice de Jaccard del 100%. Para el ejemplo anterior, la distancia Jaccard es 1 – 33,33 % = 66,67 %.

En notación de conjunto, reste de 1 para la Distancia Jaccard:
D(X,Y) = 1 – J(X,Y)
Sin embargo, tenga en cuenta que los decimales generalmente se convierten en porcentajes, ya que son más fáciles de interpretar.

Qué hacer con los valores perdidos

A veces, los conjuntos de datos tendrán observaciones faltantes, lo que dificulta el cálculo de la similitud. Tiene varias opciones para completar estos puntos de datos que faltan:

Referencias

Agresti A. (1990) Análisis de datos categóricos. John Wiley and Sons, Nueva York.
Esquivar, Y. (2008). La Enciclopedia Concisa de Estadística . Saltador.
Vogt, WP (2005). Diccionario de estadística y metodología: una guía no técnica para las ciencias sociales . SABIO.
Wheelan, C. (2014). Estadísticas desnudas . WW Norton y compañía

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Puede que le resulte útil leer este artículo primero: ¿Qué es el coeficiente de correlación de Pearson? ¿Qué es una…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!