Contenido de este artículo
- 0
- 0
- 0
- 0
Actualizado el 21 de diciembre de 2021, por Luis Benites.
¿Qué es el Índice Jaccard?
El índice de similitud de Jaccard (a veces denominado coeficiente de similitud de Jaccard ) compara los miembros de dos conjuntos para ver qué miembros se comparten y cuáles son distintos. Es una medida de similitud para los dos conjuntos de datos, con un rango de 0% a 100%. Cuanto mayor sea el porcentaje, más similares serán las dos poblaciones. Aunque es fácil de interpretar, es extremadamente sensible a muestras pequeñas y puede dar resultados erróneos, especialmente con muestras muy pequeñas o conjuntos de datos con observaciones faltantes.
Cómo calcular el índice de Jaccard
La fórmula para encontrar el índice es:
La misma fórmula en notación es:
En pasos, eso es:
- Cuente el número de miembros que se comparten entre ambos conjuntos.
- Cuente el número total de miembros en ambos conjuntos (compartidos y no compartidos).
- Divida el número de miembros compartidos (1) por el número total de miembros (2).
- Multiplica el número que encontraste en (3) por 100.
Este porcentaje te dice qué tan similares son los dos conjuntos.
- Dos conjuntos que comparten todos los miembros serían 100% similares. cuanto más cerca del 100%, más similitud (por ejemplo, el 90% es más similar que el 89%).
- Si no comparten miembros, son 0% similares.
- El punto medio, 50%, significa que los dos conjuntos comparten la mitad de los miembros.
Ejemplos
Un ejemplo simple usando la notación de conjuntos: ¿Qué tan similares son estos dos conjuntos?
- A = {0,1,2,5,6}
- B = {0,2,3,4,5,7,9}
Solución : J(A,B) = |A∩B| / |A∪B| = |{0,2,5}| / |{0,1,2,3,4,5,6,7,9}| = 3/9 = 0,33.
Notas :
- La cardinalidad de A, denotada |A| es un conteo del número de elementos en el conjunto A.
- Aunque es habitual dejar la respuesta en forma decimal si usa la notación de conjunto, puede multiplicar por 100 para obtener una similitud del 33,33 %.
Problema de ejemplo sin notaciones establecidas: Los investigadores están estudiando la biodiversidad en dos selvas tropicales. Catalogan especímenes de seis especies diferentes, A,B,C,D,E,F. Dos especies son compartidas entre las dos selvas tropicales. ¿Qué es el coeficiente de Jaccard?
Solución :
- Dos especies (3 y 5) se comparten entre ambas poblaciones.
- Hay 6 especies únicas en las dos poblaciones.
- 2/6 = 1/3
- 1/3 * 100 = 33,33%.
Las selvas tropicales A y B son 33% similares.
Distancia Jaccard
Una estadística similar, la distancia de Jaccard, es una medida de cuán diferentes son dos conjuntos. Es el complemento del índice de Jaccard y se puede encontrar restando el índice de Jaccard del 100%. Para el ejemplo anterior, la distancia Jaccard es 1 – 33,33 % = 66,67 %.
En notación de conjunto, reste de 1 para la Distancia Jaccard:
D(X,Y) = 1 – J(X,Y)
Sin embargo, tenga en cuenta que los decimales generalmente se convierten en porcentajes, ya que son más fáciles de interpretar.
Qué hacer con los valores perdidos
A veces, los conjuntos de datos tendrán observaciones faltantes, lo que dificulta el cálculo de la similitud. Tiene varias opciones para completar estos puntos de datos que faltan:
- Rellene los espacios en blanco con ceros,
- Reemplace los valores que faltan con la mediana para el conjunto,
- Utilice un algoritmo EM o vecino más cercano .
Referencias
Agresti A. (1990) Análisis de datos categóricos. John Wiley and Sons, Nueva York.
Esquivar, Y. (2008). La Enciclopedia Concisa de Estadística . Saltador.
Vogt, WP (2005). Diccionario de estadística y metodología: una guía no técnica para las ciencias sociales . SABIO.
Wheelan, C. (2014). Estadísticas desnudas . WW Norton y compañía
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: