Contenido de este artículo
- 0
- 0
- 0
- 0
El índice de similitud de Jaccard es una medida de la similitud entre dos conjuntos de datos.
Desarrollado por Paul Jaccard , el índice varía de 0 a 1. Cuanto más cerca de 1, más similares son los dos conjuntos de datos.
El índice de similitud de Jaccard se calcula como:
Similitud Jaccard = (número de observaciones en ambos conjuntos) / (número en cualquiera de los conjuntos)
O, escrito en forma de notación:
J (A, B) = | A∩B | / | A∪B |
Si dos conjuntos de datos comparten exactamente los mismos miembros, su índice de similitud Jaccard será 1. Por el contrario, si no tienen miembros en común, su similitud será 0.
Los siguientes ejemplos muestran cómo calcular el índice de similitud de Jaccard para algunos conjuntos de datos diferentes.
Ejemplo 1: similitud de Jaccard
Supongamos que tenemos los siguientes dos conjuntos de datos:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Para calcular la similitud de Jaccard entre ellos, primero encontramos el número total de observaciones en ambos conjuntos, luego dividimos por el número total de observaciones en cualquiera de los conjuntos:
- Número de observaciones en ambos: {0, 2, 5, 9} = 4
- Número de observaciones en: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- Similitud Jaccard: 4/10 = 0.4
El índice de similitud de Jaccard resulta ser 0,4 .
Ejemplo 2: Continuación de la similitud de Jaccard
Supongamos que tenemos los siguientes dos conjuntos de datos:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Para calcular la similitud de Jaccard entre ellos, primero encontramos el número total de observaciones en ambos conjuntos, luego dividimos por el número total de observaciones en cualquiera de los conjuntos:
- Número de observaciones en ambos: {} = 0
- Número de observaciones en: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- Similitud Jaccard: 0/11 = 0
El índice de similitud de Jaccard resulta ser 0 . Esto indica que los dos conjuntos de datos no comparten miembros comunes.
Ejemplo 3: similitud de Jaccard para personajes
Tenga en cuenta que también podemos usar el índice de similitud de Jaccard para conjuntos de datos que contienen caracteres en lugar de números.
Por ejemplo, supongamos que tenemos los siguientes dos conjuntos de datos:
E = ['gato', 'perro', 'hipopótamo', 'mono'] F = ['mono', 'rinoceronte', 'avestruz', 'salmón']
Para calcular la similitud de Jaccard entre ellos, primero encontramos el número total de observaciones en ambos conjuntos, luego dividimos por el número total de observaciones en cualquiera de los conjuntos:
- Número de observaciones en ambos: {‘mono’} = 1
- Número de observaciones en: {‘gato’, ‘perro’, hipopótamo ‘,’ mono ‘,’ rinoceronte ‘,’ avestruz ‘,’ salmón ‘} = 7
- Similitud Jaccard: 1/7 = 0.142857
El índice de similitud de Jaccard resulta ser 0,142857 . Dado que este número es bastante bajo, indica que los dos conjuntos son bastante diferentes.
La distancia de Jaccard
La distancia de Jaccard mide la diferencia entre dos conjuntos de datos y se calcula como:
Distancia Jaccard = 1 – Similitud Jaccard
Esta medida nos da una idea de la diferencia entre dos conjuntos de datos o la diferencia entre ellos.
Por ejemplo, si dos conjuntos de datos tienen una similitud de Jaccard del 80%, entonces tendrían una distancia de Jaccard de 1 – 0.8 = 0.2 o 20%.
Recursos adicionales
Cómo calcular la similitud de Jaccard en R
Cómo calcular la similitud de Jaccard en Python
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: