Una explicación simple del índice de similitud de Jaccard

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

El índice de similitud de Jaccard es una medida de la similitud entre dos conjuntos de datos.

Desarrollado por Paul Jaccard , el índice varía de 0 a 1. Cuanto más cerca de 1, más similares son los dos conjuntos de datos.

El índice de similitud de Jaccard se calcula como:

Similitud Jaccard = (número de observaciones en ambos conjuntos) / (número en cualquiera de los conjuntos)

O, escrito en forma de notación:

J (A, B) = | A∩B | / | A∪B |

Si dos conjuntos de datos comparten exactamente los mismos miembros, su índice de similitud Jaccard será 1. Por el contrario, si no tienen miembros en común, su similitud será 0.

Los siguientes ejemplos muestran cómo calcular el índice de similitud de Jaccard para algunos conjuntos de datos diferentes.

Ejemplo 1: similitud de Jaccard

Supongamos que tenemos los siguientes dos conjuntos de datos:

A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Para calcular la similitud de Jaccard entre ellos, primero encontramos el número total de observaciones en ambos conjuntos, luego dividimos por el número total de observaciones en cualquiera de los conjuntos:

  • Número de observaciones en ambos: {0, 2, 5, 9} = 4
  • Número de observaciones en: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • Similitud Jaccard: 4/10 = 0.4

El índice de similitud de Jaccard resulta ser 0,4 .

Ejemplo 2: Continuación de la similitud de Jaccard

Supongamos que tenemos los siguientes dos conjuntos de datos:

C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Para calcular la similitud de Jaccard entre ellos, primero encontramos el número total de observaciones en ambos conjuntos, luego dividimos por el número total de observaciones en cualquiera de los conjuntos:

  • Número de observaciones en ambos: {} = 0
  • Número de observaciones en: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • Similitud Jaccard: 0/11 = 0

El índice de similitud de Jaccard resulta ser 0 . Esto indica que los dos conjuntos de datos no comparten miembros comunes.

Ejemplo 3: similitud de Jaccard para personajes

Tenga en cuenta que también podemos usar el índice de similitud de Jaccard para conjuntos de datos que contienen caracteres en lugar de números.

Por ejemplo, supongamos que tenemos los siguientes dos conjuntos de datos:

E = ['gato', 'perro', 'hipopótamo', 'mono']
F = ['mono', 'rinoceronte', 'avestruz', 'salmón']

Para calcular la similitud de Jaccard entre ellos, primero encontramos el número total de observaciones en ambos conjuntos, luego dividimos por el número total de observaciones en cualquiera de los conjuntos:

  • Número de observaciones en ambos: {‘mono’} = 1
  • Número de observaciones en: {‘gato’, ‘perro’, hipopótamo ‘,’ mono ‘,’ rinoceronte ‘,’ avestruz ‘,’ salmón ‘} = 7
  • Similitud Jaccard: 1/7 = 0.142857

El índice de similitud de Jaccard resulta ser 0,142857 . Dado que este número es bastante bajo, indica que los dos conjuntos son bastante diferentes.

La distancia de Jaccard

La distancia de Jaccard mide la diferencia entre dos conjuntos de datos y se calcula como:

Distancia Jaccard = 1 – Similitud Jaccard

Esta medida nos da una idea de la diferencia entre dos conjuntos de datos o la diferencia entre ellos.

Por ejemplo, si dos conjuntos de datos tienen una similitud de Jaccard del 80%, entonces tendrían una distancia de Jaccard de 1 – 0.8 = 0.2 o 20%.

Recursos adicionales

Cómo calcular la similitud de Jaccard en R
Cómo calcular la similitud de Jaccard en Python

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Una distribución t es un tipo de distribución de probabilidad continua. Tiene las siguientes propiedades: Es continuo Tiene forma de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!