Cómo calcular la similitud de Jaccard en R

El índice de similitud de Jaccard mide la similitud entre dos conjuntos de datos. Puede variar de 0 a 1. Cuanto mayor sea el número, más similares serán los dos conjuntos de datos.

El índice de similitud de Jaccard se calcula como:

Similitud Jaccard = (número de observaciones en ambos conjuntos) / (número en cualquiera de los conjuntos)

O, escrito en forma de notación:

J (A, B) = | A∩B | / | A∪B |

Este tutorial explica cómo calcular la similitud de Jaccard para dos conjuntos de datos en R.

Ejemplo: similitud de Jaccard en R

Supongamos que tenemos los siguientes dos conjuntos de datos:

a <- c (0, 1, 2, 5, 6, 8, 9) 
b <- c (0, 2, 3, 4, 5, 7, 9)

Podemos definir la siguiente función para calcular la similitud Jaccard entre los dos conjuntos:

#define Jaccard Similarity function 
jaccard <- function (a, b) {
    intersección = longitud ( intersección (a, b))
    unión = longitud (a) + longitud (b) -
     retorno de intersección (intersección / unión)
}

#Encuentre la similitud Jaccard entre los dos conjuntos 
jaccard (a, b)

0.4

La similitud de Jaccard entre las dos listas es 0,4 .

Tenga en cuenta que la función devolverá 0 si los dos conjuntos no comparten ningún valor:

c <- c (0, 1, 2, 3, 4, 5)
d <- c (6, 7, 8, 9, 10)

jaccard (c, d)

[1] 0

Y la función devolverá 1 si los dos conjuntos son idénticos:

e <- c (0, 1, 2, 3, 4, 5)
f <- c (0, 1, 2, 3, 4, 5)

jaccard (e, f)

[1] 1

La función también funciona para conjuntos que contienen cadenas:

g <- c (' gato ', ' perro ', ' hipopótamo ', ' mono ')
h <- c (' mono ', ' rinoceronte ', ' avestruz ', ' salmón ')

jaccard (g, h)

0.142857

También puede utilizar esta función para encontrar la distancia Jaccard entre dos conjuntos, que es la diferencia entre dos conjuntos y se calcula como 1 – Similitud Jaccard.

a <- c (0, 1, 2, 5, 6, 8, 9)
b <- c (0, 2, 3, 4, 5, 7, 9)

distancia #find Jaccard entre series una y b
1 - tarjeta jaccard (a, b)

[1] 0,6

Consulte esta página de Wikipedia para obtener más detalles sobre el índice de similitud de Jaccard.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

https://r-project.org https://www.python.org/ https://www.stata.com/
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!