Contentgebaseerde aanbevelingen maken

Aanbevelingssystemen bouwen in Python

Rob O'Callaghan

Director of Data

Kennismaken met de Jaccard-overeenkomst

Jaccard-overeenkomst: Venn-diagram met Jaccard-overeenkomst. $$J(A,B)=\frac{A\cap B }{A \cup B}$$

Aanbevelingssystemen bouwen in Python

Jaccard-overeenkomst tussen boeken berekenen

genres_array_df:

Boek Avontuur Fantasy Tragedie Maatschappijkritiek ...
The Hobbit 1 1 0 0 ...
The Great Gatsby 0 0 1 1 ...
A Game of Thrones 0 1 0 0 ...
Macbeth 0 0 1 0 ...
... ... ... ... ... ...
Aanbevelingssystemen bouwen in Python

Jaccard-overeenkomst tussen boeken berekenen

from sklearn.metrics import jaccard_score


hobbit_row = book_genre_df.loc['The Hobbit']
GOT_row = book_genre_df.loc['A Game of Thrones']
print(jaccard_score(hobbit_row, GOT_row))
0.5
Aanbevelingssystemen bouwen in Python

Afstand tussen alle items bepalen

from scipy.spatial.distance import pdist, squareform


jaccard_distances = pdist(book_genre_df.values, metric='jaccard') print(jaccard_distances)
[1.  0.5 1.  1.  0.5 1. ]
square_jaccard_distances = squareform(jaccard_distances)
print(square_jaccard_distances)
[[0.  1.  0.5 1. ]
 [1.  0.  1.  0.5]
 [0.5 1.  0.  1. ]
 [1.  0.5 1.  0. ]]
Aanbevelingssystemen bouwen in Python

Afstand tussen alle items bepalen

print(square_jaccard_distances)
[[0.  1.  0.5 1. ]
 [1.  0.  1.  0.5]
 [0.5 1.  0.  1. ]
 [1.  0.5 1.  0. ]]
jaccard_similarity_array = 1 -  square_jaccard_distances
print(jaccard_similarity_array)
[[1.  0.  0.5 0. ]
 [0.  1.  0.  0.5]
 [0.5 0.  1.  0. ]
 [0.  0.5 0.  1. ]]
Aanbevelingssystemen bouwen in Python

Een bruikbare afstandstabel maken

distance_df = pd.DataFrame(jaccard_similarity_array,
                           index=genres_array_df['Book'], 
                           columns=genres_array_df['Book'])

distance_df.head()
            The Hobbit The Great Gatsby  A Game of Thrones          Macbeth     ...
The Hobbit        1.00             0.15               0.75             0.01     ...
The Great Gatsby  0.15             1.00               0.01             0.43     ...
...
Aanbevelingssystemen bouwen in Python

Boeken vergelijken

print(distance_df['The Hobbit']['A Game of Thrones'])
0.75
print(distance_df['The Hobbit']['The Great Gatsby'])
0.15
Aanbevelingssystemen bouwen in Python

De meest vergelijkbare boeken vinden

print(distance_df['The Hobbit'].sort_values(ascending=False))
title
The Hobbit                                                             1.00
The Two Towers                                                         0.91
A Game of Thrones                                                      0.50
...
Aanbevelingssystemen bouwen in Python

Laten we oefenen!

Aanbevelingssystemen bouwen in Python

Preparing Video For Download...