Cosinusovereenkomst

Feature Engineering voor NLP in Python

Rounak Banik

Data Scientist

Cosinusovereenkomst

1 Afbeelding met dank aan techninpink.com
Feature Engineering voor NLP in Python

Het inproduct

Neem twee vectoren,

$$V = (v_1, v_2, \cdots, v_n), W = (w_1, w_2, \cdots, w_n)$$

Dan is het inproduct van V en W,

$$V \cdot W = (v_1 \times w_1) + (v_2 \times w_2) + \cdots + (v_n \times w_n) $$

Voorbeeld:

$$A = (4, 7, 1) \; , \; B = (5, 2, 3)$$

$$A \cdot B = (4 \times 5) + (7 \times 2) + \cdots (1 \times 3)$$

$$= 20 + 14 + 3 = 37 \color{white}{A \cdot B d}$$

$$$$

Feature Engineering voor NLP in Python

Norm van een vector

Voor elke vector,

$$V = (v_1, v_2, \cdots, v_n)$$

De norm is gedefinieerd als,

$$||\mathbf{V}|| = \sqrt{(v_1)^{2} + (v_2)^{2} + ... + (v_n)^{2}} $$

Voorbeeld:

$$A = (4, 7, 1) \; , \; B = (5, 2, 3)$$

$$||\mathbf{A}|| = \sqrt{(4)^{2} + (7)^{2} + (1)^{2}} $$

$$ \color{white}{filler} = \sqrt{16 + 49 + 1} = \sqrt{66}$$

$$

Feature Engineering voor NLP in Python

De cosinusscore

Hoek tussen vectoren A en B

$$A: (4, 7, 1)$$

$$B: (5, 2, 3)$$

De cosinusscore,

$$cos(A,B) = \frac{A \cdot B}{|A| \cdot |B|}$$

$$\color{white}{fillers lorem}= \frac{37}{\sqrt{66} \times \sqrt{38}}$$

$$\color{white}{fillers l}= 0.7388$$

Feature Engineering voor NLP in Python

Cosinusscore: aandachtspunten

  • Waarde tussen -1 en 1.
  • In NLP: tussen 0 en 1.
  • Robuust voor documentlengte.
Feature Engineering voor NLP in Python

Implementatie met scikit-learn

# Import the cosine_similarity
from sklearn.metrics.pairwise import cosine_similarity
# Define two 3-dimensional vectors A and B
A = (4,7,1)
B = (5,2,3)

# Compute the cosine score of A and B
score = cosine_similarity([A], [B])

# Print the cosine score
print(score)
array([[ 0.73881883]])
Feature Engineering voor NLP in Python

Laten we oefenen!

Feature Engineering voor NLP in Python

Preparing Video For Download...