Kosinüs benzerliği

Python ile NLP için Özellik Mühendisliği

Rounak Banik

Data Scientist

Kosinüs benzerliği

1 Görsel: techninpink.com
Python ile NLP için Özellik Mühendisliği

Skaler çarpım

İki vektörü ele alalım,

$$V = (v_1, v_2, \cdots, v_n), W = (w_1, w_2, \cdots, w_n)$$

V ve W’nin skaler çarpımı:

$$V \cdot W = (v_1 \times w_1) + (v_2 \times w_2) + \cdots + (v_n \times w_n) $$

Örnek:

$$A = (4, 7, 1) \; , \; B = (5, 2, 3)$$

$$A \cdot B = (4 \times 5) + (7 \times 2) + \cdots (1 \times 3)$$

$$= 20 + 14 + 3 = 37 \color{white}{A \cdot B d}$$

$$$$

Python ile NLP için Özellik Mühendisliği

Bir vektörün büyüklüğü

Herhangi bir vektör için,

$$V = (v_1, v_2, \cdots, v_n)$$

Büyüklük şöyle tanımlanır:

$$||\mathbf{V}|| = \sqrt{(v_1)^{2} + (v_2)^{2} + ... + (v_n)^{2}} $$

Örnek:

$$A = (4, 7, 1) \; , \; B = (5, 2, 3)$$

$$||\mathbf{A}|| = \sqrt{(4)^{2} + (7)^{2} + (1)^{2}} $$

$$ \color{white}{filler} = \sqrt{16 + 49 + 1} = \sqrt{66}$$

$$

Python ile NLP için Özellik Mühendisliği

Kosinüs skoru

A ve B vektörleri arasındaki açı

$$A: (4, 7, 1)$$

$$B: (5, 2, 3)$$

Kosinüs skoru,

$$cos(A,B) = \frac{A \cdot B}{|A| \cdot |B|}$$

$$\color{white}{fillers lorem}= \frac{37}{\sqrt{66} \times \sqrt{38}}$$

$$\color{white}{fillers l}= 0.7388$$

Python ile NLP için Özellik Mühendisliği

Kosinüs skoru: akılda kalması gerekenler

  • -1 ile 1 arasında.
  • NLP’de 0 ile 1 arasında.
  • Belge uzunluğuna dayanıklı.
Python ile NLP için Özellik Mühendisliği

scikit-learn ile uygulama

# Import the cosine_similarity
from sklearn.metrics.pairwise import cosine_similarity
# Define two 3-dimensional vectors A and B
A = (4,7,1)
B = (5,2,3)

# Compute the cosine score of A and B
score = cosine_similarity([A], [B])

# Print the cosine score
print(score)
array([[ 0.73881883]])
Python ile NLP için Özellik Mühendisliği

Haydi pratik yapalım!

Python ile NLP için Özellik Mühendisliği

Preparing Video For Download...