Kemiripan Kosinus

Pengantar Natural Language Processing di R

Kasey Jones

Research Data Scientist

Keluaran TF-IDF

# A tibble: 1,498 x 6
       X word         n     tf   idf tf_idf
   <int> <chr>    <int>  <dbl> <dbl>  <dbl>
 1    20 january      4 0.0930  2.30  0.214
 2    15 power        4 0.0690  3.00  0.207
 3    19 futures      9 0.0643  3.00  0.193
 4     8 8            6 0.0619  3.00  0.185
 5     3 canada       2 0.0526  3.00  0.158
 6     3 canadian     2 0.0526  3.00  0.158
Pengantar Natural Language Processing di R

Kemiripan kosinus

  • ukuran kemiripan antara dua vektor
  • diukur oleh sudut yang dibentuk dua vektor

Kemiripan kosinus mengukur sudut antara dua vektor. Bayangkan sebagai sudut dari dua garis.

1 https://en.wikipedia.org/wiki/Cosine_similarity
Pengantar Natural Language Processing di R

Rumus kemiripan kosinus

  • kemiripan dihitung sebagai hasil kali titik (dot product) dua vektor

Menghitung dot product antara dua vektor menunjukkan seberapa mirip keduanya.

Pengantar Natural Language Processing di R

Menemukan kemiripan bag. I

crude_weights <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(word, X) %>%
  bind_tf_idf(word, X, n)
# A tibble: 1,498 x 6
       X word          n    tf   idf tf_idf
   <int> <chr>     <int> <dbl> <dbl>  <dbl>
 1     1 1.50          1 0.25   3.25  0.812
 2     1 16.00         1 1      3.25  3.25 
 3     1 barrel        2 0.133  3.25  0.433
 ...
Pengantar Natural Language Processing di R

Kemiripan berpasangan

pairwise_similarity(tbl, item, feature, value, ...)
  • tbl: tabel atau tibble
  • item: item yang dibandingkan (artikel, tweet, dll.)
  • feature: kolom yang menggambarkan keterkaitan antarit​​em (mis. kata)
  • value: kolom nilai (mis. n atau tf_idf)
Pengantar Natural Language Processing di R

Menemukan kemiripan bag. II

crude_weights %>%
  pairwise_similarity(X, word, tf_idf) %>%
  arrange(desc(similarity))
# A tibble: 380 x 3
   item1 item2 similarity
   <int> <int>      <dbl>
 1    17    16      0.663
 2    16    17      0.663
 3    13    10      0.311
 4    10    13      0.311
 ...
Pengantar Natural Language Processing di R

Use case kemiripan kosinus

  • temukan teks duplikat/serupa
  • gunakan untuk klastering dan klasifikasi
  • ...
Pengantar Natural Language Processing di R

Ayo berlatih!

Pengantar Natural Language Processing di R

Preparing Video For Download...