Dasar-dasar regular expression

Pengantar Natural Language Processing di R

Kasey Jones

Research Data Scientist

Apa itu natural language processing?

NLP:

  • Menggunakan komputer untuk menganalisis dan memahami teks

Topik yang dibahas:

  • Klasifikasi Teks
  • Topic Modeling
  • Named Entity Recognition
  • Analisis Sentimen
Pengantar Natural Language Processing di R

Apa itu regular expression?

  • Urutan karakter untuk mencari teks
  • Contoh:
    • mencari berkas di direktori via command line
    • menemukan artikel dengan pola tertentu
    • mengganti teks tertentu
    • ...
Pengantar Natural Language Processing di R

Contoh

words <- c("DW-40", "Mike's Oil", "5w30", "Joe's Gas", "Unleaded", "Plus-89")
# Menemukan digit
grep("\\d", words, value = TRUE)
[1] 1 3 6
# Menemukan apostrof
grep("\\'", words, value = TRUE)
[1] "Mike's Oil"     "Joe's Gasoline"
Pengantar Natural Language Processing di R

Contoh Regular Expression

Pola Kecocokan Teks Contoh R Contoh Teks
\w Huruf/angka mana pun gregexpr(pattern ='\w', <text>) a
\d Digit mana pun gregexpr(pattern ='\d', text) 1
\w+ Huruf/angka sepanjang apa pun gregexpr(pattern ='\w+', text) word
\d+ Digit sepanjang apa pun gregexpr(pattern ='\d+', text) 1234
\s Spasi gregexpr(pattern ='\s', text) ' '
\S Bukan spasi gregexpr(pattern ='\S', text) word
Pengantar Natural Language Processing di R

Contoh R

Fungsi Tujuan Sintaks
grep Menemukan kecocokan pola dalam vektor grep(pattern ='\w', x = <vector>, value = F)
gsub Mengganti semua kecocokan string/vektor gsub(pattern ='\d+', replacement = "", x = <vector>)
Pengantar Natural Language Processing di R

Latihan RegEx

1 https://regexone.com/lesson/matching_characters
Pengantar Natural Language Processing di R

Saatnya coding!

Pengantar Natural Language Processing di R

Preparing Video For Download...