RegEx dengan spaCy

Pemrosesan Bahasa Alami dengan spaCy

Azadeh Mobasher

Principal Data Scientist

Apa itu RegEx?

 

  • Ekstraksi informasi berbasis aturan (IR) berguna untuk banyak tugas NLP
  • Regular expression (RegEx) dipakai untuk pencocokan string kompleks
  • RegEx menemukan dan mengambil pola atau mengganti pola yang cocok

RegEx: ekstraksi tautan dan informasi telepon

Pemrosesan Bahasa Alami dengan spaCy

Kekuatan dan kelemahan RegEx

Kelebihan:

  • Memungkinkan penulisan aturan andal untuk mengambil informasi
  • Dapat menemukan banyak variasi dalam string
  • Cepat dijalankan
  • Didukung banyak bahasa pemrograman

Kekurangan:

  • Sintaks menantang bagi pemula
  • Perlu mengetahui semua variasi pola di teks
Pemrosesan Bahasa Alami dengan spaCy

RegEx di Python

 

  • Python sudah menyertakan pustaka RegEx, re.
  • Langkah pertama menggunakan paket re adalah mendefinisikan pattern.
  • Pola tersebut dipakai untuk menemukan kecocokan konten.

 

import re

pattern = r"((\d){3}-(\d){3}-(\d){4})"
text = "Our phone number is 832-123-5555 and their phone number is 425-123-4567."
Pemrosesan Bahasa Alami dengan spaCy

RegEx di Python

 

  • Kita gunakan metode .finditer() dari paket re
iter_matches = re.finditer(pattern, text)

for match in iter_matches: start_char = match.start() end_char = match.end()
print ("Start character: ", start_char, "| End character: ", end_char, "| Matching text: ", text[start_char:end_char])
>>> Start character:  20 | End character:  32 | Matching text:  832-123-5555
Start character:  59 | End character:  71 | Matching text:  425-123-4567
Pemrosesan Bahasa Alami dengan spaCy

RegEx di spaCy

  • RegEx dalam tiga komponen pipeline: Matcher, PhraseMatcher, dan EntityRuler.
text = "Our phone number is 832-123-5555 and their phone number is 425-123-4567."

nlp = spacy.blank("en") patterns = [{"label": "PHONE_NUMBER", "pattern": [{"SHAPE": "ddd"}, {"ORTH": "-"}, {"SHAPE": "ddd"}, {"ORTH": "-"}, {"SHAPE": "dddd"}]}]
ruler = nlp.add_pipe("entity_ruler") ruler.add_patterns(patterns) doc = nlp(text) print ([(ent.text, ent.label_) for ent in doc.ents])
>>> [('832-123-5555', 'PHONE_NUMBER'), ('425-123-4567', 'PHONE_NUMBER')]
Pemrosesan Bahasa Alami dengan spaCy

Ayo berlatih!

Pemrosesan Bahasa Alami dengan spaCy

Preparing Video For Download...