RegEx dengan spaCy

Pemrosesan Bahasa Alami dengan spaCy

Azadeh Mobasher

Principal Data Scientist

Apa itu RegEx?

Ekstraksi informasi berbasis aturan (IR) berguna untuk banyak tugas NLP
Regular expression (RegEx) dipakai untuk pencocokan string kompleks
RegEx menemukan dan mengambil pola atau mengganti pola yang cocok

RegEx: ekstraksi tautan dan informasi telepon

Kekuatan dan kelemahan RegEx

Kelebihan:

Memungkinkan penulisan aturan andal untuk mengambil informasi
Dapat menemukan banyak variasi dalam string
Cepat dijalankan
Didukung banyak bahasa pemrograman

Kekurangan:

Sintaks menantang bagi pemula
Perlu mengetahui semua variasi pola di teks

RegEx di Python

Python sudah menyertakan pustaka RegEx, re.
Langkah pertama menggunakan paket re adalah mendefinisikan pattern.
Pola tersebut dipakai untuk menemukan kecocokan konten.

import re

pattern = r"((\d){3}-(\d){3}-(\d){4})"
text = "Our phone number is 832-123-5555 and their phone number is 425-123-4567."

RegEx di Python

Kita gunakan metode .finditer() dari paket re

iter_matches = re.finditer(pattern, text)

for match in iter_matches:
    start_char = match.start()
    end_char = match.end()

    print ("Start character: ", start_char, "| End character: ", end_char, 
           "| Matching text: ", text[start_char:end_char])

>>> Start character:  20 | End character:  32 | Matching text:  832-123-5555
Start character:  59 | End character:  71 | Matching text:  425-123-4567

RegEx di spaCy

RegEx dalam tiga komponen pipeline: Matcher, PhraseMatcher, dan EntityRuler.

text = "Our phone number is 832-123-5555 and their phone number is 425-123-4567."

nlp = spacy.blank("en")
patterns = [{"label": "PHONE_NUMBER", "pattern": [{"SHAPE": "ddd"},
            {"ORTH": "-"}, {"SHAPE": "ddd"},
            {"ORTH": "-"}, {"SHAPE": "dddd"}]}]

ruler = nlp.add_pipe("entity_ruler")
ruler.add_patterns(patterns)
doc = nlp(text)
print ([(ent.text, ent.label_) for ent in doc.ents])

>>> [('832-123-5555', 'PHONE_NUMBER'), ('425-123-4567', 'PHONE_NUMBER')]

Ayo berlatih!

Pemrosesan Bahasa Alami dengan spaCy