spaCy Matcher ve PhraseMatcher

spaCy ile Natural Language Processing

Azadeh Mobasher

Principal Data Scientist

spaCy'de Matcher

RegEx desenleri karmaşık, okunması ve hata ayıklaması zordur.
spaCy, daha okunaklı ve üretim için uygun bir alternatif sunar: Matcher sınıfı.

import spacy
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm")
doc = nlp("Good morning, this is our first day on campus.")

matcher = Matcher(nlp.vocab)

spaCy'de Matcher

Eşleşme çıktısı, eşleşen desenin başlangıç ve bitiş token indekslerini içerir.

pattern = [{"LOWER": "good"}, {"LOWER": "morning"}]

matcher.add("morning_greeting", [pattern])

matches = matcher(doc)
for match_id, start, end in matches:
    print("Start token: ", start, " | End token: ", end, 
          "| Matched text: ", doc[start:end].text)

>>> Start token:  0  | End token:  2 | Matched text:  Good morning

Matcher genişletilmiş söz dizimi desteği

Eşleşme desenlerini tanımlarken operatörlere izin verir.
Python'un in, not in ve karşılaştırma operatörlerine benzer

Attribute	Value type	Description
`IN`	any type	Öznitelik değeri bir listenin üyesidir
`NOT_IN`	any type	Öznitelik değeri bir listenin üyesi değildir
`==`, `>=`, `<=`, `>`, `<`	int, float	Eşitlik/eşitsizlik karşılaştırmaları için operatörler

Matcher genişletilmiş söz dizimi desteği

IN operatörüyle good morning ve good evening eşleşir

doc = nlp("Good morning and good evening.")
matcher = Matcher(nlp.vocab)
pattern = [{"LOWER": "good"}, {"LOWER": {"IN": ["morning", "evening"]}}]
matcher.add("morning_greeting", [pattern])
matches = matcher(doc)

IN operatörü ile eşleşme çıktısı

for match_id, start, end in matches:
    print("Start token: ", start, " | End token: ", end,
          "| Matched text: ", doc[start:end].text)

>>> Start token:  0  | End token:  2 | Matched text:  Good morning
Start token:  3  | End token:  5 | Matched text:  good evening

spaCy'de PhraseMatcher

PhraseMatcher sınıfı, verilen bir metinde uzun bir ifade listesini eşleştirir.

from spacy.matcher import PhraseMatcher
nlp = spacy.load("en_core_web_sm")
matcher = PhraseMatcher(nlp.vocab)
terms = ["Bill Gates", "John Smith"]

spaCy'de PhraseMatcher

PhraseMatcher çıktıları, eşleşen desenin başlangıç ve bitiş token indekslerini içerir

patterns = [nlp.make_doc(term) for term in terms]
matcher.add("PeopleOfInterest", patterns)

doc = nlp("Bill Gates met John Smith for an important discussion regarding 
           importance of AI.")

matches = matcher(doc)
for match_id, start, end in matches:
    print("Start token: ", start, " | End token: ", end, 
          "| Matched text: ", doc[start:end].text)

>>> Start token:  0  | End token:  2 | Matched text:  Bill Gates
Start token:  3  | End token:  5 | Matched text:  John Smith

spaCy'de PhraseMatcher

PhraseMatcher sınıfının attr argümanını kullanabiliriz

matcher = PhraseMatcher(nlp.vocab, attr = "LOWER")

terms = ["Government", "Investment"]
patterns = [nlp.make_doc(term) for term in terms]
matcher.add("InvestmentTerms", patterns)
doc = nlp("It was interesting to the investment division of the government.")

matcher = PhraseMatcher(nlp.vocab, attr = "SHAPE")

terms = ["110.0.0.0", "101.243.0.0"]
patterns = [nlp.make_doc(term) for term in terms]
matcher.add("IPAddresses", patterns)
doc = nlp("The tracked IP address was 234.135.0.0.")

Hadi pratik yapalım!

spaCy ile Natural Language Processing