spaCy Matcher ve PhraseMatcher

spaCy ile Natural Language Processing

Azadeh Mobasher

Principal Data Scientist

spaCy'de Matcher

 

  • RegEx desenleri karmaşık, okunması ve hata ayıklaması zordur.
  • spaCy, daha okunaklı ve üretim için uygun bir alternatif sunar: Matcher sınıfı.

 

import spacy
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm") doc = nlp("Good morning, this is our first day on campus.")
matcher = Matcher(nlp.vocab)
spaCy ile Natural Language Processing

spaCy'de Matcher

 

  • Eşleşme çıktısı, eşleşen desenin başlangıç ve bitiş token indekslerini içerir.
pattern = [{"LOWER": "good"}, {"LOWER": "morning"}]

matcher.add("morning_greeting", [pattern])
matches = matcher(doc) for match_id, start, end in matches: print("Start token: ", start, " | End token: ", end, "| Matched text: ", doc[start:end].text)
>>> Start token:  0  | End token:  2 | Matched text:  Good morning
spaCy ile Natural Language Processing

Matcher genişletilmiş söz dizimi desteği

 

  • Eşleşme desenlerini tanımlarken operatörlere izin verir.
  • Python'un in, not in ve karşılaştırma operatörlerine benzer

 

Attribute Value type Description
IN any type Öznitelik değeri bir listenin üyesidir
NOT_IN any type Öznitelik değeri bir listenin üyesi değildir
==, >=, <=, >, < int, float Eşitlik/eşitsizlik karşılaştırmaları için operatörler
spaCy ile Natural Language Processing

Matcher genişletilmiş söz dizimi desteği

  • IN operatörüyle good morning ve good evening eşleşir
doc = nlp("Good morning and good evening.")
matcher = Matcher(nlp.vocab)
pattern = [{"LOWER": "good"}, {"LOWER": {"IN": ["morning", "evening"]}}]
matcher.add("morning_greeting", [pattern])
matches = matcher(doc)
  • IN operatörü ile eşleşme çıktısı
for match_id, start, end in matches:
    print("Start token: ", start, " | End token: ", end,
          "| Matched text: ", doc[start:end].text)
>>> Start token:  0  | End token:  2 | Matched text:  Good morning
Start token:  3  | End token:  5 | Matched text:  good evening
spaCy ile Natural Language Processing

spaCy'de PhraseMatcher

 

  • PhraseMatcher sınıfı, verilen bir metinde uzun bir ifade listesini eşleştirir.

 

from spacy.matcher import PhraseMatcher
nlp = spacy.load("en_core_web_sm")
matcher = PhraseMatcher(nlp.vocab)
terms = ["Bill Gates", "John Smith"]
spaCy ile Natural Language Processing

spaCy'de PhraseMatcher

  • PhraseMatcher çıktıları, eşleşen desenin başlangıç ve bitiş token indekslerini içerir
patterns = [nlp.make_doc(term) for term in terms]
matcher.add("PeopleOfInterest", patterns)

doc = nlp("Bill Gates met John Smith for an important discussion regarding importance of AI.")
matches = matcher(doc) for match_id, start, end in matches: print("Start token: ", start, " | End token: ", end, "| Matched text: ", doc[start:end].text)
>>> Start token:  0  | End token:  2 | Matched text:  Bill Gates
Start token:  3  | End token:  5 | Matched text:  John Smith
spaCy ile Natural Language Processing

spaCy'de PhraseMatcher

  • PhraseMatcher sınıfının attr argümanını kullanabiliriz
matcher = PhraseMatcher(nlp.vocab, attr = "LOWER")

terms = ["Government", "Investment"] patterns = [nlp.make_doc(term) for term in terms] matcher.add("InvestmentTerms", patterns) doc = nlp("It was interesting to the investment division of the government.")
matcher = PhraseMatcher(nlp.vocab, attr = "SHAPE")

terms = ["110.0.0.0", "101.243.0.0"] patterns = [nlp.make_doc(term) for term in terms] matcher.add("IPAddresses", patterns) doc = nlp("The tracked IP address was 234.135.0.0.")
spaCy ile Natural Language Processing

Hadi pratik yapalım!

spaCy ile Natural Language Processing

Preparing Video For Download...