spaCy EntityRuler

Natural Language Processing met spaCy

Azadeh Mobasher

Principal Data Scientist

spaCy EntityRuler

 

  • EntityRuler voegt entiteiten toe aan een Doc
  • Te gebruiken op zichzelf of met EntityRecognizer
  • Frasepatronen voor exacte stringmatches (string):
{"label": "ORG", "pattern": "Microsoft"}
  • Tokenpatronen met één dict per token (lijst):
{"label": "GPE", "pattern": [{"LOWER": "san"}, {"LOWER": "francisco"}]}
Natural Language Processing met spaCy

EntityRuler toevoegen aan de spaCy-pijplijn

 

  • Gebruik de methode .add_pipe()
  • Voeg een lijst met patronen toe met .add_patterns()

 

nlp = spacy.blank("en")
entity_ruler = nlp.add_pipe("entity_ruler")
patterns = [{"label": "ORG", "pattern": "Microsoft"},
            {"label": "GPE", "pattern": [{"LOWER": "san"}, {"LOWER": "francisco"}]}]
entity_ruler.add_patterns(patterns)
Natural Language Processing met spaCy

EntityRuler toevoegen aan de spaCy-pijplijn

 

  • .ents bevat de resultaten van een EntityLinker-component

 

doc = nlp("Microsoft is hiring software developer in San Francisco.")
print([(ent.text, ent.label_) for ent in doc.ents])
[('Microsoft', 'ORG'), ('San Francisco', 'GPE')]
Natural Language Processing met spaCy

EntityRuler in actie

 

  • Integreert met spaCy-pijplijncomponenten
  • Verbetert de named-entity recognizer

  • spaCy-model zonder EntityRuler:

nlp = spacy.load("en_core_web_sm")

doc = nlp("Manhattan associates is a company in the U.S.")
print([(ent.text, ent.label_) for ent in doc.ents])
>>> [('Manhattan', 'GPE'), ('U.S.', 'GPE')]
Natural Language Processing met spaCy

EntityRuler in actie

 

  • EntityRuler ná de bestaande ner-component toegevoegd:
nlp = spacy.load("en_core_web_sm")
ruler = nlp.add_pipe("entity_ruler", after='ner')
patterns = [{"label": "ORG", "pattern": [{"lower": "manhattan"}, {"lower": "associates"}]}]
ruler.add_patterns(patterns)

doc = nlp("Manhattan associates is a company in the U.S.")
print([(ent.text, ent.label_) for ent in doc.ents])
>>> [('Manhattan', 'GPE'), ('U.S.', 'GPE')]
Natural Language Processing met spaCy

EntityRuler in actie

 

  • EntityRuler vóór de bestaande ner-component toegevoegd:
nlp = spacy.load("en_core_web_sm")
ruler = nlp.add_pipe("entity_ruler", before='ner')
patterns = [{"label": "ORG", "pattern": [{"lower": "manhattan"}, {"lower": "associates"}]}]
ruler.add_patterns(patterns)

doc = nlp("Manhattan associates is a company in the U.S.")
print([(ent.text, ent.label_) for ent in doc.ents])
>>> [('Manhattan associates', 'ORG'), ('U.S.', 'GPE')]
Natural Language Processing met spaCy

Laten we oefenen!

Natural Language Processing met spaCy

Preparing Video For Download...