spaCy EntityRuler

Pemrosesan Bahasa Alami dengan spaCy

Azadeh Mobasher

Principal Data Scientist

spaCy EntityRuler

 

  • EntityRuler menambahkan entitas bernama ke kontainer Doc
  • Dapat digunakan sendiri atau digabung dengan EntityRecognizer
  • Pola entitas frasa untuk kecocokan string tepat (string):
{"label": "ORG", "pattern": "Microsoft"}
  • Pola entitas token dengan satu kamus untuk tiap token (list):
{"label": "GPE", "pattern": [{"LOWER": "san"}, {"LOWER": "francisco"}]}
Pemrosesan Bahasa Alami dengan spaCy

Menambahkan EntityRuler ke pipeline spaCy

 

  • Menggunakan metode .add_pipe()
  • Daftar pola dapat ditambahkan dengan metode .add_patterns()

 

nlp = spacy.blank("en")
entity_ruler = nlp.add_pipe("entity_ruler")
patterns = [{"label": "ORG", "pattern": "Microsoft"},
            {"label": "GPE", "pattern": [{"LOWER": "san"}, {"LOWER": "francisco"}]}]
entity_ruler.add_patterns(patterns)
Pemrosesan Bahasa Alami dengan spaCy

Menambahkan EntityRuler ke pipeline spaCy

 

  • .ents menyimpan hasil komponen EntityLinker

 

doc = nlp("Microsoft is hiring software developer in San Francisco.")
print([(ent.text, ent.label_) for ent in doc.ents])
[('Microsoft', 'ORG'), ('San Francisco', 'GPE')]
Pemrosesan Bahasa Alami dengan spaCy

EntityRuler dalam praktik

 

  • Terintegrasi dengan komponen pipeline spaCy
  • Meningkatkan pengenal entitas bernama

  • Model spaCy tanpa EntityRuler:

nlp = spacy.load("en_core_web_sm")

doc = nlp("Manhattan associates is a company in the U.S.")
print([(ent.text, ent.label_) for ent in doc.ents])
>>> [('Manhattan', 'GPE'), ('U.S.', 'GPE')]
Pemrosesan Bahasa Alami dengan spaCy

EntityRuler dalam praktik

 

  • EntityRuler ditambahkan setelah komponen ner yang ada:
nlp = spacy.load("en_core_web_sm")
ruler = nlp.add_pipe("entity_ruler", after='ner')
patterns = [{"label": "ORG", "pattern": [{"lower": "manhattan"}, {"lower": "associates"}]}]
ruler.add_patterns(patterns)

doc = nlp("Manhattan associates is a company in the U.S.")
print([(ent.text, ent.label_) for ent in doc.ents])
>>> [('Manhattan', 'GPE'), ('U.S.', 'GPE')]
Pemrosesan Bahasa Alami dengan spaCy

EntityRuler dalam praktik

 

  • EntityRuler ditambahkan sebelum komponen ner yang ada:
nlp = spacy.load("en_core_web_sm")
ruler = nlp.add_pipe("entity_ruler", before='ner')
patterns = [{"label": "ORG", "pattern": [{"lower": "manhattan"}, {"lower": "associates"}]}]
ruler.add_patterns(patterns)

doc = nlp("Manhattan associates is a company in the U.S.")
print([(ent.text, ent.label_) for ent in doc.ents])
>>> [('Manhattan associates', 'ORG'), ('U.S.', 'GPE')]
Pemrosesan Bahasa Alami dengan spaCy

Ayo berlatih!

Pemrosesan Bahasa Alami dengan spaCy

Preparing Video For Download...