Herkenning van benoemde entiteiten

Feature Engineering voor NLP in Python

Rounak Banik

Data Scientist

Toepassingen

  • Efficiënte zoekalgoritmen
  • Vragen beantwoorden
  • Nieuwsartikelen classificeren
  • Klantenservice
Feature Engineering voor NLP in Python

Herkenning van benoemde entiteiten

  • Benoemde entiteiten herkennen en indelen in vaste categorieën.
  • Categorieën zijn o.a. persoon, organisatie, land, etc.
    "John Doe is a software engineer working at Google. He lives in France."
    
  • Benoemde entiteiten
  • John Doe → persoon
  • Google → organisatie
  • France → land (geopolitieke entiteit)
Feature Engineering voor NLP in Python

NER met spaCy

import spacy
string = "John Doe is a software engineer working at Google. He lives in France."

# Load model and create Doc object
nlp = spacy.load('en_core_web_sm')
doc = nlp(string)

# Generate named entities ne = [(ent.text, ent.label_) for ent in doc.ents] print(ne)
[('John Doe', 'PERSON'), ('Google', 'ORG'), ('France', 'GPE')]
Feature Engineering voor NLP in Python

NER-annotaties in spaCy

spaCy-documentatie over NER-annotaties

Feature Engineering voor NLP in Python

Let op

  • Niet perfect
  • Prestatie hangt af van train- en testdata
  • Train modellen met specialistische data voor nuances
  • Taalafhankelijk
Feature Engineering voor NLP in Python

Laten we oefenen!

Feature Engineering voor NLP in Python

Preparing Video For Download...