Natural Language Processing met spaCy
Azadeh Mobasher
Principal Data Scientist
| POS | Beschrijving | Voorbeeld |
|---|---|---|
| VERB | Werkwoord | run, eat, ate, take |
| NOUN | Zelfstandig naamwoord | man, airplane, tree, flower |
| ADJ | Bijvoeglijk naamwoord | big, old, incompatible, conflicting |
| ADV | Bijwoord | very, down, there, tomorrow |
| CONJ | Voegwoord | and, or, but |
spaCy zet POS-tags in de feature pos_ van de nlp-pijplijnspacy.explain() licht een POS-tag toeverb_sent = "I watch TV."print([(token.text, token.pos_, spacy.explain(token.pos_)) for token in nlp(verb_sent)])
[('I', 'PRON', 'pronoun'),
('watch', 'VERB', 'verb'),
('TV', 'NOUN', 'noun'),
('.', 'PUNCT', 'punctuation')]
noun_sent = "I left without my watch."print([(token.text, token.pos_, spacy.explain(token.pos_)) for token in nlp(noun_sent)])
[('I', 'PRON', 'pronoun'),
('left', 'VERB', 'verb'),
('without', 'ADP', 'adposition'),
('my', 'PRON', 'pronoun'),
('watch', 'NOUN', 'noun'),
('.', 'PUNCT', 'punctuation')]
| Entiteitstype | Beschrijving |
|---|---|
| PERSON | Benoemde persoon of familie |
| ORG | Bedrijven, instellingen, enz. |
| GPE | Geo-politieke entiteit, landen, steden, enz. |
| LOC | Niet-GPE-locaties, bergketens, enz. |
| DATE | Absolute/relatieve data of perioden |
| TIME | Tijd kleiner dan een dag |
spaCy-modellen halen entiteiten op via de NER-pijplijncomponentdoc.entsspaCy geeft elke entiteit ook een label (.label_)
import spacy nlp = spacy.load("en_core_web_sm") text = "Albert Einstein was genius." doc = nlp(text)print([(ent.text, ent.start_char, ent.end_char, ent.label_) for ent in doc.ents])
>>> [('Albert Einstein', 0, 15, 'PERSON')]
Doc bekijken
import spacy nlp = spacy.load("en_core_web_sm") text = "Albert Einstein was genius." doc = nlp(text)print([(token.text, token.ent_type_) for token in doc])
>>> [('Albert', 'PERSON'), ('Einstein', 'PERSON'),
('was', ''), ('genius', ''), ('.', '')]
spaCy heeft een moderne visualizer: displaCydisplaCy-entiteitsviewer markeert entiteiten en hun labelsimport spacy from spacy import displacy text = "Albert Einstein was genius." nlp = spacy.load("en_core_web_sm") doc = nlp(text)displacy.serve(doc, style="ent")
Natural Language Processing met spaCy