Basis van Natural Language Processing (NLP)

Natural Language Processing met spaCy

Azadeh Mobasher

Principal Data Scientist

Natural Language Processing (NLP)

NLP, een subveld van AI

Sentimentanalyse

Voorbeelden van sentimentanalyse

Named entity recognition (NER)

Het vinden en classificeren van benoemde entiteiten in ongestructureerde tekst in vooraf gedefinieerde categorieën
Benoemde entiteiten zijn echte objecten zoals personen of locaties

NER-voorbeelden

Chatbots

spaCy is een gratis, open-source NLP-bibliotheek voor Python die:

spaCy en NLP

$ python3 pip install spacy

python3 -m spacy download en_core_web_sm
import spacy
nlp = spacy.load("en_core_web_sm")

Tekstverwerking met spaCy

import spacy
nlp = spacy.load("en_core_web_sm")
text = "A spaCy pipeline object is created."
doc = nlp(text)

Tokenization
- Een Token is het kleinste betekenisvolle deel van tekst.
- Tokenization: tekst splitsen in een lijst betekenisvolle tokens

print([token.text for token in doc])

['A', 'spaCy', 'pipeline', 'object', 'is', 'created', '.']

Natural Language Processing met spaCy