Introductie tot natural language processing

Natural Language Processing (NLP) in Python

Fouad Trad

Machine Learning Engineer

Maak kennis met de docent...

 

Foto van de docent.

 

Fouad Trad

  • Machine learning engineer
  • Onderzoekswetenschapper
  • NLP in cybersecurity en zorg
Natural Language Processing (NLP) in Python

Wat is NLP?

 

 

  • Taal is ons primaire communicatiemiddel
  • Computers begrijpen onze taal niet

Afbeelding met waar taal voorkomt: boeken, websites, socialmediaberichten en e-mails.

Natural Language Processing (NLP) in Python

Wat is NLP?

Laat computers menselijke taal analyseren

Afbeelding van iemand die tegen een machine praat; NLP vertaalt zodat de machine het begrijpt.

Natural Language Processing (NLP) in Python

NLP-workflow

Eerste stap van de workflow: ruwe tekst.

  • Ruwe tekst: van tweet tot boekparagraaf
Natural Language Processing (NLP) in Python

NLP-workflow

Tweede stap van de workflow: preprocessing

  • Ruwe tekst: van tweet tot boekparagraaf
  • Preprocessing: tekst schoonmaken en overbodigs verwijderen
Natural Language Processing (NLP) in Python

NLP-workflow

Derde stap van de workflow: feature-extractie.

  • Ruwe tekst: van tweet tot boekparagraaf
  • Preprocessing: tekst schoonmaken en overbodigs verwijderen
  • Feature-extractie: tekst omzetten naar getallen
Natural Language Processing (NLP) in Python

NLP-workflow

Vierde stap van de workflow: modellering

  • Ruwe tekst: van tweet tot boekparagraaf
  • Preprocessing: tekst schoonmaken en overbodigs verwijderen
  • Feature-extractie: tekst omzetten naar getallen
  • Model: analyseren, voorspellen, classificeren, nieuwe content genereren
Natural Language Processing (NLP) in Python

Lesplan

Het volledige workflowdiagram met vermelding dat hoofdstuk 1 preprocessing met NLTK behandelt

Natural Language Processing (NLP) in Python

Lesplan

Het volledige workflowdiagram met vermelding dat hoofdstuk 2 feature-extractie met scikit-learn en Gensim behandelt.

Natural Language Processing (NLP) in Python

Lesplan

Het volledige workflowdiagram met vermelding dat hoofdstukken 3 en 4 pipelines behandelen die de drie stappen verbergen: preprocessing, feature-extractie en modellering met de transformers-libraries.

Natural Language Processing (NLP) in Python

Tokenization

  • Hakt tekst in tokens (kleine, hanteerbare stukjes)

Afbeelding van iemand die wortels snijdt

Natural Language Processing (NLP) in Python

Zin-tokenization

  • Tekst → zinnen
  • Geeft meer inzicht dan alles in één keer analyseren
import nltk

nltk.download('punkt_tab')
text = "NLP is fun. Let's dive into it!"
sentences = nltk.sent_tokenize(text)
print(sentences)
["NLP is fun.", "Let's dive into it!"]

Pictogram dat vertaling voorstelt.

Natural Language Processing (NLP) in Python

Woord-tokenization

  • Tekst → woorden en interpunctie
  • Handig voor:
    • Sleuteltermen vinden
    • Woordfrequentie tellen
text = "Claim your free prize now!"

words = nltk.word_tokenize(text)
print(words)
['Claim', 'your', 'free', 'prize', 'now', '!']

Pictogram voor een spammail.

Natural Language Processing (NLP) in Python

Laten we oefenen!

Natural Language Processing (NLP) in Python

Preparing Video For Download...