Introduzione all'elaborazione del linguaggio naturale

Natural Language Processing (NLP) in Python

Fouad Trad

Machine Learning Engineer

Conosci l’istruttore...

 

Foto dell’istruttore.

 

Fouad Trad

  • Machine learning engineer
  • Research scientist
  • NLP in cybersecurity e sanità
Natural Language Processing (NLP) in Python

Cos’è l’NLP?

 

 

  • Il linguaggio è il nostro principale mezzo di comunicazione
  • I computer non capiscono il nostro linguaggio

Immagine che mostra dove si trova il linguaggio: libri, siti web, post social e email.

Natural Language Processing (NLP) in Python

Cos’è l’NLP?

Permette ai computer di analizzare il linguaggio umano

Immagine di una persona che parla a una macchina e il natural language processing traduce ciò che dice così la macchina capisce.

Natural Language Processing (NLP) in Python

Workflow NLP

Primo passo del workflow: testo grezzo.

  • Testo grezzo: da un tweet a un paragrafo di libro
Natural Language Processing (NLP) in Python

Workflow NLP

Secondo passo del workflow: preprocessing

  • Testo grezzo: da un tweet a un paragrafo di libro
  • Preprocessing: pulizia del testo e rimozione di elementi superflui
Natural Language Processing (NLP) in Python

Workflow NLP

Terzo passo del workflow: estrazione di feature.

  • Testo grezzo: da un tweet a un paragrafo di libro
  • Preprocessing: pulizia del testo e rimozione di elementi superflui
  • Estrazione di feature: conversione del testo in numeri
Natural Language Processing (NLP) in Python

Workflow NLP

Quarto passo del workflow: Modeling

  • Testo grezzo: da un tweet a un paragrafo di libro
  • Preprocessing: pulizia del testo e rimozione di elementi superflui
  • Estrazione di feature: conversione del testo in numeri
  • Modello: analizza, predice, classifica, genera contenuti
Natural Language Processing (NLP) in Python

Piano del corso

Diagramma completo del workflow che indica che il Capitolo 1 tratterà il preprocessing con NLTK

Natural Language Processing (NLP) in Python

Piano del corso

Diagramma completo del workflow che indica che il Capitolo 2 tratterà l’estrazione di feature con scikit-learn e Gensim.

Natural Language Processing (NLP) in Python

Piano del corso

Diagramma completo del workflow che indica che i Capitoli 3 e 4 tratteranno pipeline che nascondono i tre passaggi: preprocessing, estrazione di feature e modeling usando le librerie transformers.

Natural Language Processing (NLP) in Python

Tokenizzazione

  • Suddivide il testo in token (pezzi più piccoli e gestibili)

Immagine di una persona che taglia carote

Natural Language Processing (NLP) in Python

Tokenizzazione in frasi

  • Testo → frasi
  • Offre insight più chiari rispetto all’analisi del testo intero
import nltk

nltk.download('punkt_tab')
text = "NLP is fun. Let's dive into it!"
sentences = nltk.sent_tokenize(text)
print(sentences)
["NLP is fun.", "Let's dive into it!"]

Icona che rappresenta la traduzione.

Natural Language Processing (NLP) in Python

Tokenizzazione in parole

  • Testo → parole e punteggiatura
  • Utile per attività che richiedono:
    • Identificare termini chiave
    • Contare la frequenza delle parole
text = "Claim your free prize now!"

words = nltk.word_tokenize(text)
print(words)
['Claim', 'your', 'free', 'prize', 'now', '!']

Icona di un’email di spam.

Natural Language Processing (NLP) in Python

Passiamo alla pratica !

Natural Language Processing (NLP) in Python

Preparing Video For Download...