Panoramica generale dell'NLP

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

A che punto siamo?

Grafico dei progressi che mostra il primo passo, il pre-processing del testo

Pre-processing del testo

Possono essere fatti in ordine diverso perché indipendenti

Tre passi più comuni per il pre-processing del testo

Tokenizzazione

Divide il testo in singole parole, o token

Testo:
- "Working with natural language processing techniques is tricky."
Tokenizzazione:
- ["Working", "with", "natural", "language", "processing", "techniques", "is", "tricky", "."]
- Converte in una lista

Rimozione delle stop word

Le stop word non aggiungono significato
Rimosse con la stop word removal

Prima della rimozione:
- ["Working", "with", "natural", "language", "processing", "techniques", "is", "challenging", "."]

Dopo la rimozione:
- ["Working", "natural", "language", "processing", "techniques", "challenging", "."]

Lemmatizzazione

Raggruppa parole simili con significato vicino

Riduce le parole alla forma base

Mappate alla radice

Talking -> Talk
Talked -> Talk
Talk -> Talk

Rappresentazione del testo

Grafico dei progressi che mostra che siamo alla fase di rappresentazione del testo

Rappresentazione del testo

Testo in forma numerica

Bag-of-words
Word embeddings

Immagine che mostra il parlato come numeri

Bag-of-words

Testo in una matrice di conteggi di parole

Una matrice con rappresentazione bag-of-words

0 indica l’assenza di una parola

Limiti del bag-of-words

Non cattura l’ordine o il contesto
- Può portare a interpretazioni errate
- Frasi simili ma significato opposto
  - "The cat chased the mouse swiftly."
  - "The mouse chased the cat."
Non coglie la semantica tra parole
- Tratta parole correlate come indipendenti
- Come "cat" e "mouse"

Word embeddings

Catturano i significati semantici come numeri

	Cat	Mouse
Plant	-0.9	-0.8
Furry	0.9	0.7
Carnivore	0.9	-0.8

Cat [-0.9, 0.9, 0.9]

Relazione predatore-preda:

Word embeddings: predatore-preda

Formato leggibile dalla macchina

Si parte dal pre-processing del testo

Flusso di lavoro per la preparazione dei dati

Formato leggibile dalla macchina

Converti il testo pre-processato in formato numerico

Flusso di lavoro con passi di rappresentazione del testo

Passons à la pratique !

Concetti sui Large Language Models (LLM)

Preparing Video For Download...