Panoramica generale dell'NLP

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

A che punto siamo?

Grafico dei progressi che mostra il primo passo, il pre-processing del testo

Concetti sui Large Language Models (LLM)

Pre-processing del testo

  • Possono essere fatti in ordine diverso perché indipendenti

Tre passi più comuni per il pre-processing del testo

Concetti sui Large Language Models (LLM)

Tokenizzazione

  • Divide il testo in singole parole, o token

 

  • Testo:

    • "Working with natural language processing techniques is tricky."

     

  • Tokenizzazione:

    • ["Working", "with", "natural", "language", "processing", "techniques", "is", "tricky", "."]
    • Converte in una lista
Concetti sui Large Language Models (LLM)

Rimozione delle stop word

  • Le stop word non aggiungono significato
  • Rimosse con la stop word removal

 

  • Prima della rimozione:
    • ["Working", "with", "natural", "language", "processing", "techniques", "is", "challenging", "."]

 

  • Dopo la rimozione:
    • ["Working", "natural", "language", "processing", "techniques", "challenging", "."]
Concetti sui Large Language Models (LLM)

Lemmatizzazione

 

  • Raggruppa parole simili con significato vicino

 

  • Riduce le parole alla forma base

 

  • Mappate alla radice

 

  • Talking -> Talk

  • Talked -> Talk

  • Talk -> Talk

Concetti sui Large Language Models (LLM)

Rappresentazione del testo

Grafico dei progressi che mostra che siamo alla fase di rappresentazione del testo

Concetti sui Large Language Models (LLM)

Rappresentazione del testo

 

  • Testo in forma numerica

 

  • Bag-of-words
  • Word embeddings

Immagine che mostra il parlato come numeri

Concetti sui Large Language Models (LLM)

Bag-of-words

 

  • Testo in una matrice di conteggi di parole

Una matrice con rappresentazione bag-of-words

  • 0 indica l’assenza di una parola
Concetti sui Large Language Models (LLM)

Limiti del bag-of-words

  • Non cattura l’ordine o il contesto

    • Può portare a interpretazioni errate
    • Frasi simili ma significato opposto
      • "The cat chased the mouse swiftly."
      • "The mouse chased the cat."
  • Non coglie la semantica tra parole

    • Tratta parole correlate come indipendenti
    • Come "cat" e "mouse"
Concetti sui Large Language Models (LLM)

Word embeddings

  • Catturano i significati semantici come numeri

 

Cat Mouse
Plant -0.9 -0.8
Furry 0.9 0.7
Carnivore 0.9 -0.8

 

  • Cat [-0.9, 0.9, 0.9]
  • Relazione predatore-preda:

Word embeddings: predatore-preda

Concetti sui Large Language Models (LLM)

Formato leggibile dalla macchina

 

  • Si parte dal pre-processing del testo

Flusso di lavoro per la preparazione dei dati

Concetti sui Large Language Models (LLM)

Formato leggibile dalla macchina

 

  • Converti il testo pre-processato in formato numerico

Flusso di lavoro con passi di rappresentazione del testo

Concetti sui Large Language Models (LLM)

Passons à la pratique !

Concetti sui Large Language Models (LLM)

Preparing Video For Download...