Introduzione al transformer

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Dove siamo?

Grafico dei progressi che mostra che siamo all’apprendimento dei transformer

Concetti sui Large Language Models (LLM)

Cos’è un transformer?

  • "Attention Is All You Need"
    • Ha rivoluzionato il language modeling

 

  • Architettura transformer
    • Relazioni tra parole
    • Componenti: pre-elaborazione, positional encoding, encoder e decoder

Estratto dell’articolo "Attention is all you need"

1 arXiv: Attention Is All You Need
Concetti sui Large Language Models (LLM)

Dentro il transformer

 

  • Input: Jane, che vive a New York e lavora come software

 

Componenti interni e flusso dati in un transformer

 

  • Output: engineer, ama scoprire nuovi ristoranti in città.
Concetti sui Large Language Models (LLM)

I transformer sono come un’orchestra

Immagine di un’orchestra

Concetti sui Large Language Models (LLM)

Pre-elaborazione e rappresentazione del testo

  • Pre-elaborazione del testo: tokenizzazione, rimozione stop word, lemmatizzazione
  • Rappresentazione del testo: word embedding

Evidenziazione del primo componente di un transformer e alcune note singole

Concetti sui Large Language Models (LLM)

Positional encoding

  • Informazione sulla posizione di ogni parola
  • Comprendere parole lontane

Evidenziazione del secondo componente di un transformer e uno spartito

Concetti sui Large Language Models (LLM)

Encoder

  • Meccanismo di attention: indirizza l’attenzione su parole e relazioni specifiche
  • Rete neurale: elabora feature specifiche

Encoder nel flusso del transformer

Concetti sui Large Language Models (LLM)

Decoder

  • Include attention e reti neurali
  • Genera l’output

Componente decoder di un transformer

Concetti sui Large Language Models (LLM)

Transformer e dipendenze a lungo raggio

 

  • Sfida iniziale: dipendenze a lungo raggio
  • Attention: focalizza su parti diverse dell’input

 

  • Esempio: "Jane, che vive a New York e lavora come software engineer, ama scoprire nuovi ristoranti in città."

  • "Jane" --- "ama scoprire nuovi ristoranti"

Concetti sui Large Language Models (LLM)

Elabora più parti in parallelo

  • Limite dei modelli tradizionali:
    • Sequenziali: una parola alla volta

 

  • Transformer:
    • Elaborano più parti in parallelo
    • Elaborazione più veloce

 

  • Per esempio:
    • "The cat sat on the mat"
    • Elabora "cat", "sat", "on", "the" e "mat" nello stesso momento
Concetti sui Large Language Models (LLM)

Passiamo alla pratica!

Concetti sui Large Language Models (LLM)

Preparing Video For Download...