Introduzione al transformer

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Dove siamo?

Grafico dei progressi che mostra che siamo all’apprendimento dei transformer

Cos’è un transformer?

"Attention Is All You Need"
- Ha rivoluzionato il language modeling

Architettura transformer
- Relazioni tra parole
- Componenti: pre-elaborazione, positional encoding, encoder e decoder

Estratto dell’articolo "Attention is all you need"

¹ arXiv: Attention Is All You Need

Dentro il transformer

Input: Jane, che vive a New York e lavora come software

Componenti interni e flusso dati in un transformer

Output: engineer, ama scoprire nuovi ristoranti in città.

I transformer sono come un’orchestra

Immagine di un’orchestra

Pre-elaborazione e rappresentazione del testo

Pre-elaborazione del testo: tokenizzazione, rimozione stop word, lemmatizzazione
Rappresentazione del testo: word embedding

Evidenziazione del primo componente di un transformer e alcune note singole

Positional encoding

Informazione sulla posizione di ogni parola
Comprendere parole lontane

Evidenziazione del secondo componente di un transformer e uno spartito

Encoder

Meccanismo di attention: indirizza l’attenzione su parole e relazioni specifiche
Rete neurale: elabora feature specifiche

Encoder nel flusso del transformer

Decoder

Include attention e reti neurali
Genera l’output

Componente decoder di un transformer

Transformer e dipendenze a lungo raggio

Sfida iniziale: dipendenze a lungo raggio
Attention: focalizza su parti diverse dell’input

Esempio: "Jane, che vive a New York e lavora come software engineer, ama scoprire nuovi ristoranti in città."
"Jane" --- "ama scoprire nuovi ristoranti"

Elabora più parti in parallelo

Limite dei modelli tradizionali:
- Sequenziali: una parola alla volta

Transformer:
- Elaborano più parti in parallelo
- Elaborazione più veloce

Per esempio:
- "The cat sat on the mat"
- Elabora "cat", "sat", "on", "the" e "mat" nello stesso momento

Passiamo alla pratica!

Concetti sui Large Language Models (LLM)

Preparing Video For Download...