Meccanismi di attention

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Meccanismi di attention

  • Comprendere strutture complesse
  • Concentrarsi sulle parole importanti

 

  • Analogia: leggere un libro
    • Indizi in un libro giallo
    • Focalizzarsi sui contenuti rilevanti
    • Concentrarsi sui dati di input cruciali

Un libro aperto con una lente d’ingrandimento

Concetti sui Large Language Models (LLM)

Self-attention e multi-head attention

Self-attention

  • Pesa l’importanza di ogni parola

 

  • Cattura dipendenze a lungo raggio

Multi-head attention

  • Evoluzione della self-attention

 

  • Divide l’input in più teste, ciascuna focalizzata su aspetti diversi
Concetti sui Large Language Models (LLM)

Attention a una festa

  • Attention: Self e multi-head

 

  • Esempio:
    • Conversazione di gruppo a una festa
    • Attenzione selettiva al parlante rilevante
    • Filtra il rumore
    • Focalizzati sui punti chiave

 

persone sedute che parlano in gruppo

1 Freepik
Concetti sui Large Language Models (LLM)

La festa continua

Self-attention

  • Concentrati su ogni parola di ciascuno
  • Valuta e confronta la rilevanza
  • Pesa l’input di ogni parlante
  • Combina per una comprensione completa

Multi-head attention

  • Dividi l’attenzione in canali "multipli"
  • Concentrati su aspetti diversi della conversazione
  • Emozioni del parlante, tema principale e sotto-temi correlati
  • Elabora ogni aspetto e unisci
Concetti sui Large Language Models (LLM)

Vantaggi della multi-head attention

  • "Il ragazzo andò al negozio per comprare della spesa e trovò uno sconto sul suo cereale preferito."

 

  • Attention: "ragazzo," "negozio," "spesa" e "sconto"
  • Self-attention: "ragazzo" e "lui" -> stessa persona
  • Multi-head attention: canali multipli
    • Personaggio ("ragazzo")
    • Azione ("andò al negozio," "trovò uno sconto")
    • Oggetti coinvolti ("spesa," "cereali")
Concetti sui Large Language Models (LLM)

Passiamo alla pratica !

Concetti sui Large Language Models (LLM)

Preparing Video For Download...