Der Transformer

Konzepte großer Sprachmodelle (LLMs)

Vidhi Chugh

AI strategist and ethicist

In welchem Abschnitt befinden wir uns?

Fortschrittsdiagramm, das zeigt, dass wir uns im Transformer-Lernen befinden

Konzepte großer Sprachmodelle (LLMs)

Was ist ein Transformer?

  • „Aufmerksamkeit ist alles, was du brauchst“
    • Revolutionierte die Sprachmodellierung

 

  • Transformerarchitektur
    • Beziehung zwischen Wörtern
    • Komponenten: Vorverarbeitung, Positionskodierung, Encoder und Decoder

Ausschnitt aus dem Artikel „Aufmerksamkeit ist alles, was du brauchst“

1 arXiv: Attention Is All You Need
Konzepte großer Sprachmodelle (LLMs)

Im Inneren des Transformers

 

  • Eingabe: Jane, die in New York wohnt und als Softwareentwicklerin arbeitet

 

Interne Teile und Datenfluss in einem Transformer

 

  • Ausgabe: Ingenieurin, liebt es, neue Restaurants in der Stadt zu entdecken.
Konzepte großer Sprachmodelle (LLMs)

Transformer sind wie ein Orchester

Bild von einem Orchester

Konzepte großer Sprachmodelle (LLMs)

Textvorverarbeitung und -darstellung

  • Textvorverarbeitung: Tokenisierung, Stoppwortentfernung, Lemmatisierung
  • Textdarstellung: Worteinbettung

Das Wichtigste zum ersten Teil eines Transformers und ein paar persönliche Anmerkungen

Konzepte großer Sprachmodelle (LLMs)

Positionskodierung

  • Informationen zur Position jedes Wortes
  • Versteht Zusammenhänge weit entfernter Wörter

Highlight der zweiten Komponente eines Transformers und eines Musikstücks

Konzepte großer Sprachmodelle (LLMs)

Encoder

  • Aufmerksamkeitsmechanismus: lenkt die Aufmerksamkeit auf bestimmte Wörter und Zusammenhänge
  • Neuronales Netzwerk: Verarbeitet bestimmte Merkmale

Encoder im Transformerfluss

Konzepte großer Sprachmodelle (LLMs)

Decoder

  • Beinhaltet Aufmerksamkeitsmechanismen und neuronale Netzwerke
  • Erzeugt die Ausgabe

Decoderteil eines Transformers

Konzepte großer Sprachmodelle (LLMs)

Transformer und Beziehungen zwischen weit entfernten Wörtern

 

  • Anfängliche Herausforderung: Beziehungen zwischen voneinander entfernten Wörtern
  • Aufmerksamkeitsmechanismus: setzt den Fokus auf verschiedene Teile der Eingabe

 

  • Beispiel: „Jane wohnt in New York und arbeitet als Softwareentwicklerin. Sie liebt es, neue Restaurants in der Stadt zu entdecken.“

  • „Jane“ --- „liebt es, neue Restaurants auszuprobieren“

Konzepte großer Sprachmodelle (LLMs)

Gleichzeitige Prozessierung mehrere Teile

  • Einschränkungen traditioneller Sprachmodelle:
    • Sequenziell – ein Wort nach dem anderen

 

  • Transformer:
    • Gleichzeitige Prozessierung mehrerer Teile
    • Schnellere Verarbeitung

 

  • Zum Beispiel:
    • „Die Katze saß auf der Matte.“
    • Verarbeitet „Katze“, „saß“, „auf“, „der“ und „Matte“ gleichzeitig
Konzepte großer Sprachmodelle (LLMs)

Lass uns üben!

Konzepte großer Sprachmodelle (LLMs)

Preparing Video For Download...