Allgemeiner Überblick über maschinelle Sprachverarbeitung (NLP)

Konzepte großer Sprachmodelle (LLMs)

Vidhi Chugh

AI strategist and ethicist

In welchem Abschnitt befinden wir uns?

Fortschrittsdiagramm, das den ersten Schritt zeigt, also die Textvorverarbeitung

Konzepte großer Sprachmodelle (LLMs)

Vorverarbeitung von Text

  • Kann in anderen Reihenfolge durchgeführt werden, weil sie unabhängig voneinander sind

Die drei häufigsten Schritte bei der Textvorverarbeitung

Konzepte großer Sprachmodelle (LLMs)

Tokenisierung

  • Teilt den Text in einzelne Wörter oder Token auf

 

  • Text:

    • „Die Arbeit mit Techniken der natürlichen Sprachverarbeitung ist herausfordernd“.

     

  • Tokenisierung:

    • [„Die“, „Arbeit“, „mit“, „Techniken“, „der“, „natürlichen“, „Sprachverarbeitung“, „ist“, „herausfordernd“, „.“]
    • Wird in eine Liste umgewandelt
Konzepte großer Sprachmodelle (LLMs)

Stoppwort-Entfernung

  • Stoppwörter bringen keine zusätzliche Bedeutung
  • Durch das Entfernen von Stoppwörtern herausgefiltert

 

  • Vor dem Entfernen der Stoppwörter:
    • [„Die“, „Arbeit“, „mit“, „Techniken“, „der“, „natürlichen“, „Sprachverarbeitung“, „ist“, „herausfordernd“, „.“]

 

  • Nach dem Entfernen der Stoppwörter:
    • [„Arbeit“, „Techniken“, „natürlichen“, „Sprachverarbeitung“, „herausfordernd“, "."]
Konzepte großer Sprachmodelle (LLMs)

Lemmatisierung

 

  • Gruppiert Wörter, die sich etwas unterscheiden, aber eine ähnliche Bedeutung haben

 

  • Reduziert Wörter auf ihre Grundform

 

  • Zuordnung zum Wortstamm

 

  • Fahrt -> Fahren

  • Fahrrad -> Fahren

  • Umfahren -> Fahren

Konzepte großer Sprachmodelle (LLMs)

Textrepräsentation

Fortschrittsdiagramm, das zeigt, dass wir die Textdarstellungsphase erreicht haben

Konzepte großer Sprachmodelle (LLMs)

Textrepräsentation

 

  • Textdaten in numerischer Form

 

  • Bag of Words
  • Worteinbettungen

Bild, das Sprache als Zahlen darstellt

Konzepte großer Sprachmodelle (LLMs)

Bag of Words

 

  • Text in einer Matrix mit Worthäufigkeiten

Eine Matrix mit einer Bag-of-Words-Darstellung

  • 0 bedeutet, dass das Wort nicht vorkommt.
Konzepte großer Sprachmodelle (LLMs)

Einschränkungen von Bag of Words

  • Erfasst weder die Reihenfolge noch den Kontext

    • Kann zu falschen Interpretationen führen
    • Ähnliche Sätze, aber mit entgegengesetzter Bedeutung
      • „Die Katze hat die Maus schnell gejagt.“
      • „Die Maus hat die Katze gejagt.“
  • Erfasst die Bedeutung zwischen den Wörtern nicht

    • Behandelt verwandte Wörter als eigenständig
    • Wie „Katze“ und „Maus“
Konzepte großer Sprachmodelle (LLMs)

Worteinbettungen

  • Die semantische Bedeutungen als Zahlen erfassen

 

Katze Maus
Pflanze -0,9 -0,8
Pelztiere 0,9 0,7
Fleischfresser 0,9 -0,8

 

  • Katze [-0,9; 0,9; 0,9]
  • Beziehung zwischen Raubtier und Beute:

Wort-Embeddings für Raubtier-Beute-Beziehungen

Konzepte großer Sprachmodelle (LLMs)

Maschinenlesbares Format

 

  • Beginnt mit der Textvorverarbeitung

Workflow zur Datenaufbereitung

Konzepte großer Sprachmodelle (LLMs)

Maschinenlesbares Format

 

  • Wandelt den vorverarbeiteten Text in ein numerisches Format um

Workflow zur Datenvorbereitung mit Schritten zur Textdarstellung

Konzepte großer Sprachmodelle (LLMs)

Lass uns üben!

Konzepte großer Sprachmodelle (LLMs)

Preparing Video For Download...