Erweitertes Finetuning

Konzepte großer Sprachmodelle (LLMs)

Vidhi Chugh

AI strategist and ethicist

In welchem Abschnitt befinden wir uns?

Fortschrittsbild, das zeigt, dass wir uns in der Phase der erweiterten Feinabstimmung befinden

Konzepte großer Sprachmodelle (LLMs)

Verstärkendes Lernen durch menschliches Feedback

 

  • Pre-training

 

  • Fine-tuning / Feinabstimmung

 

  • Bestärkendes Lernen durch menschliches Feedback (RLHF)

 

Bild von vier Leuten, die mit Emojis und Sternen positives Feedback geben.

Konzepte großer Sprachmodelle (LLMs)

Pre-Training

  • Viele Textdaten:
    • Websites, Bücher und Artikel
    • Transformerarchitektur
    • Lernt allgemeine Sprachmuster, Grammatik und Fakten

 

  • Vorhersage des nächsten Wortes
  • Maskierte Sprachmodellierung

Vorbereitungsprozess zum Aufbau von LLMs

1 Freepik
Konzepte großer Sprachmodelle (LLMs)

Fine-tuning

 

  • N-Shot-Training

 

  • Kleiner gekennzeichneter Datensatz für eine ähnliche Aufgabe

Der Prozess des Fine-tuning

Konzepte großer Sprachmodelle (LLMs)

Weshalb RLHF nutzen?

  • Allgemeinen Trainingsdaten: schlechte Qualität
    • Rauschen / Lärm
    • Fehler
    • Unstimmigkeiten
    • Geringe Genauigkeit

Beispiel für geringe Genauigkeit:

  • Trainingsdaten aus Online-Diskussionsforen
  • Unüberprüfte Meinungen und Fakten
  • Benötigen Prüfung durch externen Experten

 

Zielscheibe mit Pfeilen, die nicht ins Schwarze getroffen haben

Konzepte großer Sprachmodelle (LLMs)

Noch ein bisschen besser werden

  • Pre-training
    • Lernt grundlegende Sprachmuster
    • Erfasst keine kontextspezifischen Komplexitäten

 

  • Fine-tuning / Feinabstimmung
    • Qualitätsgesicherte Daten verbessern die Leistung

 

  • RLHF betritt den Raum!
    • Menschliches Feedback
Konzepte großer Sprachmodelle (LLMs)

Vereinfacht: Bestärkendes Lernen durch menschliches Feedback (RLHF)

 

  • Überprüfung der Modellausgabe durch Menschen
  • Aktualisierung des Modells anhand des Feedbacks

 

  • Schritt 1:
    • Erhält einen Prompt
    • Erzeugt mehrere Antworten

 

 

Ein LLM, das eine Eingabeaufforderung verarbeitet und eine Antwort generiert

Konzepte großer Sprachmodelle (LLMs)

Der menschlicher Experte betritt den Raum

 

  • Schritt 2:
    • Menschliche Experten prüfen diese Antworten
    • Sortierung der Antworten nach Qualität
      • Genauigkeit
      • Relevanz
      • Kohärenz

Hinzufügen einer menschlichen Überprüfung zur Antwort von LLMs

Konzepte großer Sprachmodelle (LLMs)

Zeit für Feedback

  • Schritt 3:
    • Lernen aus dem Ranking von Experten
    • Um die Antwort zukünftig an Präferenzen auszurichten

 

  • Es geht ständig weiter!
    • LLM generiert Antworten
    • Erhält Expertenbewertungen
    • Passt das Lernen an

 

 

Die menschliche Reaktion wird an das LLM zurückgemeldet.

Konzepte großer Sprachmodelle (LLMs)

Zusammenfassung

  • Pre-Training zum Erlernen allgemeiner Sprachkenntnisse

 

  • Fine-Tuning für bestimmte Aufgaben

 

  • RLHF-Techniken zur Verbesserung des Fine-Tuning durch menschliches Feedback

 

  • Eine hochgradig effektive Kombination!
Konzepte großer Sprachmodelle (LLMs)

Abschluss des LLM Trainingsprozesses

Der ganze LLM-Ausbildungsprozess

Konzepte großer Sprachmodelle (LLMs)

Lass uns üben!

Konzepte großer Sprachmodelle (LLMs)

Preparing Video For Download...