Fine-tuning

Konzepte großer Sprachmodelle (LLMs)

Vidhi Chugh

AI strategist and ethicist

In welchem Abschnitt befinden wir uns?

Fortschrittsdiagramm, das zeigt, dass wir die Feinabstimmungsphase erreicht haben

Konzepte großer Sprachmodelle (LLMs)

 

  • Pre-Training

Ein Bild, das Schulkinder als Analogie zum Vortraining zeigt

          School education

 

  • Fine-tuning

Ein Bild, das Studenten als Feinabstimmungsanalogie zeigt

        University specialization
1 Freepik
Konzepte großer Sprachmodelle (LLMs)

„Größe“ ist eine Herausforderung

  • Fine-Tuning kann helfen
  • Leistungsstarke Computer
  • Effiziente Methoden zum Trainieren von Modellen
  • Viele Trainingsdaten

Ein Bild, das zeigt, wie die Verfügbarkeit von Daten, Trainingszeit und Rechenleistung die Herausforderungen beim Aufbau von LLMs sind

Konzepte großer Sprachmodelle (LLMs)

Rechenleistung

  • Speicher

  • Rechenleistung

  • Infrastruktur

  • Teuer

  • LLM:
    • Hundertausende CPUs
    • Zehntausende Grafikprozessoren (GPUs)
  • Ein PC: 4–8 CPUs und 1–2 GPUs

Mann arbeitet an einem Computer, der an einen großen Server angeschlossen ist

1 Freepik
Konzepte großer Sprachmodelle (LLMs)

Effizientes Modelltraining

Bild, das ein Deep-Learning-Modell zeigt

  • Die Trainingszeit ist immens

 

  • Kann Wochen oder sogar Monate dauern

 

  • Effizientes Modelltraining = kürzere Trainingszeit

 

  • 355 Jahre Rechenzeit auf einer einzigen GPU
Konzepte großer Sprachmodelle (LLMs)

Verfügbarkeit von Daten

 

  • Bedarf an hochwertigen Daten
  • Um die Komplexität und Feinheiten der Sprache zu lernen
  • Einige hundert Gigabyte (GB) Textdaten

    • Über eine Million Bücher
  • Riesige Datenmenge

  Zwei Stapel überquellender Ordner, die riesige Datenmengen zeigen

Konzepte großer Sprachmodelle (LLMs)

Die Herausforderungen meistern

  • Fine-tuning
    • Geht einige dieser Herausforderungen an
    • Passt ein vortrainiertes Modell an

 

  • Vortrainiertes Modell
    • Hat aus allgemeinen Datensätzen gelernt
    • Nicht für bestimmte Aufgaben optimiert
    • Kann genau auf ein bestimmtes Problem abgestimmt werden

Leute, die an einem riesigen Laptop arbeiten, mit Werkzeugen und Geräten, die für Feinabstimmung stehen

Konzepte großer Sprachmodelle (LLMs)

Fine-Tuning vs. Pre-Training

  • Fine-tuning

  • Rechenleistung

    • 1-2 CPU und GPU

 

  • Trainingszeit
    • Stunden bis Tage

 

  • Daten
    • ~1 Gigabyte
  • Pre-Training

  • Rechenleistung

    • Tausende von CPUs und GPUs

 

  • Trainingszeit
    • Wochen bis Monate

 

  • Daten
    • Hunderte von Gigabyte
Konzepte großer Sprachmodelle (LLMs)

Lass uns üben!

Konzepte großer Sprachmodelle (LLMs)

Preparing Video For Download...