Bedenken und weitere Überlegungen zu Daten

Konzepte großer Sprachmodelle (LLMs)

Vidhi Chugh

AI strategist and ethicist

Überlegungen zu Daten

 

Überlegungen zu Daten

 

  • Datenmenge und Rechenleistung
  • Datenqualität
  • Kennzeichnung
  • Vorurteile
  • Datenschutz
Konzepte großer Sprachmodelle (LLMs)

Datenmenge und Rechenleistung

  • LLMs brauchen sehr viele Daten.
    • So wie ein Kind, das sprechen lernt
    • 570 GB, ungefähr 1,3 Millionen Bücher

 

Kind lernt sprechen

1 Freepik
Konzepte großer Sprachmodelle (LLMs)

Datenmenge und Rechenleistung

  • LLMs brauchen sehr viele Daten.
    • So wie ein Kind, das sprechen lernt
    • 570 GB, ungefähr 1,3 Millionen Bücher

 

  • Viel Rechenleistung; hoher Energieverbrauch

 

  • Kann Millionen von Euro kosten!

Mann arbeitet an einem Computer, der an einen großen Server angeschlossen ist

Konzepte großer Sprachmodelle (LLMs)

Datenqualität

  • Qualitativ hochwertige Daten sind essenziell

 

  • Genaue Daten = besseres Lernen = bessere Antwortqualität = mehr Vertrauen

 

  • Ein Kind, das gerade sprechen lernt
    • Kauderwelsch rein -> Kauderwelsch raus

schlechte Ergebnisse, wenn wir LLMs mit Daten trainieren, die voller Fehler oder schlechter Grammatik sind

Konzepte großer Sprachmodelle (LLMs)

Gekennzeichnete Daten

  • Korrekte Datenkennzeichnung: korrektes Lernen, Muster verallgemeinern, genaue Antworten

  • Arbeitsintensiv: Jeden Artikel korrekt kennzeichnen

Team arbeitet am Computer, um Daten zu kennzeichnen

  • Falsche Kennzeichnungen beeinträchtigen die Leistung des Modells
  • Fehler beheben: Erkennen – Analysieren – Iterieren
Konzepte großer Sprachmodelle (LLMs)

Datenverzerrung

  • Beeinflusst von gesellschaftlichen Klischees
  • Mangelnde Vielfalt in den Trainingsdaten
  • Diskriminierung und unfaire Ergebnisse

 

  • Voreingenommene Daten erkennen und angehen
    • Datenungleichgewichte prüfen
    • Vielfalt fördern
    • Techniken zur Verringerung von Voreingenommenheit: Beispiele mit mehr Diversität

Data bias

  • Beispiel:

    • „Die Pflegekraft sagte, dass ...“ – „sie“ oder „er“
Konzepte großer Sprachmodelle (LLMs)

Datenschutz

  • Einhaltung der Datenschutzbestimmungen

 

  • Datenschutz ist kritisch
    • Das Training mit Daten ohne Erlaubnis kann zu einem Verstoß führen
    • Rechtliche, finanzielle und Reputationsschäden
  • Sensible personenbezogene Daten (PII)

 

  • Erlaubnis einholen

Data privacy

Konzepte großer Sprachmodelle (LLMs)

Lass uns üben!

Konzepte großer Sprachmodelle (LLMs)

Preparing Video For Download...