Zorgpunten en overwegingen rond data

Concepten van Large Language Models (LLMs)

Vidhi Chugh

AI strategist and ethicist

Data-overwegingen

 

Data-overwegingen

 

  • Datavolume en rekenkracht
  • Datakwaliteit
  • Labeling
  • Bias
  • Privacy
Concepten van Large Language Models (LLMs)

Datavolume en rekenkracht

  • LLM's hebben veel data nodig
    • Net als een kind dat leert praten
    • 570 GB, ~1,3 miljoen boeken

 

Kind leert praten

1 Freepik
Concepten van Large Language Models (LLMs)

Datavolume en rekenkracht

  • LLM's hebben veel data nodig
    • Net als een kind dat leert praten
    • 570 GB, ~1,3 miljoen boeken

 

  • Veel rekenkracht; let op het energieverbruik

 

  • Kan miljoenen dollars kosten!

Man werkt op een computer aangesloten op grote server

Concepten van Large Language Models (LLMs)

Datakwaliteit

  • Kwalitatieve data is cruciaal

 

  • Nauwkeurige data = beter leren = betere antwoorden = meer vertrouwen

 

  • Een kind dat leert praten
    • Onzin erin -> onzin eruit

lage kwaliteit output als we LLM's trainen met data vol fouten of slechte grammatica

Concepten van Large Language Models (LLMs)

Gelabelde data

  • Juiste label: beter leren, patronen generaliseren, nauwkeurige antwoorden

  • Arbeidsintensief: elk artikel juist labelen

Team dat data labelt achter computers

  • Foute labels schaden modelprestaties
  • Fouten aanpakken: vinden -> analyseren -> itereren
Concepten van Large Language Models (LLMs)

Databias

  • Beïnvloed door maatschappelijke stereotypen
  • Gebrek aan diversiteit in trainingsdata
  • Discriminatie en oneerlijke uitkomsten

 

  • Bias opsporen en aanpakken
    • Datadisbalans beoordelen
    • Diversiteit vergroten
    • Bias-mitigatie: meer diverse voorbeelden

Databias

  • Voorbeeld:

    • "The nurse said that..." -> "she" of "her"
Concepten van Large Language Models (LLMs)

Dataprivacy

  • Voldoen aan regels voor gegevensbescherming en privacy

 

  • Privacy is een zorg
    • Trainen op data zonder toestemming kan tot een datalek leiden
    • Juridische, financiële en reputatieschade
  • Gevoelige of persoonlijk identificeerbare info (PII)

 

  • Vraag toestemming

Dataprivacy

Concepten van Large Language Models (LLMs)

Laten we oefenen!

Concepten van Large Language Models (LLMs)

Preparing Video For Download...