Zorgpunten en overwegingen rond data

Concepten van Large Language Models (LLMs)

Vidhi Chugh

AI strategist and ethicist

Data-overwegingen

Data-overwegingen

Datavolume en rekenkracht
Datakwaliteit
Labeling
Bias
Privacy

Datavolume en rekenkracht

LLM's hebben veel data nodig
- Net als een kind dat leert praten
- 570 GB, ~1,3 miljoen boeken

Kind leert praten

¹ Freepik

Datavolume en rekenkracht

LLM's hebben veel data nodig
- Net als een kind dat leert praten
- 570 GB, ~1,3 miljoen boeken

Veel rekenkracht; let op het energieverbruik

Kan miljoenen dollars kosten!

Man werkt op een computer aangesloten op grote server

Datakwaliteit

Kwalitatieve data is cruciaal

Nauwkeurige data = beter leren = betere antwoorden = meer vertrouwen

Een kind dat leert praten
- Onzin erin -> onzin eruit

lage kwaliteit output als we LLM's trainen met data vol fouten of slechte grammatica

Gelabelde data

Juiste label: beter leren, patronen generaliseren, nauwkeurige antwoorden
Arbeidsintensief: elk artikel juist labelen

Team dat data labelt achter computers

Foute labels schaden modelprestaties
Fouten aanpakken: vinden -> analyseren -> itereren

Databias

Beïnvloed door maatschappelijke stereotypen
Gebrek aan diversiteit in trainingsdata
Discriminatie en oneerlijke uitkomsten

Bias opsporen en aanpakken
- Datadisbalans beoordelen
- Diversiteit vergroten
- Bias-mitigatie: meer diverse voorbeelden

Databias

Voorbeeld:
- "The nurse said that..." -> "she" of "her"

Dataprivacy

Voldoen aan regels voor gegevensbescherming en privacy

Privacy is een zorg
- Trainen op data zonder toestemming kan tot een datalek leiden
- Juridische, financiële en reputatieschade

Gevoelige of persoonlijk identificeerbare info (PII)

Vraag toestemming

Dataprivacy

Laten we oefenen!

Concepten van Large Language Models (LLMs)

Preparing Video For Download...