Preoccupazioni e considerazioni sui dati

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Considerazioni sui dati

Considerazioni sui dati

Volume dei dati e potenza di calcolo
Qualità dei dati
Etichettatura
Bias
Privacy

Volume dei dati e potenza di calcolo

Gli LLM richiedono molti dati
- Come un bambino che impara a parlare
- 570 GB, ~1,3 milioni di libri

Bambino che impara a parlare

¹ Freepik

Volume dei dati e potenza di calcolo

Gli LLM richiedono molti dati
- Come un bambino che impara a parlare
- 570 GB, ~1,3 milioni di libri

Grande potenza di calcolo; considera il consumo energetico

Può costare milioni di dollari!

Uomo al computer collegato a grandi server

Qualità dei dati

Dati di qualità sono essenziali

Dati accurati = migliore apprendimento = risposte migliori = più fiducia

Un bambino che impara a parlare
- Spazzatura in -> spazzatura fuori

output di bassa qualità se alleniamo LLM con dati pieni di errori o grammatica scarsa

Dati etichettati

Etichetta corretta: apprendimento accurato, generalizza schemi, risposte precise
Lavoro intenso: assegnare l'etichetta giusta a ogni articolo

Team che etichetta dati al computer

Etichette errate riducono le prestazioni del modello
Correggi gli errori: identifica -> analizza -> itera

Bias nei dati

Influenzati da stereotipi sociali
Scarsa diversità nei dati di training
Discriminazioni e risultati non equi

Individua e gestisci i bias nei dati
- Valuta gli squilibri
- Promuovi la diversità
- Tecniche di mitigazione: esempi più diversificati

Bias nei dati

Esempio:
- "L'infermiere ha detto che..." -> "lei" o "sua"

Privacy dei dati

Conformità a norme su protezione e privacy dei dati

La privacy conta
- Addestrare su dati senza permesso può violare la privacy
- Rischi legali, finanziari e reputazionali

Dati sensibili o identificabili (PII)

Ottieni il consenso

Privacy dei dati

Passons à la pratique !

Concetti sui Large Language Models (LLM)

Preparing Video For Download...