Preoccupazioni e considerazioni sui dati

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Considerazioni sui dati

 

Considerazioni sui dati

 

  • Volume dei dati e potenza di calcolo
  • Qualità dei dati
  • Etichettatura
  • Bias
  • Privacy
Concetti sui Large Language Models (LLM)

Volume dei dati e potenza di calcolo

  • Gli LLM richiedono molti dati
    • Come un bambino che impara a parlare
    • 570 GB, ~1,3 milioni di libri

 

Bambino che impara a parlare

1 Freepik
Concetti sui Large Language Models (LLM)

Volume dei dati e potenza di calcolo

  • Gli LLM richiedono molti dati
    • Come un bambino che impara a parlare
    • 570 GB, ~1,3 milioni di libri

 

  • Grande potenza di calcolo; considera il consumo energetico

 

  • Può costare milioni di dollari!

Uomo al computer collegato a grandi server

Concetti sui Large Language Models (LLM)

Qualità dei dati

  • Dati di qualità sono essenziali

 

  • Dati accurati = migliore apprendimento = risposte migliori = più fiducia

 

  • Un bambino che impara a parlare
    • Spazzatura in -> spazzatura fuori

output di bassa qualità se alleniamo LLM con dati pieni di errori o grammatica scarsa

Concetti sui Large Language Models (LLM)

Dati etichettati

  • Etichetta corretta: apprendimento accurato, generalizza schemi, risposte precise

  • Lavoro intenso: assegnare l'etichetta giusta a ogni articolo

Team che etichetta dati al computer

  • Etichette errate riducono le prestazioni del modello
  • Correggi gli errori: identifica -> analizza -> itera
Concetti sui Large Language Models (LLM)

Bias nei dati

  • Influenzati da stereotipi sociali
  • Scarsa diversità nei dati di training
  • Discriminazioni e risultati non equi

 

  • Individua e gestisci i bias nei dati
    • Valuta gli squilibri
    • Promuovi la diversità
    • Tecniche di mitigazione: esempi più diversificati

Bias nei dati

  • Esempio:

    • "L'infermiere ha detto che..." -> "lei" o "sua"
Concetti sui Large Language Models (LLM)

Privacy dei dati

  • Conformità a norme su protezione e privacy dei dati

 

  • La privacy conta
    • Addestrare su dati senza permesso può violare la privacy
    • Rischi legali, finanziari e reputazionali
  • Dati sensibili o identificabili (PII)

 

  • Ottieni il consenso

Privacy dei dati

Concetti sui Large Language Models (LLM)

Passons à la pratique !

Concetti sui Large Language Models (LLM)

Preparing Video For Download...