Best practice per la validazione dei dati

Gestione responsabile dei dati per l'AI

Maria Prokofieva

Lead ML engineer

Cosa vedremo

  • Analisi per sottogruppi
  • Valori mancanti
  • Rimozione outlier
  • Correzione di incoerenze nei dati
  • Feature scaling
  • Feature encoding
  • Riduzione dimensionale
Gestione responsabile dei dati per l'AI

Analisi per sottogruppi

Fase 1: Dividi in sottogruppi in base a caratteristiche protette

Fase 2: Valuta la distribuzione statistica e le prestazioni del modello per ogni sottogruppo

Fase 3: Valuta le metriche di equità del modello per ogni sottogruppo

Fase 4: Applica strategie di mitigazione

Gestione responsabile dei dati per l'AI

Dati mancanti

  • Comune nei dataset grandi
  • Eliminazione dati
  • Strategie di imputazione e approcci basati su modelli
  • Analisi per sottogruppi per validazione

dati mancanti

Gestione responsabile dei dati per l'AI

Rimozione outlier

  • Metodi statistici come z-score e IQR, o scaling robusto
  • Valida l'equità tra segmenti di dati

rimozione outlier

Gestione responsabile dei dati per l'AI

Incoerenze nei dati

  • Qualità dei dati influisce su integrità e affidabilità del modello
  • Standardizzazione e regole di validazione
  • Normalizzazione per sottogruppi
Gestione responsabile dei dati per l'AI

Feature scaling

  • Feature scaling per trasformare le variabili in input
  • Valida controllando le distribuzioni tra gruppi

scaling delle feature

Gestione responsabile dei dati per l'AI

Feature encoding

  • Valuta l'effetto della codifica sugli output
  • Controlla bias e perdita di informazione
  • Verifica overfitting
  • Usa regolarizzazione e riduzione dimensionale
Gestione responsabile dei dati per l'AI

Riduzione dimensionale

  • Riduci le feature in input preservando le info essenziali
  • Può introdurre bias
  • Usa tecniche attente all'equità come t-SNE

riduzione dimensionale

Gestione responsabile dei dati per l'AI

Consulente finanziario

  • Feature "Reddito annuo" e "Frequenza investimenti"
  • Correggi outlier e scala
  • Analisi per sottogruppi

rimozione outlier

Gestione responsabile dei dati per l'AI

Vamos praticar!

Gestione responsabile dei dati per l'AI

Preparing Video For Download...