Ridurre i bias nella raccolta dati

Conquering Data Bias

Konstantinos Kattidis

Data Analytics Lead

Identificare i bias nella raccolta dati

  • Bias di selezione, bias storico e bias di misurazione
  • Capirli crea consapevolezza, permettendo a chi lavora sui dati di individuarli e agire in modo proattivo

Confronto tra due analisi

  • La sensitivity analysis esplora come ipotesi diverse, sottogruppi alternativi o pesature influenzano i risultati
  • La validazione esterna confronta i dati con fonti indipendenti per verificarne coerenza e accuratezza
Conquering Data Bias

Campionamento casuale e stratificato

Diagramma su campionamento casuale e stratificato

  • È importante scegliere una tecnica di campionamento adeguata
  • Il campionamento casuale seleziona individui o punti dati a caso dalla popolazione
  • Il campionamento stratificato divide la popolazione in sottogruppi e campiona da ciascuno
Conquering Data Bias

Bilanciare la rappresentanza dei sottogruppi

Diagramma con undersampling e oversampling

  • L’oversampling aumenta deliberatamente la rappresentanza di alcuni gruppi o classi per bilanciare la distribuzione
  • L’undersampling riduce i gruppi sovrarappresentati per ottenere un dataset più bilanciato
  • Il weighting assegna pesi diversi alle osservazioni in base all’importanza, compensando squilibri nel campione
Conquering Data Bias

Data augmentation

  • Per il bias storico, questa tecnica arricchisce il dataset con ulteriori dati
  • L’obiettivo è coprire periodi o eventi sottorappresentati
  • Include:
    • Colmare i vuoti
    • Diversificare le prospettive
    • Aggiornare e correggere errori

Puzzle che riempie i vuoti

Conquering Data Bias

Pratiche di misurazione dei dati

Quattro pratiche di misurazione dei dati

  • Standardizzazione di strumenti e protocolli di misura
  • Formazione e calibrazione dei rilevatori
  • I pilot test valutano accuratezza e coerenza delle procedure di raccolta
  • Verifiche di qualità regolari e automazione migliorano ulteriormente la qualità dei dati
Conquering Data Bias

Monitoraggio e aggiustamenti continui

Cruscotto di monitoraggio dati

  • Monitoraggio continuo e aggiustamenti sono essenziali per affrontare nuovi bias
  • Revisioni periodiche delle metriche di qualità dei dati
  • Valutazioni dei bias
  • Consentono l’identificazione immediata dei bias
Conquering Data Bias

Passons à la pratique !

Conquering Data Bias

Preparing Video For Download...