Ridurre i bias nella raccolta dati

Conquering Data Bias

Konstantinos Kattidis

Data Analytics Lead

Identificare i bias nella raccolta dati

Bias di selezione, bias storico e bias di misurazione
Capirli crea consapevolezza, permettendo a chi lavora sui dati di individuarli e agire in modo proattivo

Confronto tra due analisi

La sensitivity analysis esplora come ipotesi diverse, sottogruppi alternativi o pesature influenzano i risultati
La validazione esterna confronta i dati con fonti indipendenti per verificarne coerenza e accuratezza

Campionamento casuale e stratificato

Diagramma su campionamento casuale e stratificato

È importante scegliere una tecnica di campionamento adeguata
Il campionamento casuale seleziona individui o punti dati a caso dalla popolazione
Il campionamento stratificato divide la popolazione in sottogruppi e campiona da ciascuno

Bilanciare la rappresentanza dei sottogruppi

Diagramma con undersampling e oversampling

L’oversampling aumenta deliberatamente la rappresentanza di alcuni gruppi o classi per bilanciare la distribuzione
L’undersampling riduce i gruppi sovrarappresentati per ottenere un dataset più bilanciato
Il weighting assegna pesi diversi alle osservazioni in base all’importanza, compensando squilibri nel campione

Data augmentation

Per il bias storico, questa tecnica arricchisce il dataset con ulteriori dati
L’obiettivo è coprire periodi o eventi sottorappresentati
Include:
- Colmare i vuoti
- Diversificare le prospettive
- Aggiornare e correggere errori

Puzzle che riempie i vuoti

Pratiche di misurazione dei dati

Quattro pratiche di misurazione dei dati

Standardizzazione di strumenti e protocolli di misura
Formazione e calibrazione dei rilevatori
I pilot test valutano accuratezza e coerenza delle procedure di raccolta
Verifiche di qualità regolari e automazione migliorano ulteriormente la qualità dei dati

Monitoraggio e aggiustamenti continui

Cruscotto di monitoraggio dati

Monitoraggio continuo e aggiustamenti sono essenziali per affrontare nuovi bias
Revisioni periodiche delle metriche di qualità dei dati
Valutazioni dei bias
Consentono l’identificazione immediata dei bias

Passons à la pratique !

Conquering Data Bias

Preparing Video For Download...