Ridurre i bias nella raccolta dati
Conquering Data Bias
Konstantinos Kattidis
Data Analytics Lead
Identificare i bias nella raccolta dati
- Bias di selezione, bias storico e bias di misurazione
- Capirli crea consapevolezza, permettendo a chi lavora sui dati di individuarli e agire in modo proattivo

- La sensitivity analysis esplora come ipotesi diverse, sottogruppi alternativi o pesature influenzano i risultati
- La validazione esterna confronta i dati con fonti indipendenti per verificarne coerenza e accuratezza
Campionamento casuale e stratificato
- È importante scegliere una tecnica di campionamento adeguata
- Il campionamento casuale seleziona individui o punti dati a caso dalla popolazione
- Il campionamento stratificato divide la popolazione in sottogruppi e campiona da ciascuno
Bilanciare la rappresentanza dei sottogruppi
- L’oversampling aumenta deliberatamente la rappresentanza di alcuni gruppi o classi per bilanciare la distribuzione
- L’undersampling riduce i gruppi sovrarappresentati per ottenere un dataset più bilanciato
- Il weighting assegna pesi diversi alle osservazioni in base all’importanza, compensando squilibri nel campione
Data augmentation
- Per il bias storico, questa tecnica arricchisce il dataset con ulteriori dati
- L’obiettivo è coprire periodi o eventi sottorappresentati
- Include:
- Colmare i vuoti
- Diversificare le prospettive
- Aggiornare e correggere errori
Pratiche di misurazione dei dati

- Standardizzazione di strumenti e protocolli di misura
- Formazione e calibrazione dei rilevatori
- I pilot test valutano accuratezza e coerenza delle procedure di raccolta
- Verifiche di qualità regolari e automazione migliorano ulteriormente la qualità dei dati
Monitoraggio e aggiustamenti continui
- Monitoraggio continuo e aggiustamenti sono essenziali per affrontare nuovi bias
- Revisioni periodiche delle metriche di qualità dei dati
- Valutazioni dei bias
- Consentono l’identificazione immediata dei bias
Passons à la pratique !
Conquering Data Bias
Preparing Video For Download...