Problemi comuni con i dati

Introduzione alla Data Literacy (alfabetizzazione dei dati)

Jess Ahmet

Content Developer, DataCamp

Dati sporchi

  • I dati sporchi sono:

    • Errati
    • Incompleti
    • Inconsistenti
  • Causati da errori umani, problemi tecnici o da problemi durante la fase di raccolta dei dati

  • Principio “garbage in, garbage out”: i dati sporchi possono portare a conclusioni sbagliate

Finestra sporca

Introduzione alla Data Literacy (alfabetizzazione dei dati)

Errori nei dati

  • I dati sono errati o incoerenti
  • Causati solitamente da un errore umano o tecnico nella registrazione del valore o del formato
  • Tecniche per evitarli:
    • Se il valore originale o il formato valido sono noti: dati corretti
    • Se non sono noti: scartare i dati

Puzzle con il pezzo sbagliato

Introduzione alla Data Literacy (alfabetizzazione dei dati)

Dati mancanti

  • I dati sono incompleti
  • Problematico se:
    • Mancano molti dati
    • I dati mancanti presentano dei pattern nascosti
  • Tecniche per evitarli:
    • Eliminazione dei dati
    • Imputazione

Puzzle con pezzo mancante

Introduzione alla Data Literacy (alfabetizzazione dei dati)

Data bias

  • I bias della società possono riflettersi in data bias (dati distorti)
  • Portano a dati e a risultati non rappresentativi
  • Difficili da individuare e risolvere
  • Tecniche per evitarli:
    • Un valido processo di raccolta dati
    • Consapevolezza nelle conclusioni
    • Modelli di intelligenza artificiale spiegabili

Puzzle grigio con pezzi bianchi lasciati fuori

Introduzione alla Data Literacy (alfabetizzazione dei dati)

Pulizia dei dati

  • Insieme di tecniche per contrastare i problemi di dati
  • Importante fase di preparazione per qualsiasi analisi dei dati
  • Ma non tutti i problemi di dati sono (completamente) risolvibili
  • È sempre possibile fare un qualche tipo di analisi

Mano con guanto e flacone spray

Introduzione alla Data Literacy (alfabetizzazione dei dati)

Passiamo alla pratica!

Introduzione alla Data Literacy (alfabetizzazione dei dati)

Preparing Video For Download...