Dati mancanti e imputazione

Introduzione a Python in Power BI

Jacob H. Marquez

Data Scientist

Cosa sono i dati mancanti?

Valori comuni per "mancante":

  • null
  • NA
  • 99
  • ""
Introduzione a Python in Power BI

Cosa sono i dati mancanti?

Valori comuni per "mancante":

  • null
  • NA
  • 99
  • ""
entity year fished
Australia 1988 153148
Australia 1989 null
Australia 1990 567895
Australia 1991 632987
Australia 1992 643578
Australia 1993 null
Introduzione a Python in Power BI

Perché mancano i dati?

  • Un partecipante ha dimenticato o rifiutato di rispondere a un sondaggio
  • Un partecipante ha abbandonato la seconda parte di uno studio
  • C'è stato un problema nello strumento di misura
  • Le leggi sulla privacy limitano l'uso dei dati
Introduzione a Python in Power BI

È mancante a caso?

Missing at random

Tabella delle piogge, in pollici, in tre città: Seattle, New York e Parigi.

Introduzione a Python in Power BI

È mancante a caso?

Missing not at random

Tabella delle piogge, in pollici, in tre città: Seattle, New York e Parigi. Una riga di Seattle è mancante.

Introduzione a Python in Power BI

È mancante a caso?

Missing not at random

Tabella delle piogge, in pollici, in tre città: Seattle, New York e Parigi. Una riga di Seattle è mancante.

  • Lo strumento non rileva valori bassi
  • Alcuni gruppi tendono a non divulgare informazioni
Introduzione a Python in Power BI

Come gestire i dati mancanti?

Missing not at random

  • Metti in pausa l'analisi
  • Capisci perché mancano i dati
  • Raccogli più dati
  • Documenta chiaramente limiti e assunzioni

Missing at random

  • Elimina le osservazioni
  • Aggiungi una variabile indicatrice: mancante=1, altrimenti=0
  • Imputazione
Introduzione a Python in Power BI

Imputazione

Definizione: sostituire un valore mancante con un altro.

Tipi di imputazione:

  • Media
  • Mediana
  • Moda
  • Valore precedente o successivo

Meglio quando manca ≤5% dei dati della colonna.

Ricorda di ordinare i valori!

Introduzione a Python in Power BI

Imputazione - Esempio

Missing at random

Tabella delle piogge, in pollici, in tre città: Seattle, New York e Parigi, con osservazioni mancanti.

Imputazione con mediana

Tabella delle piogge, in pollici, in tre città: Seattle, New York e Parigi. Mancanze riempite con la mediana per città.

Introduzione a Python in Power BI

Dataset

Invoice StockCode Description Quantity InvoiceDate Price Customer ID
506303 PADS PADS TO MATCH ALL CUSHIONS 1 4/29/2010 10:43:00 AM 0.001 14249
496725 M Manual 1 2/3/2010 2:16:00 PM 1.5 13619
502660 M Manual 6 3/25/2010 5:18:00 PM 1.5 13187
509669 90214S LETTER "S" BLING KEY RING 10 12/13/2009 3:54:00 PM 1.25 16725
Introduzione a Python in Power BI

¡Vamos a practicar!

Introduzione a Python in Power BI

Preparing Video For Download...