Perché gestire i dati mancanti?

Gestire i dati mancanti in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Perché esistono dati mancanti?

  • I dati reali sono disordinati

Lo sapevi? Il 72% delle organizzazioni ritiene che la scarsa qualità dei dati danneggi fiducia e percezione dei clienti.

1 [Top 9 Benefits of Data Cleansing for Businesses](https://bit.ly/2QwMrab)
Gestire i dati mancanti in Python

Perché esistono dati mancanti?

  • Valori persi durante l’acquisizione dati
    • Sensori meteo difettosi nell’analisi meteorologica
    • Informazioni paziente incomplete per diagnosi medica, ecc.
  • Valori eliminati per errore
    • Perdita di dati
    • Cancellati per errore umano
Gestire i dati mancanti in Python

In questo corso imparerai

  • l’importanza di trattare i valori mancanti
  • rilevare i valori mancanti nei tuoi dati disordinati
  • analizzare i tipi di missingness
  • trattare correttamente i valori mancanti per
    • numerici
    • serie temporali
    • categorici
Gestire i dati mancanti in Python

In questo corso imparerai

  • imputare (sostituire) i valori mancanti con tecniche semplici
  • imputare con tecniche avanzate
  • valutare il metodo migliore per trattare i valori mancanti
Gestire i dati mancanti in Python

Workflow per trattare i valori mancanti

  1. Converti tutti i valori mancanti in null.
  2. Analizza quantità e tipo di missingness nei dati.
  3. Elimina o imputa i valori mancanti in modo adeguato.
  4. Valuta e confronta le prestazioni del dataset trattato/imputato.
Gestire i dati mancanti in Python

Operazioni con valori NULL

None

None or True # Same for False
True
None + True # For all operators
TypeError: unsupported operand
None / 3 # For all operators
TypeError: unsupported operand
type(None)
NoneType

np.nan

import numpy as np
np.nan or True  # Same for False
nan
np.nan * True # For all operators
nan
np.nan - 3 # For all operators
nan
type(np.nan)
float
Gestire i dati mancanti in Python

Operazioni con valori NULL

None

None == None
True
np.isnan(None)
False

np.nan

np.nan == np.nan
False
np.isnan(np.nan)
True
Gestire i dati mancanti in Python

Passons à la pratique !

Gestire i dati mancanti in Python

Preparing Video For Download...