Waarom omgaan met missende data?

Omgaan met ontbrekende gegevens in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Waarom bestaat missende data?

  • Data uit de praktijk is rommelig

Wist je dat 72% van de organisaties vindt dat datakwaliteit het klantvertrouwen schaadt?

1 [Top 9 Benefits of Data Cleansing for Businesses](https://bit.ly/2QwMrab)
Omgaan met ontbrekende gegevens in Python

Waarom bestaat missende data?

  • Waarden gemist tijdens data-acquisitie
    • Defecte weersensoren bij weermanalyse
    • Onvolledige patiëntinfo voor medische diagnose, enz.
  • Waarden per ongeluk verwijderd
    • Datalek/verlies
    • Per vergissing gewist door menselijk fout
Omgaan met ontbrekende gegevens in Python

In deze course leer je

  • het belang van het behandelen van missende waarden
  • missende waarden detecteren in rommelige data
  • types ontbrekendheid analyseren
  • missende waarden passend behandelen voor
    • numeriek
    • tijdreeksen
    • categorische waarden
Omgaan met ontbrekende gegevens in Python

In deze course leer je

  • missende waarden imputeren (vervangen) met simpele technieken
  • imputeren met geavanceerde technieken
  • uiteindelijk de beste behandeloptie evalueren
Omgaan met ontbrekende gegevens in Python

Workflow voor missende waarden

  1. Zet alle missende waarden om naar null.
  2. Analyseer hoeveelheid en type ontbrekendheid.
  3. Verwijder of imputeer missende waarden passend.
  4. Evalueer en vergelijk de prestaties van de behandelde/geïmputeerde dataset.
Omgaan met ontbrekende gegevens in Python

Operaties met NULL-waarden

None

None or True # Same for False
True
None + True # For all operators
TypeError: unsupported operand
None / 3 # For all operators
TypeError: unsupported operand
type(None)
NoneType

np.nan

import numpy as np
np.nan or True  # Same for False
nan
np.nan * True # For all operators
nan
np.nan - 3 # For all operators
nan
type(np.nan)
float
Omgaan met ontbrekende gegevens in Python

Operaties met NULL-waarden

None

None == None
True
np.isnan(None)
False

np.nan

np.nan == np.nan
False
np.isnan(np.nan)
True
Omgaan met ontbrekende gegevens in Python

Laten we oefenen!

Omgaan met ontbrekende gegevens in Python

Preparing Video For Download...