Wat is datacleaning en -voorbereiding?

Data voorbereiden in Alteryx

Deanna Sanchez

Alteryx ACE and Owner, Nova Geographica LLC

Waarom is schone data belangrijk?

GIGO: "Garbage In, Garbage Out"

  • Data schoonmaken en voorbereiden zorgt dat je:
    • Fouten vermijdt en voorkomt
    • Data en formats standaardiseert
    • Productiviteit verhoogt
    • Sneller inzichten krijgt

Afbeelding van afval dat in en uit een database gaat

Data voorbereiden in Alteryx

Je data schoonmaken is als...

Je auto een beurt geven - Met schone onderdelen en verse vloeistoffen presteert je auto beter.

 

Monteur die een auto onderhoudt

Data voorbereiden in Alteryx

Voorbeelden van ‘vuile’ data

  • Ontbrekende of onvolledige data

Tabel met ontbrekende data, zoals lege cellen

Data voorbereiden in Alteryx

Voorbeelden van ‘vuile’ data

  • Ontbrekende of onvolledige data
  • Niet‑gestandaardiseerde of inconsistente data

Tabel met inconsistente data, zoals hoofdletters gemengd met titelkapitalisatie

Data voorbereiden in Alteryx

Voorbeelden van ‘vuile’ data

  • Ontbrekende of onvolledige data
  • Niet‑gestandaardiseerde of inconsistente data
  • Invoelfouten

Tabel met invoelfouten, zoals te veel cijfers

Data voorbereiden in Alteryx

Voorbeelden van ‘vuile’ data

  • Ontbrekende of onvolledige data
  • Niet‑gestandaardiseerde of inconsistente data
  • Invoelfouten
  • Spaties aan begin/einde en onnodige tekens of leestekens

Tabel met onnodige leestekens, zoals dollartekens bij numerieke data

Data voorbereiden in Alteryx

Technieken voor schone data

Ontbrekende data beheren

  • Markeer ontbrekende data door waarden te imputeren, zoals:
    • Null naar lege strings voor strings
    • Null naar 0 voor numeriek
  • Filter ontbrekende records uit de datastroom

Analisten die databestanden schoonmaken met een vergrootglas en bezem

Data voorbereiden in Alteryx

Technieken voor schone data

Standaardiseer data

  • Zorg voor juiste opmaak
    • $ toevoegen aan valuta
    • 000123456
  • Controleer naamgevingsconventies voor veld- en bestandsnamen
    • "filename_01012004.csv"
  • Pas hoofd-/kleine letters aan
    • LOCATION
  • Wijzig datatypes

Analist die data in de juiste mappen archiveert

Data voorbereiden in Alteryx

Technieken voor schone data

Verwijder onnodige items

  • Spaties aan begin/einde
  • Tabs en regeleinden
  • Overbodige rijen of kolommen
  • Onnodige leestekens, letters en cijfers

Bouwvakkers die databestanden schoonmaken

Data voorbereiden in Alteryx

Profile met kleurcodes

Kleurcodering in Results en Profile helpt bij het toepassen van datacleaning.

  • Groen = OK

OK-kleurprofiel

Data voorbereiden in Alteryx

Profile met kleurcodes

Kleurcodering in Results en Profile helpt bij het toepassen van datacleaning.

  • Groen = OK
  • Wit = Uniek

OK- en Uniek-kleurprofielen

Data voorbereiden in Alteryx

Profile met kleurcodes

Kleurcodering in Results en Profile helpt bij het toepassen van datacleaning.

  • Groen = OK
  • Wit = Uniek
  • Geel = Null

OK-, Uniek- en Null-kleurprofielen

Data voorbereiden in Alteryx

Profile met kleurcodes

Kleurcodering in Results en Profile helpt bij het toepassen van datacleaning.

  • Groen = OK
  • Wit = Uniek
  • Geel = Null
  • Rood = Niet OK (bv. spaties aan einde)

OK-, Uniek-, Null- en Niet OK-kleurprofielen

Data voorbereiden in Alteryx

Profile met kleurcodes

Kleurcodering in Results en Profile helpt bij het toepassen van datacleaning.

  • Groen = OK
  • Wit = Uniek
  • Geel = Null
  • Rood = Niet OK (bv. spaties aan einde)
  • Grijs = Leeg

Alle kleurprofielen

Data voorbereiden in Alteryx

Datatypes in Alteryx

Tabel met Booleaans datatype

  • Ken de verschillende datatypes
    • Wanneer en hoe te gebruiken
  • Vijf hoofdcategorieën
    • Boolean - binaire formats
Data voorbereiden in Alteryx

Datatypes in Alteryx

Tabel met Booleaans en Numeriek

  • Ken de verschillende datatypes
    • Wanneer en hoe te gebruiken
  • Vijf hoofdcategorieën
    • Boolean - binaire formats
    • Numeric - numerieke data, incl. Double
Data voorbereiden in Alteryx

Datatypes in Alteryx

Tabel met Boolean, Numeric en String

  • Ken de verschillende datatypes
    • Wanneer en hoe te gebruiken
  • Vijf hoofdcategorieën
    • Boolean - binaire formats
    • Numeric - numerieke data, incl. Double
    • String - tekstdata
1 String, variërend van String tot V_W String-typen.
Data voorbereiden in Alteryx

Datatypes in Alteryx

Tabel met vier datatypes: Boolean, Numeric, String en DateTime

  • Ken de verschillende datatypes
    • Wanneer en hoe te gebruiken
  • Vijf hoofdcategorieën
    • Boolean - binaire formats
    • Numeric - numerieke data, incl. Double
    • String - tekstdata
    • DateTime - datum- en tijddata
Data voorbereiden in Alteryx

Datatypes in Alteryx

Tabel met alle vijf hoofddatatypes

  • Ken de verschillende datatypes
    • Wanneer en hoe te gebruiken
  • Vijf hoofdcategorieën
    • Boolean - binaire formats
    • Numeric - numerieke data, incl. Double
    • String - tekstdata
    • DateTime - datum- en tijddata
    • Spatial - ruimtelijke objecten en punten
Data voorbereiden in Alteryx

Datasetdetails

  • Alteryx hands-on oefeningen:
    • New York City Property Sales
    • Eén dataset voor alle oefeningen
    • Analyse van hoogste verkopen

Skyline van New York City

Data voorbereiden in Alteryx

Laten we oefenen!

Data voorbereiden in Alteryx

Preparing Video For Download...