Gegevens opschonen

Concepten van datawarehousing

Aaren Stubberfield

Data Scientist

Video-agenda

  • Revisie van gegevensformaten
  • Adressen parseren
  • Gegevensvalidatie
  • Duplicaten verwijderen
Concepten van datawarehousing

Gegevensformaat opschonen

  • Waarden naar het verwachte formaat bijwerken
    • Datums
    • Namen van opties
    • Hoofd-/kleine letters
  • Zorgt voor een consistent formaat

Voorbeeld taxigegevens

Twee tabellen samengevoegd tot één

Concepten van datawarehousing

Adressen parseren

  • Een straatadres opsplitsen in onderdelen
  • Tools kunnen adressen valideren
Adres
1234 S Normal St, Cleveland, OH 44102
Adres Stad Staat Postcode
1234 S Normal St Cleveland OH 44102
Concepten van datawarehousing

Gegevensvalidatie

  • Bereikcontrole
    • Staat de waarde binnen het verwachte bereik?
    • Voorbeeld: de leeftijd van een persoon
  • Typecontrole
    • Heeft de waarde het juiste datatype?
    • Voorbeeld: leeftijd als string vs getal opslaan

Tabel met Age waarbij de eerste rij 300 is, gemarkeerd als ongeldig.

Tabel met drie kolommen met Age als eerste kolom, als datatype string, gemarkeerd als ongeldig.

Concepten van datawarehousing

Dubbele rijen verwijderen

  • Dit proces verwijdert dubbele rijen

afbeelding van twee tabellen met twee kolommen die samengevoegd worden

de uiteindelijke samengevoegde tabel zonder de dubbele rij

Concepten van datawarehousing

Data governance

Illustratie van naleving regelgeving

Concepten van datawarehousing

Laten we oefenen!

Concepten van datawarehousing

Preparing Video For Download...