Gegevens opschonen
Concepten van datawarehousing
Aaren Stubberfield
Data Scientist
Video-agenda
Revisie van gegevensformaten
Adressen parseren
Gegevensvalidatie
Duplicaten verwijderen
Gegevensformaat opschonen
Waarden naar het verwachte formaat bijwerken
Datums
Namen van opties
Hoofd-/kleine letters
Zorgt voor een consistent formaat
Voorbeeld taxigegevens
Adressen parseren
Een straatadres opsplitsen in onderdelen
Tools kunnen adressen valideren
Adres
1234 S Normal St, Cleveland, OH 44102
Adres
Stad
Staat
Postcode
1234 S Normal St
Cleveland
OH
44102
Gegevensvalidatie
Bereikcontrole
Staat de waarde binnen het verwachte bereik?
Voorbeeld: de leeftijd van een persoon
Typecontrole
Heeft de waarde het juiste datatype?
Voorbeeld: leeftijd als string vs getal opslaan
Dubbele rijen verwijderen
Dit proces verwijdert dubbele rijen
Data governance
Laten we oefenen!
Concepten van datawarehousing
Preparing Video For Download...