Datenbereinigung
Konzepte des Data Warehousing
Aaren Stubberfield
Data Scientist
Video-Agenda
Datenformatüberprüfung
Adressenverarbeitung
Datenvalidierung
Deduplizierung
Datenformat bereinigen
Werte auf das erwartete Format aktualisieren
Datumsangaben
Optionsbezeichnungen
Großschreibung
Sorgt dafür, dass die Ausgabe immer das gleiche Format hat
Beispiel für Taxidaten
Adressenverarbeitung
Eine Adresse in ihre Bestandteile aufteilen
Kann Tools zur Adressenverarbeitung nutzen
Adresse
1234 S Normal St, Cleveland, OH 44102
Adresse
Stadt
Staat
Postleitzahl
1234 S Normal St
Cleveland
OH
44102
Datenvalidierung
Wertebereichsüberprüfung
Liegt der Wert im erwarteten Bereich?
Beispiel: Das Alter einer Person
Datentypprüfung
Ist der Wert der richtige Datentyp?
Beispiel: Alter als Zeichenfolge vs. als Zahl speichern
Doppelte Zeilen löschen
Dieser Prozess löscht doppelte Einträge
Data Governance
Lass uns üben!
Konzepte des Data Warehousing
Preparing Video For Download...