Datenbereinigung

Konzepte des Data Warehousing

Aaren Stubberfield

Data Scientist

Video-Agenda

  • Datenformatüberprüfung
  • Adressenverarbeitung
  • Datenvalidierung
  • Deduplizierung
Konzepte des Data Warehousing

Datenformat bereinigen

  • Werte auf das erwartete Format aktualisieren
    • Datumsangaben
    • Optionsbezeichnungen
    • Großschreibung
  • Sorgt dafür, dass die Ausgabe immer das gleiche Format hat

Beispiel für Taxidaten

Zwei Tabellen in einer

Konzepte des Data Warehousing

Adressenverarbeitung

  • Eine Adresse in ihre Bestandteile aufteilen
  • Kann Tools zur Adressenverarbeitung nutzen
Adresse
1234 S Normal St, Cleveland, OH 44102
Adresse Stadt Staat Postleitzahl
1234 S Normal St Cleveland OH 44102
Konzepte des Data Warehousing

Datenvalidierung

  • Wertebereichsüberprüfung
    • Liegt der Wert im erwarteten Bereich?
    • Beispiel: Das Alter einer Person
  • Datentypprüfung
    • Ist der Wert der richtige Datentyp?
    • Beispiel: Alter als Zeichenfolge vs. als Zahl speichern

Tabelle mit Altersangaben, wobei die erste Zeile mit 300 aufgeführt ist, die als ungültig markiert ist.

Tabelle mit drei Spalten, wobei die erste Spalte „Alter” heißt und als Datentyp „Zeichenkette” aufgeführt ist, die als ungültig markiert ist.

Konzepte des Data Warehousing

Doppelte Zeilen löschen

  • Dieser Prozess löscht doppelte Einträge

Bild von zwei Tabellen mit zwei Spalten, die zusammengefügt werden sollen

die endgültige angehängte Tabelle ohne die doppelte Zeile

Konzepte des Data Warehousing

Data Governance

Illustration zur Einhaltung gesetzlicher Vorschriften

Konzepte des Data Warehousing

Lass uns üben!

Konzepte des Data Warehousing

Preparing Video For Download...