Datenaufbereitung

Datenwissenschaft verstehen

Hadrien Lacroix

Content Developer, DataCamp

Daten-Workflow

data science workflow

Datenwissenschaft verstehen

Warum Daten aufbereiten?

  • Echte Daten sind chaotisch
  • Aufbereitung wird durchgeführt, um Folgendes zu verhindern:
    • Fehler
    • falsche Ergebnisse
    • Verzerrung von Algorithmen

Suppe kochen

Datenwissenschaft verstehen

Beginnen wir mit der Reinigung

Sara Lis Hadrien Lis
Alter „27“ „30“ „30“
Größe 1,77 5,58 1,80 5,58
Land „Belgien“ „USA“ „FR“ „USA“

scraper-cleaning-window

Datenwissenschaft verstehen

Aufgeräumte Daten

Vorher

$$

Sara Lis Hadrien Lis
Alter „27“ „30“ „30“
Größe 1,77 5,58 1,80 5,58
Land „Belgien“ „USA“ „FR“ „USA“

gefaltete Wäsche

Datenwissenschaft verstehen

Saubere Ausgabe-Daten

Vorher

$$

Sara Lis Hadrien Lis
Alter „27“ „30“ „30“
Größe 1,77 5,58 1,80 5,58
Land „Belgien“ „USA“ „FR“ „USA“

Nachher

$$

Name Alter Größe Land
Sara "26" 1.78 „Belgien“
Lis „30“ 5,58 „USA“
Hadrien 1,80 „FR“
Lis „30“ 5,58 „USA“
Datenwissenschaft verstehen

Duplikate entfernen

Vorher

$$

Name Alter Größe Land
Sara „27“ 1,77 „Belgien“
Lis „30“ 5,58 „USA“
Hadrien 1,80 „FR“
Lis „30“ 5,58 „USA“

doppelte Kirsche

Datenwissenschaft verstehen

Duplikate entfernen | Ausgabe

Vorher

$$

Name Alter Größe Land
Sara „27“ 1,77 „Belgien“
Lis „30“ 5,58 „USA“
Hadrien 1,80 „FR“
Lis „30“ 5,58 „USA“

Nachher

$$

Name Alter Größe Land
Sara „27“ 1,77 „Belgien“
Lis „30“ 5,58 „USA“
Hadrien 1,80 „FR“
Datenwissenschaft verstehen

Eindeutige ID

Vorher

$$

Name Alter Größe Land
Sara „27“ 1,77 „Belgien“
Lis „30“ 5,58 „USA“
Hadrien 1,80 „FR“

purple-duck-with-yellow-ducks

Datenwissenschaft verstehen

eindeutigen ID | Ausgabe

Vorher

$$

Name Alter Größe Land
Sara „27“ 1,77 „Belgien“
Lis „30“ 5,58 „USA“
Hadrien 1,80 „FR“

Nachher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „Belgien“
1 Lis „30“ 5,58 „USA“
2 Hadrien 1,80 „FR“
Datenwissenschaft verstehen

Homogenität

Vorher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „Belgien“
1 Lis „30“ 5,58 „USA“
2 Hadrien 1,80 „FR“

small-goldfish-facing-large-goldfish

Datenwissenschaft verstehen

Homogenität | Ausgabe

Vorher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „Belgien“
1 Lis „30“ 5,58 „USA“
2 Hadrien 1,80 „FR“

Nachher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „Belgien“
1 Lis „30“ 1,70 „USA“
2 Hadrien 1,80 „FR“
Datenwissenschaft verstehen

Ein weiteres Mal Homogenität

Vorher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „Belgien“
1 Lis „30“ 1,70 „USA“
2 Hadrien 1,80 „FR“

belgische Flagge

Datenwissenschaft verstehen

Ein weiteres Mal Homogenität | -Ausgabe

Vorher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „Belgien“
1 Lis „30“ 1,70 „US“
2 Hadrien 1,80 „FR“

Nachher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „BE“
1 Lis „30“ 1,70 „US“
2 Hadrien 1,80 „FR“
Datenwissenschaft verstehen

Datentypen

Vorher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „BE“
1 Lis „30“ 1,70 „US“
2 Hadrien 1,80 „FR“

different-types-of-pasta

Datenwissenschaft verstehen

Datentypen | Ausgabe

Vorher

$$

ID Name Alter Größe Land
0 Sara „27“ 1,77 „BE“
1 Lis „30“ 1,70 „US“
2 Hadrien 1,80 „FR“

Nachher

$$

ID Name Alter Größe Land
0 Sara 27 1,77 „BE“
1 Lis 30 1,70 „US“
2 Hadrien 1,80 „FR“
Datenwissenschaft verstehen

Fehlende Werte

Vorher

$$

ID Name Alter Größe Land
0 Sara 27 1,77 „BE“
1 Lis 30 1,70 „US“
2 Hadrien 1,80 „FR“

Gründe:

  • Dateneingabe
  • Fehler
  • gültiger fehlender Wert

Lösungen:

  • beimessen
  • verwerfen
  • behalten
Datenwissenschaft verstehen

Fehlende Werte | Ausgabe

Vorher

$$

ID Name Alter Größe Land
0 Sara 27 1,77 „BE“
1 Lis 30 1,70 „USA“
2 Hadrien 1,80 „FR“

Nachher

$$

ID Name Alter Größe Land
0 Sara 27 1,77 „BE“
1 Lis 30 1,70 „US“
2 Hadrien 28 1,80 „FR“
Datenwissenschaft verstehen

Lass uns üben!

Datenwissenschaft verstehen

Preparing Video For Download...