Datavoorbereiding

Data Science begrijpen

Hadrien Lacroix

Content Developer, DataCamp

Dataworkflow

data science-workflow

Data Science begrijpen

Waarom gegevens voorbereiden?

  • Echte gegevens zijn vaak rommelig
  • Voorbereiding wordt gedaan ter voorkoming van:
    • fouten
    • foutieve resultaten
    • vooringenomenheid van algoritmen

soep maken

Data Science begrijpen

Laten we gaan opschonen

Sara Lis Hadrien Lis
Leeftijd "27" "30" "30"
Lengte 1.77 5.58 1.80 5.58
Land "België" "VS" "FR" "VS"

wisser-raam-schoonmaken

Data Science begrijpen

Opgeruimde data

Voor

$$

Sara Lis Hadrien Lis
Leeftijd "27" "30" "30"
Lengte 1.77 5.58 1.80 5.58
Land "België" "VS" "FR" "VS"

opgevouwen-wasgoed

Data Science begrijpen

Uitvoer opgeruimde data

Voor

$$

Sara Lis Hadrien Lis
Leeftijd "27" "30" "30"
Lengte 1.77 5.58 1.80 5.58
Land "België" "VS" "FR" "VS"

Na

$$

Naam Leeftijd Lengte Land
Sara "26" 1.78 "België"
Lis "30" 5.58 "VS"
Hadrien 1.80 "FR"
Lis "30" 5.58 "VS"
Data Science begrijpen

Dubbele items verwijderen

Voor

$$

Naam Leeftijd Lengte Land
Sara "27" 1.77 "België"
Lis "30" 5.58 "VS"
Hadrien 1.80 "FR"
Lis "30" 5.58 "VS"

dubbele kers

Data Science begrijpen

Dubbele items verwijderen | uitvoer

Voor

$$

Naam Leeftijd Lengte Land
Sara "27" 1.77 "België"
Lis "30" 5.58 "VS"
Hadrien 1.80 "FR"
Lis "30" 5.58 "VS"

Na

$$

Naam Leeftijd Lengte Land
Sara "27" 1.77 "België"
Lis "30" 5.58 "VS"
Hadrien 1.80 "FR"
Data Science begrijpen

Unieke ID

Voor

$$

Naam Leeftijd Lengte Land
Sara "27" 1.77 "België"
Lis "30" 5.58 "VS"
Hadrien 1.80 "FR"

paarse-eend-met-gele-eendjes

Data Science begrijpen

Unieke ID | uitvoer

Voor

$$

Naam Leeftijd Lengte Land
Sara "27" 1.77 "België"
Lis "30" 5.58 "VS"
Hadrien 1.80 "FR"

Na

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "België"
1 Lis "30" 5.58 "VS"
2 Hadrien 1.80 "FR"
Data Science begrijpen

Homogeniteit

Voor

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "België"
1 Lis "30" 5.58 "VS"
2 Hadrien 1.80 "FR"

kleine-goudvis-tegenover-grote-goudvis

Data Science begrijpen

Homogeniteit | uitvoer

Voor

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "België"
1 Lis "30" 5.58 "VS"
2 Hadrien 1.80 "FR"

Na

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "België"
1 Lis "30" 1.70 "VS"
2 Hadrien 1.80 "FR"
Data Science begrijpen

Homogeniteit, nogmaals

Voor

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "België"
1 Lis "30" 1.70 "VS"
2 Hadrien 1.80 "FR"

belgische-vlag

Data Science begrijpen

Homogeniteit, nogmaals | uitvoer

Voor

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "België"
1 Lis "30" 1.70 "VS"
2 Hadrien 1.80 "FR"

Na

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "BE"
1 Lis "30" 1.70 "VS"
2 Hadrien 1.80 "FR"
Data Science begrijpen

Datatypen

Voor

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "BE"
1 Lis "30" 1.70 "VS"
2 Hadrien 1.80 "FR"

verschillende-soorten-pasta

Data Science begrijpen

Datatypes | uitvoer

Voor

$$

ID Naam Leeftijd Lengte Land
0 Sara "27" 1.77 "BE"
1 Lis "30" 1.70 "VS"
2 Hadrien 1.80 "FR"

Na

$$

ID Naam Leeftijd Lengte Land
0 Sara 27 1.77 "BE"
1 Lis 30 1.70 "VS"
2 Hadrien 1.80 "FR"
Data Science begrijpen

Ontbrekende waarden

Voor

$$

ID Naam Leeftijd Lengte Land
0 Sara 27 1.77 "BE"
1 Lis 30 1.70 "VS"
2 Hadrien 1.80 "FR"

Redenen:

  • gegevensinvoer
  • fout
  • geldige ontbrekende waarde

Oplossingen:

  • toeschrijven
  • verwijderen
  • houden
Data Science begrijpen

Ontbrekende waarden | uitvoer

Voor

$$

ID Naam Leeftijd Lengte Land
0 Sara 27 1.77 "BE"
1 Lis 30 1.70 "VS"
2 Hadrien 1.80 "FR"

Na

$$

ID Naam Leeftijd Lengte Land
0 Sara 27 1.77 "BE"
1 Lis 30 1.70 "VS"
2 Hadrien 28 1.80 "FR"
Data Science begrijpen

Laten we oefenen!

Data Science begrijpen

Preparing Video For Download...