Ontbrekende waarden

Datamanipulatie met pandas

Maggie Matsui

Senior Content Developer at DataCamp

Wat is een ontbrekende waarde?

Naam Ras Kleur Hoogte (cm) Gewicht (kg) Geboortedatum
Bella Labrador Bruin 56 25 2013-07-01
Charlie Poedel Zwart 43 23 2016-09-16
Lucy Chow Chow Bruin 46 22 2014-08-25
Cooper Schnauzer Grijs 49 17 2011-12-11
Max Labrador Zwart 59 29 2017-01-20
Stella Chihuahua Lichtbruin 18 2 2015-04-20
Bernie St. Bernard Wit 77 74 2018-02-27
Datamanipulatie met pandas

Wat is een ontbrekende waarde?

Naam Ras Kleur Hoogte (cm) Gewicht (kg) Geboortedatum
Bella Labrador Bruin 56 ? 2013-07-01
Charlie Poedel Zwart 43 23 2016-09-16
Lucy Chow Chow Bruin 46 22 2014-08-25
Cooper Schnauzer Grijs 49 ? 2011-12-11
Max Labrador Zwart 59 29 2017-01-20
Stella Chihuahua Lichtbruin 18 2 2015-04-20
Bernie St. Bernard Wit 77 74 2018-02-27
Datamanipulatie met pandas

Ontbrekende waarden in pandas DataFrames

print(dogs)
      name        breed  color  height_cm  weight_kg date_of_birth
0    Bella     Labrador  Brown         56        NaN    2013-07-01
1  Charlie       Poodle  Black         43       24.0    2016-09-16
2     Lucy    Chow Chow  Brown         46       24.0    2014-08-25
3   Cooper    Schnauzer   Gray         49        NaN    2011-12-11
4      Max     Labrador  Black         59       29.0    2017-01-20
5   Stella    Chihuahua    Tan         18        2.0    2015-04-20
6   Bernie  St. Bernard  White         77       74.0    2018-02-27
Datamanipulatie met pandas

Ontbrekende waarden opsporen

dogs.isna()
    name  breed  color  height_cm  weight_kg  date_of_birth
0  False  False  False      False       True          False
1  False  False  False      False      False          False
2  False  False  False      False      False          False
3  False  False  False      False       True          False
4  False  False  False      False      False          False
5  False  False  False      False      False          False
6  False  False  False      False      False          False
Datamanipulatie met pandas

Alle ontbrekende waarden opsporen

dogs.isna().any()
name             False
breed            False
color            False
height_cm        False
weight_kg         True
date_of_birth    False
dtype: bool
Datamanipulatie met pandas

Ontbrekende waarden tellen

dogs.isna().sum()
name             0
breed            0
color            0
height_cm        0
weight_kg        2
date_of_birth    0
dtype: int64
Datamanipulatie met pandas

Ontbrekende waarden in kaart brengen

import matplotlib.pyplot as plt

dogs.isna().sum().plot(kind="bar") plt.show()

Een staafdiagram dat laat zien hoeveel ontbrekende waarden elke kolom van de dataset met honden bevat. Alle balken staan op nul, behalve het gewicht, waar twee waarden ontbreken.

Datamanipulatie met pandas

Ontbrekende waarden verwijderen

dogs.dropna()
      name        breed  color  height_cm  weight_kg date_of_birth
1  Charlie       Poodle  Black         43       24.0    2016-09-16
2     Lucy    Chow Chow  Brown         46       24.0    2014-08-25
4      Max     Labrador  Black         59       29.0    2017-01-20
5   Stella    Chihuahua    Tan         18        2.0    2015-04-20
6   Bernie  St. Bernard  White         77       74.0    2018-02-27
Datamanipulatie met pandas

Ontbrekende waarden vervangen

dogs.fillna(0)
      name        breed  color  height_cm  weight_kg date_of_birth
0    Bella     Labrador  Brown         56        0.0    2013-07-01
1  Charlie       Poodle  Black         43       24.0    2016-09-16
2     Lucy    Chow Chow  Brown         46       24.0    2014-08-25
3   Cooper    Schnauzer   Gray         49        0.0    2011-12-11
4      Max     Labrador  Black         59       29.0    2017-01-20
5   Stella    Chihuahua    Tan         18        2.0    2015-04-20
6   Bernie  St. Bernard  White         77       74.0    2018-02-27
Datamanipulatie met pandas

Laten we oefenen!

Datamanipulatie met pandas

Preparing Video For Download...