Analyseer de hoeveelheid missende waarden

Omgaan met ontbrekende gegevens in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Laad Air Quality-dataset

Air Quality-dataset

  • bevat sensormetingen van Ozone, Solar, Temp en Wind
df_air = pd.read_csv('air-quality.csv', 
                            parse_dates=['Date'], 
                            index_col='Date')

df_air.head()
              Ozone  Solar  Wind  Temp
Date                                
1976-05-01   41.0  190.0   7.4    67
1976-05-02   36.0  118.0   8.0    72
1976-05-03   12.0  149.0  12.6    74
1976-05-04   18.0  313.0  11.5    62
1976-05-05    NaN    NaN  14.3    56
Omgaan met ontbrekende gegevens in Python

Nullity-DataFrame

  • Gebruik de methoden .isnull() of .isna() op de DataFrame
airquality_nullity = airquality.isnull()
airquality_nullity.head()
            Ozone  Solar   Wind   Temp
Date                                  
1976-05-01  False  False  False  False
1976-05-02  False  False  False  False
1976-05-03  False  False  False  False
1976-05-04  False  False  False  False
1976-05-05   True   True  False  False
Omgaan met ontbrekende gegevens in Python

Totaal aantal missende waarden

airquality_nullity.sum()
Ozone    37
Solar     7
Wind      0
Temp      0
dtype: int64
Omgaan met ontbrekende gegevens in Python

Percentage missende waarden

airquality_nullity.mean() * 100
Ozone    24.183007
Solar     4.575163
Wind      0.000000
Temp      0.000000
dtype: float64
Omgaan met ontbrekende gegevens in Python

Nullity-balk

Missingno-pakket

  • Pakket voor grafische analyse van missende waarden
import missingno as msno
msno.bar(airquality)

Balkdiagram missings voor airquality-dataset

Omgaan met ontbrekende gegevens in Python

Nullity-matrix

msno.matrix(airquality)

Missings-matrix voor airquality-dataset

Omgaan met ontbrekende gegevens in Python

Nullity-matrix

msno.matrix(airquality)

Missings-matrix voor airquality-dataset

Omgaan met ontbrekende gegevens in Python

Nullity-matrix

msno.matrix(airquality)

Missings-matrix voor airquality-dataset

Omgaan met ontbrekende gegevens in Python

Nullity-matrix

msno.matrix(airquality)

Missings-matrix voor airquality-dataset

Omgaan met ontbrekende gegevens in Python

Nullity-matrix voor tijdreeksen

msno.matrix(airquality, freq='M')

Missings-matrix met maandfrequentie voor airquality-dataset

Omgaan met ontbrekende gegevens in Python

Nullity-matrix voor tijdreeksen

msno.matrix(airquality, freq='M')

Missings-matrix met maandfrequentie voor airquality-dataset

Omgaan met ontbrekende gegevens in Python

Matrix fijnmazig afstellen

msno.matrix(airquality.loc['May-1976': 'Jul-1976'], freq='M')

Missings-matrix met maandfrequentie voor airquality-dataset

Omgaan met ontbrekende gegevens in Python

Samenvatting

In deze les leerden we analyseren

  • de hoeveelheid missende waarden numeriek
  • de hoeveelheid missende waarden grafisch
  • het percentage missende waarden
  • de nullity-matrix voor reguliere datasets
  • de nullity-matrix voor tijdreeks-datasets
Omgaan met ontbrekende gegevens in Python

Laten we oefenen!

Omgaan met ontbrekende gegevens in Python

Preparing Video For Download...