Analisis tingkat kekosongan

Menangani Data Hilang di Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Muat dataset Kualitas Udara

Dataset Kualitas Udara

  • berisi rekaman sensor Ozone, Solar, Temperature, dan Wind
df_air = pd.read_csv('air-quality.csv', 
                            parse_dates=['Date'], 
                            index_col='Date')

df_air.head()
              Ozone  Solar  Wind  Temp
Date                                
1976-05-01   41.0  190.0   7.4    67
1976-05-02   36.0  118.0   8.0    72
1976-05-03   12.0  149.0  12.6    74
1976-05-04   18.0  313.0  11.5    62
1976-05-05    NaN    NaN  14.3    56
Menangani Data Hilang di Python

DataFrame Nullity

  • Gunakan metode .isnull() atau .isna() pada DataFrame
airquality_nullity = airquality.isnull()
airquality_nullity.head()
            Ozone  Solar   Wind   Temp
Date                                  
1976-05-01  False  False  False  False
1976-05-02  False  False  False  False
1976-05-03  False  False  False  False
1976-05-04  False  False  False  False
1976-05-05   True   True  False  False
Menangani Data Hilang di Python

Total nilai hilang

airquality_nullity.sum()
Ozone    37
Solar     7
Wind      0
Temp      0
dtype: int64
Menangani Data Hilang di Python

Persentase kekosongan

airquality_nullity.mean() * 100
Ozone    24.183007
Solar     4.575163
Wind      0.000000
Temp      0.000000
dtype: float64
Menangani Data Hilang di Python

Batang Nullity

Paket Missingno

  • Paket untuk analisis grafis nilai hilang
import missingno as msno
msno.bar(airquality)

Batang kekosongan untuk dataset kualitas udara

Menangani Data Hilang di Python

Matriks Nullity

msno.matrix(airquality)

Matriks kekosongan untuk dataset kualitas udara

Menangani Data Hilang di Python

Matriks Nullity

msno.matrix(airquality)

Matriks kekosongan untuk dataset kualitas udara

Menangani Data Hilang di Python

Matriks Nullity

msno.matrix(airquality)

Matriks kekosongan untuk dataset kualitas udara

Menangani Data Hilang di Python

Matriks Nullity

msno.matrix(airquality)

Matriks kekosongan untuk dataset kualitas udara

Menangani Data Hilang di Python

Matriks Nullity untuk data runtun waktu

msno.matrix(airquality, freq='M')

Matriks kekosongan dengan frekuensi bulanan untuk dataset kualitas udara

Menangani Data Hilang di Python

Matriks Nullity untuk data runtun waktu

msno.matrix(airquality, freq='M')

Matriks kekosongan dengan frekuensi bulanan untuk dataset kualitas udara

Menangani Data Hilang di Python

Penyetelan matriks

msno.matrix(airquality.loc['May-1976': 'Jul-1976'], freq='M')

Matriks kekosongan dengan frekuensi bulanan untuk dataset kualitas udara

Menangani Data Hilang di Python

Ringkasan

Dalam pelajaran ini kita menganalisis

  • jumlah nilai hilang secara numerik
  • jumlah nilai hilang secara grafis
  • persentase nilai hilang
  • matriks nullity untuk dataset reguler
  • matriks nullity untuk data runtun waktu
Menangani Data Hilang di Python

Ayo berlatih!

Menangani Data Hilang di Python

Preparing Video For Download...