Analizza la quantità di valori mancanti

Gestire i dati mancanti in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Carica il dataset Air Quality

Dataset Air Quality

  • contiene le rilevazioni dei sensori di Ozone, Solar, Temperature e Wind
df_air = pd.read_csv('air-quality.csv', 
                            parse_dates=['Date'], 
                            index_col='Date')

df_air.head()
              Ozone  Solar  Wind  Temp
Date                                
1976-05-01   41.0  190.0   7.4    67
1976-05-02   36.0  118.0   8.0    72
1976-05-03   12.0  149.0  12.6    74
1976-05-04   18.0  313.0  11.5    62
1976-05-05    NaN    NaN  14.3    56
Gestire i dati mancanti in Python

DataFrame di nullità

  • Usa i metodi .isnull() o .isna() sul DataFrame
airquality_nullity = airquality.isnull()
airquality_nullity.head()
            Ozone  Solar   Wind   Temp
Date                                  
1976-05-01  False  False  False  False
1976-05-02  False  False  False  False
1976-05-03  False  False  False  False
1976-05-04  False  False  False  False
1976-05-05   True   True  False  False
Gestire i dati mancanti in Python

Valori mancanti totali

airquality_nullity.sum()
Ozone    37
Solar     7
Wind      0
Temp      0
dtype: int64
Gestire i dati mancanti in Python

Percentuale di valori mancanti

airquality_nullity.mean() * 100
Ozone    24.183007
Solar     4.575163
Wind      0.000000
Temp      0.000000
dtype: float64
Gestire i dati mancanti in Python

Barra di nullità

Pacchetto Missingno

  • Pacchetto per l'analisi grafica dei valori mancanti
import missingno as msno
msno.bar(airquality)

Barra dei valori mancanti per il dataset sulla qualità dell'aria

Gestire i dati mancanti in Python

Matrice di nullità

msno.matrix(airquality)

Matrice dei valori mancanti per il dataset sulla qualità dell'aria

Gestire i dati mancanti in Python

Matrice di nullità

msno.matrix(airquality)

Matrice dei valori mancanti per il dataset sulla qualità dell'aria

Gestire i dati mancanti in Python

Matrice di nullità

msno.matrix(airquality)

Matrice dei valori mancanti per il dataset sulla qualità dell'aria

Gestire i dati mancanti in Python

Matrice di nullità

msno.matrix(airquality)

Matrice dei valori mancanti per il dataset sulla qualità dell'aria

Gestire i dati mancanti in Python

Matrice di nullità per serie temporali

msno.matrix(airquality, freq='M')

Matrice dei valori mancanti con frequenza mensile per il dataset sulla qualità dell'aria

Gestire i dati mancanti in Python

Matrice di nullità per serie temporali

msno.matrix(airquality, freq='M')

Matrice dei valori mancanti con frequenza mensile per il dataset sulla qualità dell'aria

Gestire i dati mancanti in Python

Rifinisci la matrice

msno.matrix(airquality.loc['May-1976': 'Jul-1976'], freq='M')

Matrice dei valori mancanti con frequenza mensile per il dataset sulla qualità dell'aria

Gestire i dati mancanti in Python

Riepilogo

In questa lezione abbiamo imparato ad analizzare

  • la quantità di valori mancanti in modo numerico
  • la quantità di valori mancanti in modo grafico
  • la percentuale di valori mancanti
  • la matrice di nullità per dataset regolari
  • la matrice di nullità per serie temporali
Gestire i dati mancanti in Python

Ayo berlatih!

Gestire i dati mancanti in Python

Preparing Video For Download...