Wanneer en hoe ontbrekende data verwijderen

Omgaan met ontbrekende gegevens in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Types van verwijderen

  1. Pairwise deletion
  2. Listwise deletion

Let op: gebruiken bij MCAR-waarden.

Omgaan met ontbrekende gegevens in Python

Pairwise deletion

diabetes DataFrame

Pairwise deletion voor diabetes-dataset 768 rijen × 9 kolommen

diabetes['Glucose'].mean()
121.687
diabetes.count()
763
diabetes['Glucose'].sum() / 
       diabetes['Glucose'].count()
121.687
Omgaan met ontbrekende gegevens in Python

Listwise deletion of complete case

diabetes DataFrame

Listwise deletion voor diabetes-dataset 768 rijen × 9 kolommen

diabetes.dropna(subset=['Glucose'], 
                       how='any', 
                       inplace=True)
Omgaan met ontbrekende gegevens in Python

Verwijderen in diabetes-DataFrame

msno.matrix(diabetes)

diabetes['Glucose'].isnull().sum()
5

Missingness-matrixplot van diabetes

Omgaan met ontbrekende gegevens in Python

Verwijderen in diabetes-DataFrame

diabetes.dropna(subset=["Glucose"], how='any', inplace=True)
msno.matrix(diabetes)

Missingness-matrixplot van diabetes-dataset

Omgaan met ontbrekende gegevens in Python

Verwijderen in diabetes-DataFrame

diabetes['BMI'].isnull().sum()
11
diabetes.dropna(subset=["BMI"], how='any', inplace=True)
msno.matrix(diabetes)

Missingness-matrixplot van diabetes-dataset

Omgaan met ontbrekende gegevens in Python

Samenvatting

  • Pairwise deletion
  • Listwise deletion
  • Verwijderen alleen bij MCAR-waarden
Omgaan met ontbrekende gegevens in Python

Laten we oefenen!

Omgaan met ontbrekende gegevens in Python

Preparing Video For Download...