Imputeren met gemiddelde, mediaan & modus

Omgaan met ontbrekende gegevens in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Basistechnieken voor imputatie

  • constante (bv. 0)
  • gemiddelde
  • mediaan
  • modus of meest voorkomend
Omgaan met ontbrekende gegevens in Python

Imputatie met gemiddelde

from sklearn.impute import SimpleImputer

diabetes_mean = diabetes.copy(deep=True)
mean_imputer = SimpleImputer(strategy='mean')
Omgaan met ontbrekende gegevens in Python

Imputatie met gemiddelde

from sklearn.impute import SimpleImputer
diabetes_mean = diabetes.copy(deep=True)
mean_imputer = SimpleImputer(strategy='mean')
diabetes_mean.iloc[:, :] = mean_imputer.fit_transform(diabetes_mean)
Omgaan met ontbrekende gegevens in Python

Imputatie met mediaan

diabetes_median = diabetes.copy(deep=True)
median_imputer = SimpleImputer(strategy='median')
diabetes_median.iloc[:, :] = median_imputer.fit_transform(diabetes_median)
Omgaan met ontbrekende gegevens in Python

Imputatie met modus

diabetes_mode = diabetes.copy(deep=True)
mode_imputer = SimpleImputer(strategy='most_frequent')
diabetes_mode.iloc[:, :] = mode_imputer.fit_transform(diabetes_mode)
Omgaan met ontbrekende gegevens in Python

Een constante imputeren

diabetes_constant = diabetes.copy(deep=True)
constant_imputer = SimpleImputer(strategy='constant', fill_value=0))
diabetes_constant.iloc[:, :] = constant_imputer.fit_transform(diabetes_constant)
Omgaan met ontbrekende gegevens in Python

Spreidplot van imputatie

nullity = diabetes['Serum_Insulin'].isnull()+diabetes['Glucose'].isnull()
diabetes_mean.plot(x='Serum_Insulin', y='Glucose', kind='scatter', alpha=0.5,

c=nullity, cmap='rainbow', title='Mean Imputation')

Spreidplot van gemiddelde-imputatie in diabetes-dataset

Omgaan met ontbrekende gegevens in Python

Imputaties visualiseren

fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10, 10))

nullity = diabetes['Serum_Insulin'].isnull()+diabetes['Glucose'].isnull()
imputations = {'Mean Imputation': diabetes_mean, 'Median Imputation': diabetes_median, 'Most Frequent Imputation': diabetes_mode, 'Constant Imputation': diabetes_constant}
for ax, df_key in zip(axes.flatten(), imputations):
imputations[df_key].plot(x='Serum_Insulin', y='Glucose', kind='scatter', alpha=0.5, c=nullity, cmap='rainbow', ax=ax, colorbar=False, title=df_key)
Omgaan met ontbrekende gegevens in Python

Grafische weergave van imputaties in de diabetes-dataset

Omgaan met ontbrekende gegevens in Python

Samenvatting

Je leerde:

  • Imputeren met parameters als gemiddelde, mediaan en modus
  • Imputaties grafisch vergelijken
  • Imputaties analyseren
Omgaan met ontbrekende gegevens in Python

Laten we oefenen!

Omgaan met ontbrekende gegevens in Python

Preparing Video For Download...