Imputazioni con media, mediana e moda

Gestire i dati mancanti in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Tecniche base di imputazione

  • costante (es. 0)
  • media
  • mediana
  • moda o più frequente
Gestire i dati mancanti in Python

Imputazione con media

from sklearn.impute import SimpleImputer

diabetes_mean = diabetes.copy(deep=True)
mean_imputer = SimpleImputer(strategy='mean')
Gestire i dati mancanti in Python

Imputazione con media

from sklearn.impute import SimpleImputer
diabetes_mean = diabetes.copy(deep=True)
mean_imputer = SimpleImputer(strategy='mean')
diabetes_mean.iloc[:, :] = mean_imputer.fit_transform(diabetes_mean)
Gestire i dati mancanti in Python

Imputazione con mediana

diabetes_median = diabetes.copy(deep=True)
median_imputer = SimpleImputer(strategy='median')
diabetes_median.iloc[:, :] = median_imputer.fit_transform(diabetes_median)
Gestire i dati mancanti in Python

Imputazione con moda

diabetes_mode = diabetes.copy(deep=True)
mode_imputer = SimpleImputer(strategy='most_frequent')
diabetes_mode.iloc[:, :] = mode_imputer.fit_transform(diabetes_mode)
Gestire i dati mancanti in Python

Imputare un valore costante

diabetes_constant = diabetes.copy(deep=True)
constant_imputer = SimpleImputer(strategy='constant', fill_value=0))
diabetes_constant.iloc[:, :] = constant_imputer.fit_transform(diabetes_constant)
Gestire i dati mancanti in Python

Scatterplot dell’imputazione

nullity = diabetes['Serum_Insulin'].isnull()+diabetes['Glucose'].isnull()
diabetes_mean.plot(x='Serum_Insulin', y='Glucose', kind='scatter', alpha=0.5,

c=nullity, cmap='rainbow', title='Mean Imputation')

Grafico a dispersione del dataframe del diabete con media imputata

Gestire i dati mancanti in Python

Visualizzare le imputazioni

fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10, 10))

nullity = diabetes['Serum_Insulin'].isnull()+diabetes['Glucose'].isnull()
imputations = {'Mean Imputation': diabetes_mean, 'Median Imputation': diabetes_median, 'Most Frequent Imputation': diabetes_mode, 'Constant Imputation': diabetes_constant}
for ax, df_key in zip(axes.flatten(), imputations):
imputations[df_key].plot(x='Serum_Insulin', y='Glucose', kind='scatter', alpha=0.5, c=nullity, cmap='rainbow', ax=ax, colorbar=False, title=df_key)
Gestire i dati mancanti in Python

Visualizzazione grafica delle imputazioni sul dataframe del diabete

Gestire i dati mancanti in Python

Riepilogo

Hai imparato a

  • Imputare con parametri statistici: media, mediana e moda
  • Confrontare graficamente le imputazioni
  • Analizzare le imputazioni
Gestire i dati mancanti in Python

Let's practice!

Gestire i dati mancanti in Python

Preparing Video For Download...