Quando e come eliminare i dati mancanti

Gestire i dati mancanti in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Tipi di eliminazione

  1. Eliminazione pairwise
  2. Eliminazione listwise

Nota: usata quando i valori sono MCAR.

Gestire i dati mancanti in Python

Eliminazione pairwise

diabetes DataFrame

Eliminazione pairwise per il dataset diabetes 768 righe × 9 colonne

diabetes['Glucose'].mean()
121.687
diabetes.count()
763
diabetes['Glucose'].sum() / 
       diabetes['Glucose'].count()
121.687
Gestire i dati mancanti in Python

Eliminazione listwise o casi completi

diabetes DataFrame

Eliminazione listwise per il dataset diabetes 768 righe × 9 colonne

diabetes.dropna(subset=['Glucose'], 
                       how='any', 
                       inplace=True)
Gestire i dati mancanti in Python

Eliminazione nel DataFrame diabetes

msno.matrix(diabetes)

diabetes['Glucose'].isnull().sum()
5

Grafico matrice di mancanze di diabetes

Gestire i dati mancanti in Python

Eliminazione nel DataFrame diabetes

diabetes.dropna(subset=["Glucose"], how='any', inplace=True)
msno.matrix(diabetes)

Grafico matrice di mancanze del dataset diabetes

Gestire i dati mancanti in Python

Eliminazione nel DataFrame diabetes

diabetes['BMI'].isnull().sum()
11
diabetes.dropna(subset=["BMI"], how='any', inplace=True)
msno.matrix(diabetes)

Grafico matrice di mancanze del dataset diabetes

Gestire i dati mancanti in Python

Riepilogo

  • Eliminazione pairwise
  • Eliminazione listwise
  • Usa l’eliminazione solo se i valori sono MCAR
Gestire i dati mancanti in Python

Passons à la pratique !

Gestire i dati mancanti in Python

Preparing Video For Download...