Imputazione con fancyimpute

Gestire i dati mancanti in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Pacchetto fancyimpute

  • Il pacchetto offre tecniche avanzate
  • Usa algoritmi di machine learning per imputare i mancanti
  • Usa le altre colonne per prevedere e imputare i valori mancanti
Gestire i dati mancanti in Python

Tecniche di imputazione di fancyimpute

  • KNN (K-Nearest Neighbors)
  • MICE (Multiple Imputation by Chained Equations)
Gestire i dati mancanti in Python

Imputazione K-Nearest Neighbors

  • Seleziona i K punti più vicini/simili usando tutte le feature non mancanti
  • Fai la media dei punti selezionati per riempire la feature mancante

GIF K Nearest Neighbors

Gestire i dati mancanti in Python

Imputazione K-Nearest Neighbors

from fancyimpute import KNN
diabetes_knn = diabetes.copy(deep=True)
knn_imputer = KNN()
diabetes_knn.iloc[:, :] = knn_imputer.fit_transform(diabetes_knn)
Gestire i dati mancanti in Python

Multiple Imputations by Chained Equations (MICE)

  • Esegui più regressioni su un campione casuale dei dati
  • Fai la media dei valori di regressione
  • Imputa il valore mancante della feature per il punto dati
Gestire i dati mancanti in Python

Multiple Imputations by Chained Equations (MICE)

from fancyimpute import IterativeImputer

diabetes_MICE = diabetes.copy(deep=True) MICE_imputer = IterativeImputer() diabetes_MICE.iloc[:, :] = MICE_imputer.fit_transform(diabetes_MICE)
Gestire i dati mancanti in Python

Riepilogo

  • Tecniche di ML per imputare i mancanti
  • KNN trova i punti più simili per imputare
  • MICE esegue più regressioni per imputare
  • MICE è un modello molto robusto per l’imputazione
Gestire i dati mancanti in Python

Ayo berlatih!

Gestire i dati mancanti in Python

Preparing Video For Download...