Imputeren met fancyimpute

Omgaan met ontbrekende gegevens in Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

fancyimpute-pakket

  • Pakket met geavanceerde technieken
  • Gebruikt ML-algoritmen om missende waarden te imputeren
  • Gebruikt andere kolommen om missende waarden te voorspellen en in te vullen
Omgaan met ontbrekende gegevens in Python

Imputatietechnieken in fancyimpute

  • KNN (K-Nearest Neighbors)
  • MICE (Multiple Imputation by Chained Equations)
Omgaan met ontbrekende gegevens in Python

K-Nearest Neighbors-imputatie

  • Selecteer K dichtstbijzijnde/vergelijkbare punten met alle niet-missende features
  • Neem het gemiddelde van die punten om de missende feature te vullen

K-nearest neighbors GIF

Omgaan met ontbrekende gegevens in Python

K-Nearest Neighbors-imputatie

from fancyimpute import KNN
diabetes_knn = diabetes.copy(deep=True)
knn_imputer = KNN()
diabetes_knn.iloc[:, :] = knn_imputer.fit_transform(diabetes_knn)
Omgaan met ontbrekende gegevens in Python

Multiple Imputations by Chained Equations (MICE)

  • Voer meerdere regressies uit op een willekeurige steekproef
  • Neem het gemiddelde van de regressiewaarden
  • Imputeer de missende featurewaarde voor het datapunt
Omgaan met ontbrekende gegevens in Python

Multiple Imputations by Chained Equations (MICE)

from fancyimpute import IterativeImputer

diabetes_MICE = diabetes.copy(deep=True) MICE_imputer = IterativeImputer() diabetes_MICE.iloc[:, :] = MICE_imputer.fit_transform(diabetes_MICE)
Omgaan met ontbrekende gegevens in Python

Samenvatting

  • ML-technieken voor het imputeren van missende waarden
  • KNN zoekt de meest vergelijkbare punten voor imputatie
  • MICE voert meerdere regressies uit voor imputatie
  • MICE is een zeer robuuste imputatiemethode
Omgaan met ontbrekende gegevens in Python

Laten we oefenen!

Omgaan met ontbrekende gegevens in Python

Preparing Video For Download...