Imputasi dengan fancyimpute

Menangani Data Hilang di Python

Suraj Donthi

Deep Learning & Computer Vision Consultant

Paket fancyimpute

  • Paket berisi teknik lanjutan
  • Menggunakan algoritme machine learning untuk mengimputasi nilai hilang
  • Menggunakan kolom lain untuk memprediksi lalu mengimputasi nilai hilang
Menangani Data Hilang di Python

Teknik imputasi fancyimpute

  • KNN atau K-Nearest Neighbor
  • MICE atau Multiple Imputation by Chained Equations
Menangani Data Hilang di Python

Imputasi K-Nearest Neighbor

  • Pilih K poin data terdekat/serupa memakai semua fitur yang tidak hilang
  • Ambil rata-rata poin terpilih untuk mengisi fitur yang hilang

GIF K Nearest Neighbors

Menangani Data Hilang di Python

Imputasi K-Nearest Neighbor

from fancyimpute import KNN
diabetes_knn = diabetes.copy(deep=True)
knn_imputer = KNN()
diabetes_knn.iloc[:, :] = knn_imputer.fit_transform(diabetes_knn)
Menangani Data Hilang di Python

Multiple Imputation by Chained Equations (MICE)

  • Lakukan beberapa regresi pada sampel acak data
  • Ambil rata-rata hasil regresi
  • Imputasi nilai fitur yang hilang untuk titik data
Menangani Data Hilang di Python

Multiple Imputations by Chained Equations (MICE)

from fancyimpute import IterativeImputer

diabetes_MICE = diabetes.copy(deep=True) MICE_imputer = IterativeImputer() diabetes_MICE.iloc[:, :] = MICE_imputer.fit_transform(diabetes_MICE)
Menangani Data Hilang di Python

Ringkasan

  • Gunakan teknik machine learning untuk mengimputasi nilai hilang
  • KNN mencari poin paling mirip untuk imputasi
  • MICE melakukan regresi berganda untuk imputasi
  • MICE sangat andal untuk imputasi
Menangani Data Hilang di Python

Ayo berlatih!

Menangani Data Hilang di Python

Preparing Video For Download...