Menangani Data Hilang dengan Imputasi di R
Michal Oleszak
Machine Learning Engineer

Dalam hampir setengah studi, hasil kunci menghilang
Bootstrapping = mengambil baris dengan pengembalian hingga ukuran awal


Kelebihan:
Kekurangan:
calc_correlation <- function(data, indices) {
# Kembalikan koefisien korelasi
return(corr_coeff)
}
calc_correlation <- function(data, indices) {
# Ambil sampel bootstrap
data_boot <- data[indices, ]
# Kembalikan koefisien korelasi
return(corr_coeff)
}
calc_correlation <- function(data, indices) {
# Ambil sampel bootstrap
data_boot <- data[indices, ]
# Imputasi dengan kNN
data_imp <- kNN(data_boot)
# Kembalikan koefisien korelasi
return(corr_coeff)
}
calc_correlation <- function(data, indices) {
# Ambil sampel bootstrap
data_boot <- data[indices, ]
# Imputasi dengan kNN
data_imp <- kNN(data_boot)
# Hitung korelasi antara Weight dan TotChol
corr_coeff <- cor(data_imp$Weight, data_imp$TotChol)
# Kembalikan koefisien korelasi
return(corr_coeff)
}
library(boot)
boot_results <- boot(nhanes, statistic = calc_correlation, R = 50)
print(boot_results)
BOOTSTRAP NONPARAMETRIK BIASA
Call:
boot(data = nhanes, statistic = calc_correlation, R = 50)
Statistik Bootstrap:
original bias std. error
t1* 0.03028306 0.007385452 0.04207152
plot(boot_results)

boot_ci <- boot.ci(boot_results, conf = 0.95, type = "norm")
print(boot_ci)
PERHITUNGAN INTERVAL KEPERCAYAAN BOOTSTRAP
Berdasarkan 50 replikasi bootstrap
CALL :
boot.ci(boot.out = boot_results, conf = 0.95, type = "norm")
Interval:
Level Normal
95% (-0.0596, 0.1054 )
Perhitungan dan interval pada skala asli
Menangani Data Hilang dengan Imputasi di R