Gestione dei dati mancanti con imputazioni in R
Michal Oleszak
Machine Learning Engineer

In quasi metà degli studi, i risultati chiave scompaiono
Bootstrap = campionare righe con reinserimento per ottenere dati della dimensione originale


Pro:
Contro:
calc_correlation <- function(data, indices) {
# Restituisci il coefficiente di correlazione
return(corr_coeff)
}
calc_correlation <- function(data, indices) {
# Ottieni il campione bootstrap
data_boot <- data[indices, ]
# Restituisci il coefficiente di correlazione
return(corr_coeff)
}
calc_correlation <- function(data, indices) {
# Ottieni il campione bootstrap
data_boot <- data[indices, ]
# Imputa con kNN
data_imp <- kNN(data_boot)
# Restituisci il coefficiente di correlazione
return(corr_coeff)
}
calc_correlation <- function(data, indices) {
# Ottieni il campione bootstrap
data_boot <- data[indices, ]
# Imputa con kNN
data_imp <- kNN(data_boot)
# Calcola la correlazione tra Weight e TotChol
corr_coeff <- cor(data_imp$Weight, data_imp$TotChol)
# Restituisci il coefficiente di correlazione
return(corr_coeff)
}
library(boot)
boot_results <- boot(nhanes, statistic = calc_correlation, R = 50)
print(boot_results)
BOOTSTRAP NON PARAMETRICO ORDINARIO
Call:
boot(data = nhanes, statistic = calc_correlation, R = 50)
Statistiche bootstrap:
originale bias errore std.
t1* 0.03028306 0.007385452 0.04207152
plot(boot_results)

boot_ci <- boot.ci(boot_results, conf = 0.95, type = "norm")
print(boot_ci)
CALCOLO DEGLI INTERVALLI DI CONFIDENZA BOOTSTRAP
Basato su 50 repliche bootstrap
CALL :
boot.ci(boot.out = boot_results, conf = 0.95, type = "norm")
Intervalli:
Livello Normale
95% (-0.0596, 0.1054 )
Calcoli e intervalli sulla scala originale
Gestione dei dati mancanti con imputazioni in R