Gestione dei dati mancanti con imputazioni in R
Michal Oleszak
Machine Learning Engineer
Al termine del corso, sarai in grado di:
Il corso presuppone familiarità con:
dplyr e l’operatore pipe (%>%).lm(), glm()).Ovviamente, il modo migliore per trattare i dati mancanti è non averli.
Purtroppo, i dati mancanti sono ovunque:
Dobbiamo restare vigili sui dati mancanti.
head(nhanes, 3)
Age Gender Weight Height Diabetes TotChol Pulse PhysActive
1 16 male 73.2 172.0 FALSE 3.00 76 TRUE
2 17 male 72.3 176.0 FALSE 2.61 74 TRUE
3 12 male 57.7 158.9 FALSE 4.27 80 TRUE
nhanes %>% is.na() %>% colSums()
Age Gender Weight Height Diabetes TotChol Pulse PhysActive
0 0 9 8 1 85 32 26
model_1 <- lm(Diabetes ~ Age + Weight,
data = nhanes)
Parti di summary(model_1):
Errore standard dei residui: 0.08571 su 804
gradi di libertà (10 osservazioni
eliminate per dati mancanti)
R-quadrato aggiustato: 0.005706
F-statistic: 3.313 su 2 e 804 GL,
p-value: 0.03691
model_2 <- lm(Diabetes ~ Age + Weight +
TotChol, data = nhanes)
Parti di summary(model_2):
Errore standard dei residui: 0.08264 su 718
gradi di libertà (95 osservazioni
eliminate per dati mancanti)
R-quadrato aggiustato: 0.008422
F-statistic: 3.041 su 3 e 718 GL,
p-value: 0.02834
Gestione dei dati mancanti con imputazioni in R