Omgaan met missende waarden

Casestudy: Tijdreeksgegevens van een stad analyseren in R

Lore Dirick

Manager of Data Science Curriculum at Flatiron School

Missende waarden

citydata
              pop
1980-01-01 562994
1981-01-01 564179
1982-01-01 565361
1983-01-01 565491
1984-01-01 566723
1985-01-01     NA
1986-01-01     NA
1987-01-01     NA
1988-01-01 570867
1989-01-01 572222
1990-01-01 574823

tijdreeks met missende waarden geplot

Casestudy: Tijdreeksgegevens van een stad analyseren in R

NAs vullen met laatste observatie

  • Laatste observatie doortrekken (LOCF)
citydata_locf <- na.locf(citydata)

plot.xts(citydata)
plot.xts(citydata_locf)

tijdreeks met missende waarden ingevuld met laatste observatie

Casestudy: Tijdreeksgegevens van een stad analyseren in R

NAs vullen met volgende observatie

  • Volgende observatie terugzetten (NOCB)
citydata_nocb <- na.locf(citydata, fromLast = TRUE)

plot.xts(citydata)
plot.xts(citydata_nocb)

tijdreeks met missende waarden ingevuld met volgende observatie teruggezet

Casestudy: Tijdreeksgegevens van een stad analyseren in R

Lineaire interpolatie

citydata_approx <- na.approx(citydata)

plot.xts(citydata)
plot.xts(citydata_nocb)

tijdreeks met missende waarden ingevuld met lineaire interpolatie

Casestudy: Tijdreeksgegevens van een stad analyseren in R

Laten we oefenen!

Casestudy: Tijdreeksgegevens van een stad analyseren in R

Preparing Video For Download...