Volledigheid

Data opschonen in R

Maggie Matsui

Content Developer @ DataCamp

Wat is ontbrekende data?

Een voltooid puzzel met één ontbrekend stuk. Beschrijving: Treedt op wanneer geen waarde is opgeslagen voor een variabele in een observatie.

Kan worden weergegeven als NA, nan, 0, 99, . ...

Data opschonen in R

Wat is ontbrekende data?

missing.png

Kan worden weergegeven als NA, nan, 0, 99, . ...

Een robot die technische fouten voorstelt.

Data opschonen in R

Wat is ontbrekende data?

missing.png

Kan worden weergegeven als NA, nan, 0, 99, . ...

Een persoon als symbool voor menselijke fouten.

Data opschonen in R

Luchtkwaliteit

head(airquality)
   Ozone Solar.R Wind Temp Month Day
1     41     190  7.4   67     5   1
2     36     118  8.0   72     5   2
3     12     149 12.6   74     5   3
4     18     313 11.5   62     5   4
5     NA      NA 14.3   56     5   5
6     28      NA 14.9   66     5   6
Data opschonen in R

Luchtkwaliteit

head(airquality)
   Ozone Solar.R Wind Temp Month Day
1     41     190  7.4   67     5   1
2     36     118  8.0   72     5   2
3     12     149 12.6   74     5   3
4     18     313 11.5   62     5   4
5     NA      NA 14.3   56     5   5
6     28      NA 14.9   66     5   6
Data opschonen in R

Ontbrekende waarden vinden

is.na(airquality)
     Ozone Solar.R  Wind  Temp Month   Day
[1,] FALSE   FALSE FALSE FALSE FALSE FALSE
[2,] FALSE   FALSE FALSE FALSE FALSE FALSE
[3,] FALSE   FALSE FALSE FALSE FALSE FALSE
[4,] FALSE   FALSE FALSE FALSE FALSE FALSE
[5,]  TRUE    TRUE FALSE FALSE FALSE FALSE
[6,] FALSE    TRUE FALSE FALSE FALSE FALSE
Data opschonen in R

Ontbrekende waarden tellen

# Count missing vals in entire dataset
sum(is.na(airquality))
44
Data opschonen in R

Ontbrekende waarden visualiseren

library(visdat)
vis_miss(airquality)

Visualisatie uit code. Linkerkolom heeft de meeste zwarte lijnen, de tweede kolom iets minder. Andere kolommen hebben geen zwarte lijnen.

Data opschonen in R

Ontbrekendheid onderzoeken

airquality %>%
  mutate(miss_ozone = is.na(Ozone)) %>%

group_by(miss_ozone) %>% summarize(across(everything(), median, na.rm = TRUE))
  miss_ozone Ozone Solar.R  Wind  Temp Month   Day
  <lgl>      <dbl>   <int> <dbl> <dbl> <dbl> <dbl>
1 FALSE       31.5     207   9.7    65     7    16
2 TRUE        NA       194   9.7    99     6    15
Data opschonen in R

Ontbrekendheid onderzoeken

airquality %>%
  arrange(Temp) %>%
  vis_miss()

Zelfde visualisatie, maar in de linkerkolom (Ozone) staan alle ontbrekende waarden onderaan.

Data opschonen in R

Typen ontbrekende data

Links: Een zeskantige dobbelsteen voor Missing Completely at Random. Midden: Een zeskantige dobbelsteen met één stip per zijde voor Missing at Random. Rechts: Vier vierkanten in een cyclus voor Missing Not at Random.

Data opschonen in R

Typen ontbrekende data

Missing completely at random: geen systematisch verband tussen ontbrekende data en andere waarden. Voorbeeld: invoerfouten bij het invoeren van data.

Data opschonen in R

Typen ontbrekende data

Missing at random: systematisch verband tussen ontbrekende data en andere geobserveerde waarden. Voorbeeld: ontbrekende ozondata bij hoge temperaturen.

Data opschonen in R

Typen ontbrekendheid

Missing not at random: systematisch verband tussen ontbrekende data en niet-geobserveerde waarden. Voorbeeld: ontbrekende temperatuurwaarden bij hoge temperaturen.

Data opschonen in R

Omgaan met ontbrekende data

Eenvoudige aanpakken:

  1. Ontbrekende data droppen
  2. Imputeren (invullen) met statistiek (gemiddelde, mediaan, modus...) of domeinkennis

Complexere aanpakken:

  1. Imputeren met een algoritmische methode
  2. Imputeren met machinelearningmodellen

 

Meer leren in Dealing with Missing Data in R

Data opschonen in R

Ontbrekende waarden verwijderen

airquality %>%
  filter(!is.na(Ozone), !is.na(Solar.R))
   Ozone Solar.R  Wind  Temp Month   Day
   <int>   <int> <dbl> <int> <int> <int>
 1    41     190   7.4    67     5     1
 2    36     118     8    72     5     2
 3    12     149  12.6    74     5     3
 4    18     313  11.5    62     5     4
 5    23     299   8.6    65     5     7
 6    19      99  13.8    59     5     8
Data opschonen in R

Ontbrekende waarden vervangen

airquality %>%
  mutate(ozone_filled = ifelse(is.na(Ozone), mean(Ozone, na.rm = TRUE), Ozone))
   Ozone Solar.R  Wind  Temp Month   Day ozone_filled
   <int>   <int> <dbl> <int> <int> <int>        <dbl>
 1    41     190   7.4    67     5     1         41  
 2    36     118   8      72     5     2         36  
 3    12     149  12.6    74     5     3         12  
 4    18     313  11.5    62     5     4         18  
 5    NA      NA  14.3    56     5     5         42.1
Data opschonen in R

Laten we oefenen!

Data opschonen in R

Preparing Video For Download...