Uniformiteit

Data opschonen in R

Maggie Matsui

Content Developer @ DataCamp

Uniformiteit

  • Verschillende eenheden of formaten
    • Temperatuur: °C vs. °F
    • Gewicht: kg vs. g vs. lb
    • Geld: USD $ vs. GBP £ vs. JPY ¥
    • Datum: DD-MM-YYYY vs. MM-DD-YYYY vs. YYYY-MM-DD
Data opschonen in R

Waar komen uniformiteitsproblemen vandaan?

Links drie databases met pijlen naar één tabel (meerdere databronnen). Rechts een vrij tekstveld met cursor en een computer met toetsenbord (invoerfouten).

Data opschonen in R

Uniformiteitsproblemen vinden

head(nyc_temps)
         date temp
1  2019-04-01  4.2
2  2019-04-02  7.5
3  2019-04-03 12.2
4  2019-04-04 11.1
5  2019-04-05 41.5
6  2019-04-06 11.9
Data opschonen in R

Uniformiteitsproblemen vinden

library(ggplot2)
ggplot(nyc_temps, aes(x = date, y = temp)) +
  geom_point()

Plot gegenereerd door code. Er zijn drie temperaturen die duidelijk veel hoger liggen dan de rest.

Data opschonen in R

Wat te doen?

  • Er is geen beste optie. Het hangt af van je dataset!
  • Onderzoek waar je data vandaan komt

Plot gegenereerd door code. Er zijn drie temperaturen die duidelijk veel hoger liggen dan de rest.

  • Data van 7, 16 en 23 apr komt uit een externe bron die in °F mat
Data opschonen in R

Eenheden omrekenen

$$\text{C} = (\text{F} - 32) \times \frac{5}{9}$$

ifelse(condition, value_if_true, value_if_false)

nyc_temps %>%
  mutate(temp_c = ifelse(temp > 50, (temp - 32) * 5 / 9, temp))
         date temp   temp_c
1  2019-04-01  4.2  4.20000
...
7  2019-04-07 58.5 14.72222
...
Data opschonen in R

Eenheden omrekenen

nyc_temps %>%
  mutate(temp_c = ifelse(temp > 50, (temp - 32) * 5 / 9, temp)) %>%
  ggplot(aes(x = date, y = temp_c)) +
    geom_point()

Plot gegenereerd door code; er zijn nu geen duidelijke uitschieters meer doordat ze zijn omgerekend.

Data opschonen in R

Datumuniformiteit

nyc_temps
             date temp_c
1      2019-11-23   5.12
2        01/15/19  -0.67
3  April 24, 2019  17.46
4        08/30/19  26.46
5 October 3, 2019  14.63
6      2019-03-17   3.47

 

Datumtekenreeks Date-formaat
"2019-11-23" "%Y-%m-%d"
"01/15/19" "%m/%d/%y"
"April 24, 2019" "%B %d, %Y"

 

?strptime in de R-console

Data opschonen in R

Meerdere formaten parsen

library(lubridate)
parse_date_time(nyc_temps$date,
                orders = c("%Y-%m-%d", "%m/%d/%y", "%B %d, %Y"))
"2019-11-23 UTC" "2019-01-15 UTC" "2019-04-24 UTC" "2019-08-30 UTC"
"2019-10-03 UTC" "2019-03-17 UTC"
parse_date_time("Monday, January 3",
                orders = c("%Y-%m-%d", "%m/%d/%y", "%B %d, %Y"))
NA
Data opschonen in R

Ambigue datums

Valt 02/04/2019 in februari of april?

  • Hangt af van je data!

 

Opties:

  • Behandel als ontbrekend
  • Komt je data uit meerdere bronnen? Leid af op basis van bron
  • Leid af op basis van andere data in de dataset
Data opschonen in R

Laten we oefenen!

Data opschonen in R

Preparing Video For Download...