Snijdende lijnen zijn niet parallel

Programmeren met dplyr

Dr. Chester Ismay

Educator, Data Scientist, and R/Python Consultant

Set-operatoren

  • Vergelijk en combineer data uit twee bronnen

  • dplyr heeft functies voor verzamelingen op tibbles

Programmeren met dplyr

Venn-diagrammen voor verzamelingenleer

Venn-diagram intersect

Venn-diagram unie

Venn-diagram union_all

Venn-diagram setdiff

Programmeren met dplyr

intersect-diagram

intersect-diagram

Programmeren met dplyr

Uruguay-tibbles

uruguay_imf
# A tibble: 9 x 4
  iso   country  year consumer_price_index
  <chr> <chr>   <int>                <dbl>
1 URY   Uruguay  2011                 105.
2 URY   Uruguay  2012                 114.
3 URY   Uruguay  2013                 123.
4 URY   Uruguay  2014                 134.
5 URY   Uruguay  2015                 146.
6 URY   Uruguay  2016                 160.
7 URY   Uruguay  2017                 170.
8 URY   Uruguay  2018                 183.
9 URY   Uruguay  2019                 197.
uruguay_wb
# A tibble: 4 x 4
  iso   country  year perc_rural_pop
  <chr> <chr>   <dbl>          <dbl>
1 URY   Uruguay  2013           5.16
2 URY   Uruguay  2014           5.06
3 URY   Uruguay  2015           4.96
4 URY   Uruguay  2016           4.86
Programmeren met dplyr

intersect() uitproberen

intersect(uruguay_imf, uruguay_wb)
Error: not compatible: 
not compatible: 
- Cols in y but not x: `perc_rural_pop`.
- Cols in x but not y: `consumer_price_index`.
intersect(uruguay_imf$year, uruguay_wb$year)
[1] 2013 2014 2015 2016
Programmeren met dplyr

Verschil tussen intersect() en een join

  • intersect() zoekt naar gemeenschappelijke rijen
  • inner_join() zoekt naar overeenkomende sleutelwaarden

Dit is een belangrijk verschil.

Programmeren met dplyr

Laten we oefenen!

Programmeren met dplyr

Preparing Video For Download...