Meer doen met future_map()

Parallel programmeren in R

Nabeel Imam

Data Scientist

De data en de context

head(data)
   state  year month plurality
 1 AK     1995     1         1
 2 AK     1995     1         1
 3 AK     1995     1         1
 4 AK     1995     1         1
 5 AK     1995     1         1
 6 AK     1995     1         1

Een nieuwe tekstreeks-kolom maken

twins <- function (x) {
    ifelse(x == 2,"Twins", "Not twins")
}
Parallel programmeren in R

Tweelingen labelen

plan(multisession, workers = 4)


data %>% mutate(label = future_map_chr(plurality, twins))
plan(sequential)
   state  year month plurality label    
 1 AK     1995     1         1 Not twins
 2 AK     1995     1         1 Not twins
 3 AK     1995     1         1 Not twins
 4 AK     1995     1         1 Not twins
 5 AK     1995     1         1 Not twins
 6 AK     1995     1         1 Not twins
 7 AK     1995     1         1 Not twins
 8 AK     1995     1         1 Not twins
 9 AK     1995     1         1 Not twins
10 AK     1995     1         1 Not twins
...
Parallel programmeren in R

Tweelingen labelen

microbenchmark(
  "map_chr" = {
    data %>%
 mutate(label = map_chr(plurality, twins))
  },
  "future_map_chr" = {
    data %>%
 mutate(label = future_map_chr(plurality, twins))
  }
)
Unit: seconds
            expr     mean   median neval
1        map_chr 72.69067 73.50705    10
2 future_map_chr 34.52351 34.56357    10

Een stroomdiagram toont het maken van de kolom "label" met map_chr() en future_map_chr(). future_map_chr() halveert de uitvoeringstijd.

Parallel programmeren in R

Operaties per groep

Het aandeel tweelingen

birth_prop <- function (df) {

  N <- sum(df$plurality == 2)  # Totaal aantal tweelinggeboorten
  prop <- N/nrow(df)           # Aandeel van alle geboorten
  names(prop) <- "proportion"  # Naam geven aan de waarde

  return(prop) 
}
Parallel programmeren in R

Operaties per groep

Een dataset heeft groepen A, B en C. De data wordt per groep gesplitst, waarden worden geaggregeerd, en samengevoegd tot een dataset met één rij per groep.

Parallel programmeren in R

Operaties per groep

plan(multisession, workers = 6)


data %>% # Splits per staat, pipe naar future_map_dfr() split(data$state) %>%
# Alleen de functie meegeven future_map_dfr(birth_prop,
# Naam van de groepeer-kolom naar .id .id = "state")
plan(sequential)

Resultaten rijen-gebonden tot één data frame

   year  proportion
 1 AK        0.0114
 2 AL        0.0264
 3 AR        0.0196
 4 AZ        0.0218
 5 CA        0.0197
 6 CO        0.0217
 7 CT        0.0225
 8 DC        0.0283
 9 DE        0.0268
10 FL        0.0212
...
Parallel programmeren in R

Globale variabelen gebruiken

# Tweede argument om de plurality-waarde te specificeren
birth_prop <- function (df, plur_value) {

  N <- sum(df$plurality == plur_value) # Totaal aantal geboorten met deze plurality
  prop <- N/nrow(df)                   
  names(prop) <- "proportion"          

  return(prop) 
}


new_plur <- 3 # Een globale variabele met één waarde
Parallel programmeren in R

Globale variabelen gebruiken

config <- furrr_options(globals = "new_plur")


plan(multisession, workers = 4)
data %>% split(data$state) %>% future_map_dfr(birth_prop, plur_value = new_plur, .options = config, .id = "state") plan(sequential)
   state proportion
 1 AK      0       
 2 AL      0.000659
 3 AR      0       
 4 AZ      0.000605
 5 CA      0.000673
 6 CO      0.000776
 7 CT      0.000867
 8 DC      0.00189 
 9 DE      0       
10 FL      0.00106
...
Parallel programmeren in R

Kolommen binden aan een data frame

data %>%
  split(data$state) %>% 
  future_map_dfc(birth_prop, # De _dfc-variant
                 plur_value = new_plur,
                 .options = config)
     AK       AL    AR       AZ       CA       CO       CT      DC
1     0 0.000659     0 0.000605 0.000673 0.000776 0.000867 0.00189 ...
Parallel programmeren in R

Laten we oefenen!

Parallel programmeren in R

Preparing Video For Download...