De toekomst in kaart brengen

Parallel programmeren in R

Nabeel Imam

Data Scientist

We kennen onze futures

report <- "<important report text>"

task_future <- future({
  print("Hi, please find attached the report.")
  report
})
Parallel programmeren in R

Mappen met purrr

library(purrr)


numbers <- 1:1000000 map(numbers, sqrt)
[[1]]
[1] 1

[[2]]
[1] 1.414214

[[3]]
[1] 1.732051

[[4]]
[1] 2
...
Parallel programmeren in R

Varianten van map

map_dbl(numbers, sqrt)
 [1]  1.000000  1.414214  1.732051 
 [4]  2.000000  2.236068  2.449490
 [7]  2.645751  2.828427  3.000000  
[10]  3.162278  3.316625  3.464102
[13]  3.605551  3.741657  3.872983
  ...
  • map + "_dbl"-suffix
    • Voor double- of decimale output

 

  • Resultaat als vector
Parallel programmeren in R

Varianten van map

map_chr(numbers, sqrt)
 [1] "1.000000"  "1.414214"  "1.732051"
 [4] "2.000000"  "2.236068"  "2.449490"
 [7] "2.645751"  "2.828427"  "3.000000"
[10] "3.162278"  "3.316625"  "3.464102"
[13] "3.605551"  "3.741657"  "3.872983"
  ...
  • map + "_chr"-suffix
    • Voor character- of stringoutput

 

  • Vector met strings
Parallel programmeren in R

Varianten van map

Functie

  • map()
  • map_chr()
  • map_dbl()
  • map_int()
  • map_lgl()

Uitvoerformaat

  • Lijst van vectoren, dataframes, enz.
  • Character of string (één waarde)
  • Double of decimaal (één waarde)
  • Integer of geheel getal (één waarde)
  • Logisch of boolean (één waarde)
Parallel programmeren in R

Typespecificatie

microbenchmark(
  "map" = map(numbers, sqrt),
  "map_dbl" = map_dbl(numbers, sqrt),
  "map_chr" = map_chr(numbers, sqrt),
  times = 10
)
Unit: milliseconds
     expr     min    mean     max neval
1     map  794.20 1254.46 1904.02    10
2 map_dbl  889.33 1067.41 1496.56    10
3 map_chr 1735.96 1934.97 2269.59    10
Parallel programmeren in R

future + purrr = furrr

purrr

Sequentieel

library(purrr)
map_dbl(1:1000000, sqrt)

furrr

Sequentieel

library(furrr)
future_map_dbl(1:1000000, sqrt)
Parallel programmeren in R

furrr in parallel

n_cores <- detectCore() - 2


plan(multisession, workers = n_cores)
future_map_dbl(1:1000000, sqrt) # Future-enabled map_dbl()
plan(sequentieel)
   [1]  1.000000  1.414214  1.732051  2.000000  2.236068  2.449490  2.645751
   [8]  2.828427  3.000000  3.162278  3.316625  3.464102  3.605551  3.741657
  [15]  3.872983  4.000000  4.123106  4.242641  4.358899  4.472136  4.582576
Parallel programmeren in R

future_map en familie

purrr-functie

  • map()
  • map_chr()
  • map_dbl()
  • map_int()
  • map_lgl()

future-enabled furrr-functie

  • future_map()
  • future_map_chr()
  • future_map_dbl()
  • future_map_int()
  • future_map_lgl()
Parallel programmeren in R

Het voordeel van furrr

  • Gegeven een reeks inputs, input_list, en een te mappen functie, calculate():
future_list <- lapply(input_list, function (x) future(calculate(x)))

result_list <- value(future_list) # Verdere verwerking van result_list naar een numerieke vector
library(furrr)

# Gebruik future_map_dbl()-variant om een numerieke vector te krijgen
result_list <- future_map_dbl(input_list, calculate)
Parallel programmeren in R

Laten we oefenen!

Parallel programmeren in R

Preparing Video For Download...