Reproduceerbaarheid in parallel

Parallel programmeren in R

Nabeel Imam

Data Scientist

Wat is reproduceerbaarheid?

Dezelfde input geeft elke run dezelfde resultaten
  • Code is te testen
  • Anderen kunnen resultaten repliceren

Regels code leveren een taartdiagram op. Een tweede run met dezelfde regels geeft precies hetzelfde taartdiagram.

Parallel programmeren in R

De klantenloterij

print(customer_ids)
$USA
   [1] 465500 612953 106420 279492 376941 163474 164493 801983 898941 406844 829157 ...
$Canada
   [1] 140521 398164 817703 715385 771801 656814 721270 719120 425819 774558 111418 ...
$Mexico
   [1] 714842 486725 706765 858020 790364 390760 198667 419197 352989 202494 756636 ...
$UK
   [1] 886285 151731 274940 779966 375535 431644 880434 649074 765423 449147 408041 ...
Parallel programmeren in R

De klantenloterij

lucky_draw <- function (ids) {
  sample(ids, 1)
}


cl <- makeCluster(4)
set.seed(1234)
parLapply(cl, customer_ids, lucky_draw) stopCluster(cl)
$USA
[1] 673576

$Canada
[1] 164613

$Mexico
[1] 769658

$UK
[1] 683102
Parallel programmeren in R

Het reproduceerbaarheidsprobleem

Winnaars van de eerste run

$USA
[1] 673576

$Canada
[1] 164613

$Mexico
[1] 769658

$UK
[1] 683102

Winnaars van de tweede run

$USA
[1] 638051

$Canada
[1] 133431

$Mexico
[1] 522137

$UK
[1] 856141
Parallel programmeren in R

Oplossing

cl <- makeCluster(4)

# Een seed voor alle workerprocessen in de cluster clusterSetRNGStream(cl, 1234)
parLapply(cl, customer_ids, lucky_draw) stopCluster(cl)
Parallel programmeren in R

Meerdere runs met dezelfde resultaten

Winnaars van de eerste run

$USA
[1] 421408

$Canada
[1] 877562

$Mexico
[1] 460786

$UK
[1] 658513

Winnaars van de tweede run

$USA
[1] 421408

$Canada
[1] 877562

$Mexico
[1] 460786

$UK
[1] 658513
Parallel programmeren in R

Meerdere runs met dezelfde resultaten

Eerste run

cl <- makeCluster(4)

clusterSetRNGStream(cl, 1234)


run1 <- parLapply(cl, customer_ids, lucky_draw) stopCluster(cl)

Tweede run

cl <- makeCluster(4)

clusterSetRNGStream(cl, 1234)

run2 <- parLapply(cl, customer_ids, lucky_draw)
stopCluster(cl)


identical(run1, run2)
[1] TRUE
Parallel programmeren in R

Reproduceerbare resultaten met furrr

Eerste run
config <- furrr_options(seed = 1234)


plan(multisession, workers = 4) run1 <- future_map(customer_ids, lucky_draw, .options = config) plan(sequential)
Tweede run
plan(multisession, workers = 4)

run2 <- future_map(customer_ids, lucky_draw,
                  # Dezelfde configuratie gebruiken
                  .options = config)
plan(sequential)

identical(run1, run2)
[1] TRUE
Parallel programmeren in R

Reproduceerbare resultaten met foreach

Eerste run
install.packages("doRNG")
library(doRNG)


cl <- makeCluster(4) registerDoParallel(cl)
registerDoRNG(1234)
run1 <- foreach(i = customer_ids) %dopar% { lucky_draw(i) } stopCluster(cl)
Tweede run
cl <- makeCluster(4)
registerDoParallel(cl)
registerDoRNG(1234) # Zelfde seed

run2 <- foreach(i = customer_ids) %dopar% {
  lucky_draw(i)
}
stopCluster(cl)

identical(run1, run2)
[1] TRUE
Parallel programmeren in R

Wanneer aan reproduceerbaarheid denken

  • Directe aanroep van randomgetalgeneratoren
    • rnorm, rbinom, etc.
  • Willekeurig sampelen
    • Bootstraps
    • sample_n() uit dplyr
Parallel programmeren in R

Laten we oefenen!

Parallel programmeren in R

Preparing Video For Download...