Riproducibilità in parallelo

Programmazione parallela in R

Nabeel Imam

Data Scientist

Cos’è la riproducibilità?

Stessi input danno sempre gli stessi risultati
  • Il codice è testabile
  • Altri possono replicare i risultati

Righe di codice producono un grafico a torta. Un secondo run delle stesse righe produce esattamente lo stesso grafico.

Programmazione parallela in R

Estrazione a sorte dei clienti

print(customer_ids)
$USA
   [1] 465500 612953 106420 279492 376941 163474 164493 801983 898941 406844 829157 ...
$Canada
   [1] 140521 398164 817703 715385 771801 656814 721270 719120 425819 774558 111418 ...
$Mexico
   [1] 714842 486725 706765 858020 790364 390760 198667 419197 352989 202494 756636 ...
$UK
   [1] 886285 151731 274940 779966 375535 431644 880434 649074 765423 449147 408041 ...
Programmazione parallela in R

Estrazione a sorte dei clienti

lucky_draw <- function (ids) {
  sample(ids, 1)
}


cl <- makeCluster(4)
set.seed(1234)
parLapply(cl, customer_ids, lucky_draw) stopCluster(cl)
$USA
[1] 673576

$Canada
[1] 164613

$Mexico
[1] 769658

$UK
[1] 683102
Programmazione parallela in R

Il problema della riproducibilità

Vincitori dal primo run

$USA
[1] 673576

$Canada
[1] 164613

$Mexico
[1] 769658

$UK
[1] 683102

Vincitori dal secondo run

$USA
[1] 638051

$Canada
[1] 133431

$Mexico
[1] 522137

$UK
[1] 856141
Programmazione parallela in R

Soluzione

cl <- makeCluster(4)

# Un seed per tutti i processi worker nel cluster clusterSetRNGStream(cl, 1234)
parLapply(cl, customer_ids, lucky_draw) stopCluster(cl)
Programmazione parallela in R

Più run con gli stessi risultati

Vincitori dal primo run

$USA
[1] 421408

$Canada
[1] 877562

$Mexico
[1] 460786

$UK
[1] 658513

Vincitori dal secondo run

$USA
[1] 421408

$Canada
[1] 877562

$Mexico
[1] 460786

$UK
[1] 658513
Programmazione parallela in R

Più run con gli stessi risultati

Primo run

cl <- makeCluster(4)

clusterSetRNGStream(cl, 1234)


run1 <- parLapply(cl, customer_ids, lucky_draw) stopCluster(cl)

Secondo run

cl <- makeCluster(4)

clusterSetRNGStream(cl, 1234)

run2 <- parLapply(cl, customer_ids, lucky_draw)
stopCluster(cl)


identical(run1, run2)
[1] TRUE
Programmazione parallela in R

Risultati riproducibili con furrr

Primo run
config <- furrr_options(seed = 1234)


plan(multisession, workers = 4) run1 <- future_map(customer_ids, lucky_draw, .options = config) plan(sequential)
Secondo run
plan(multisession, workers = 4)

run2 <- future_map(customer_ids, lucky_draw,
                  # Usando la stessa configurazione
                  .options = config)
plan(sequential)

identical(run1, run2)
[1] TRUE
Programmazione parallela in R

Risultati riproducibili con foreach

Primo run
install.packages("doRNG")
library(doRNG)


cl <- makeCluster(4) registerDoParallel(cl)
registerDoRNG(1234)
run1 <- foreach(i = customer_ids) %dopar% { lucky_draw(i) } stopCluster(cl)
Secondo run
cl <- makeCluster(4)
registerDoParallel(cl)
registerDoRNG(1234) # Stesso seed

run2 <- foreach(i = customer_ids) %dopar% {
  lucky_draw(i)
}
stopCluster(cl)

identical(run1, run2)
[1] TRUE
Programmazione parallela in R

Quando pensare alla riproducibilità

  • Chiamate dirette ai generatori di numeri casuali
    • rnorm, rbinom, ecc.
  • Campionamento casuale
    • Bootstrap
    • sample_n() di dplyr
Programmazione parallela in R

Passons à la pratique !

Programmazione parallela in R

Preparing Video For Download...