Mappare il futuro

Programmazione parallela in R

Nabeel Imam

Data Scientist

Conosciamo i nostri future

report <- "<important report text>"

task_future <- future({
  print("Hi, please find attached the report.")
  report
})
Programmazione parallela in R

Mappare con purrr

library(purrr)


numbers <- 1:1000000 map(numbers, sqrt)
[[1]]
[1] 1

[[2]]
[1] 1.414214

[[3]]
[1] 1.732051

[[4]]
[1] 2
...
Programmazione parallela in R

Varianti di map

map_dbl(numbers, sqrt)
 [1]  1.000000  1.414214  1.732051 
 [4]  2.000000  2.236068  2.449490
 [7]  2.645751  2.828427  3.000000  
[10]  3.162278  3.316625  3.464102
[13]  3.605551  3.741657  3.872983
  ...
  • map + suffisso "_dbl"
    • Per output double/decimale

 

  • Risultati come vettore
Programmazione parallela in R

Varianti di map

map_chr(numbers, sqrt)
 [1] "1.000000"  "1.414214"  "1.732051"
 [4] "2.000000"  "2.236068"  "2.449490"
 [7] "2.645751"  "2.828427"  "3.000000"
[10] "3.162278"  "3.316625"  "3.464102"
[13] "3.605551"  "3.741657"  "3.872983"
  ...
  • map + suffisso "_chr"
    • Per output carattere/stringa

 

  • Vettore di stringhe
Programmazione parallela in R

Varianti di map

Funzione

  • map()
  • map_chr()
  • map_dbl()
  • map_int()
  • map_lgl()

Formato di output

  • Lista di vettori, data frame, ecc.
  • Carattere/stringa (un valore)
  • Double/decimale (un valore)
  • Interi/numeri interi (un valore)
  • Logico/booleano (un valore)
Programmazione parallela in R

Specificare il tipo

microbenchmark(
  "map" = map(numbers, sqrt),
  "map_dbl" = map_dbl(numbers, sqrt),
  "map_chr" = map_chr(numbers, sqrt),
  times = 10
)
Unit: milliseconds
     expr     min    mean     max neval
1     map  794.20 1254.46 1904.02    10
2 map_dbl  889.33 1067.41 1496.56    10
3 map_chr 1735.96 1934.97 2269.59    10
Programmazione parallela in R

future + purrr = furrr

purrr

Sequenziale

library(purrr)
map_dbl(1:1000000, sqrt)

furrr

Sequenziale

library(furrr)
future_map_dbl(1:1000000, sqrt)
Programmazione parallela in R

furrr in parallelo

n_cores <- detectCore() - 2


plan(multisession, workers = n_cores)
future_map_dbl(1:1000000, sqrt) # map_dbl() con future abilitati
plan(sequential)
   [1]  1.000000  1.414214  1.732051  2.000000  2.236068  2.449490  2.645751
   [8]  2.828427  3.000000  3.162278  3.316625  3.464102  3.605551  3.741657
  [15]  3.872983  4.000000  4.123106  4.242641  4.358899  4.472136  4.582576
Programmazione parallela in R

future_map e famiglia

Funzioni purrr

  • map()
  • map_chr()
  • map_dbl()
  • map_int()
  • map_lgl()

Funzioni furrr con future

  • future_map()
  • future_map_chr()
  • future_map_dbl()
  • future_map_int()
  • future_map_lgl()
Programmazione parallela in R

Il vantaggio di furrr

  • Dati degli input input_list e una funzione da mappare, calculate():
future_list <- lapply(input_list, function (x) future(calculate(x)))

result_list <- value(future_list) # Ulteriore elaborazione di result_list per ottenere un vettore numerico
library(furrr)

# Usa la variante future_map_dbl() per ottenere un vettore numerico
result_list <- future_map_dbl(input_list, calculate)
Programmazione parallela in R

Ayo berlatih!

Programmazione parallela in R

Preparing Video For Download...