parLapply in de praktijk

Parallel programmeren in R

Nabeel Imam

Data Scientist

Maak kennis met de workers

cluster <- makeCluster(4)
clusterEvalQ(cluster, {
  id <- Sys.getpid()
  print(
    paste("Hello, my worker ID is", id)
  )
})
[[1]]
[1] "Hello, my worker ID is 425108"

[[2]]
[1] "Hello, my worker ID is 425129"

[[3]]
[1] "Hello, my worker ID is 425150"

[[4]]
[1] "Hello, my worker ID is 425171"
Parallel programmeren in R

Data parallel filteren

print(file_list)
 [1] "./health/Afghanistan.csv"            
 [2] "./health/Albania.csv"            
 [3] "./health/Algeria.csv"            
 [4] "./health/American Samoa.csv"     
 [5] "./health/Andorra.csv"            
...

Een stethoscoop ligt op een stapel biljetten van honderd dollar.

Parallel programmeren in R

Data parallel filteren

filterCSV <- function (csv) {
  read.csv(csv) %>% 
    dplyr::filter(!is.na(health_exp_pc))
}


cl <- makeCluster(4) ls_df <- parLapply(cl, file_list, filterCSV) stopCluster(cl)
Error in checkForRemoteErrors(val) :
  first error: could not find function "%>%"
Parallel programmeren in R

clusterEvalQ to the rescue

Laad een package op het cluster

cl <- makeCluster(4)
clusterEvalQ(cl, library(dplyr))


ls_df <- parLapply(cl, file_list, filterCSV) stopCluster(cl)

Meerdere packages laden op het cluster

clusterEvalQ(cl, {
  library(dplyr)
  library(stringr)
})
[[1]]
       Country health_exp_pc Year
1  Afghanistan      81.27103 2002
2  Afghanistan      82.45785 2003
3  Afghanistan      89.47005 2004
...

[[2]]
   Country health_exp_pc Year
1  Albania      300.2757 2001
2  Albania      314.3254 2002
3  Albania      343.9442 2003
...
Parallel programmeren in R

Filteren met voorwaarden

# Functie met een argument voor startjaar
filterCSV <- function (csv, min_year) { 

  read.csv(csv) %>% 
    dplyr::filter(!is.na(health_exp_pc),

                  # Filter data vanaf min_year
                  Year >= min_year) 
}


selected_year <- 2010 # Waarde voor min_year
Parallel programmeren in R

Filteren met voorwaarden

cl <- makeCluster(4)
clusterEvalQ(cl, library(dplyr))

clusterExport(cl, "selected_year",
envir = environment())
ls_df <- parLapply(cl, file_list, filterCSV,
min_year = selected_year)
stopCluster(cl)

   

  • Exporteer selected_year naar cluster
  • Exporteer vanuit de huidige environment

 

  • Geef selected_year door aan min_year
Parallel programmeren in R

Filteren met voorwaarden

[[1]]
       Country health_exp_pc Year
1  Afghanistan      143.6695 2010
2  Afghanistan      143.0915 2011
3  Afghanistan      151.9180 2012
...
  Country health_exp_pc Year
1 Albania      451.8820 2010
2 Albania      485.5835 2011
3 Albania      529.6322 2012
...
Parallel programmeren in R

Checklist clustergezondheid

  • Bepaal het aantal cores
  • Maak een passend cluster
    • PSOCK: compatibel op alle systemen
    • FORK: voor Linux of Mac (sneller)
  • Laad benodigde packages
  • Exporteer benodigde variabelen
  • Geef geëxporteerde variabele door aan het benoemde argument
  • Stop het cluster als je klaar bent
n_cores <- detectCores() - 2


cluster <- makeCluster(n_cores)
clusterEvalQ(cluster, library(crucial_package))
clusterExport(cluster, "variable_we_need")
parLapply(cluster, ls_inputs, our_function, named_argument = variable_we_need)
stopCluster(cluster)
Parallel programmeren in R

Laten we oefenen!

Parallel programmeren in R

Preparing Video For Download...