Parallelisatie in R

Parallel programmeren in R

Nabeel Imam

Data Scientist

Een praktisch voorbeeld

De data

print(file_list)
 [1] "./uni_data_country/Argentina.csv"
 [2] "./uni_data_country/Armenia.csv"
 [3] "./uni_data_country/Australia.csv"
 [4] "./uni_data_country/Austria.csv"
 [5] "./uni_data_country/Azerbaijan.csv"
 [6] "./uni_data_country/Bahrain.csv"
 [7] "./uni_data_country/Bangladesh.csv"
 [8] "./uni_data_country/Belarus.csv"
 [9] "./uni_data_country/Belgium.csv"
[10] "./uni_data_country/Bolivia.csv"
...

Drie universiteitsgebouwen met afstuderende studenten, elk met rang één tot en met drie.

Parallel programmeren in R

Een kolom toevoegen

for (file in file_list) {

  df <- read.csv(file)


df$top100 <- NA for (r in 1:nrow(df)) { df$top100[r] <- df$world_rank[r] <= 100 }
write.csv(df, file) }
Parallel programmeren in R

Profiling

Code

library(profvis)


profvis({
for (file in file_list) { df <- read.csv(file) df$top100 <- NA for (r in 1:nrow(df)) { df$top100[r] <- df$Rank[r] <= 100 } write.csv(df, file) }
})

Output

Profiler-uitvoer van profvis(). In de voorbeeldcode kost data inlezen 40 milliseconden en het vullen van de kolom `top100` 80 milliseconden. De rest is nagenoeg direct.

Parallel programmeren in R

Laten we paralleliseren

De lus

  for (file in file_list) {

    df <- read.csv(file)
    df$top100 <- NA

    for (r in 1:nrow(df)) {
      df$top100[r] <- df$Rank[r] <= 100
    }
    write.csv(df, file)
  }

Functie

add_col <- function(file_path) {

  df <- read.csv(file_path)
  df$top100 <- NA

  for (r in 1:nrow(df)) {
    df$top100[r] <- df$Rank[r] <= 100
  }
  write.csv(df, file_path)
}


cl <- makeCluster(6)
dummy <- parLapply(cl, file_list, add_col) stopCluster(cl)
Parallel programmeren in R

Praktisch: aantal cores

Cores detecteren

detectCores()
[1] 8

Geparallelliseerde code

cl <- makeCluster(detectCores() - 2)


dummy <- parLapply(cl, file_list, add_col) stopCluster(cl)
Parallel programmeren in R

Praktisch: clustertype

PSOCK-cluster (standaard)

cl <- makeCluster(detectCores() - 2)
  • Maakt kopieën van de huidige R-sessie
  • Cores delen geen geheugen
  • Werkt op elk OS (Windows, Mac, Linux)

FORK-cluster

cl <- makeCluster(detectCores() - 2,
                  type = "FORK")
  • Maakt subprocessen vanuit de R-sessie
  • Cores delen geheugen (sneller dan PSOCK)
  • Werkt niet op Windows
Parallel programmeren in R

Laten we oefenen!

Parallel programmeren in R

Preparing Video For Download...