Parallelizzazione in R

Programmazione parallela in R

Nabeel Imam

Data Scientist

Un esempio pratico

I dati

print(file_list)

 [1] "./uni_data_country/Argentina.csv"
 [2] "./uni_data_country/Armenia.csv"
 [3] "./uni_data_country/Australia.csv"
 [4] "./uni_data_country/Austria.csv"
 [5] "./uni_data_country/Azerbaijan.csv"
 [6] "./uni_data_country/Bahrain.csv"
 [7] "./uni_data_country/Bangladesh.csv"
 [8] "./uni_data_country/Belarus.csv"
 [9] "./uni_data_country/Belgium.csv"
[10] "./uni_data_country/Bolivia.csv"
...

Tre edifici universitari con laureati; a ciascuno è assegnato un rango da 1 a 3.

Aggiungi una colonna

for (file in file_list) {

  df <- read.csv(file)


  df$top100 <- NA

  for (r in 1:nrow(df)) {
    df$top100[r] <- df$world_rank[r] <= 100
  }


  write.csv(df, file)
}

Profilazione

Codice

library(profvis)


profvis({

  for (file in file_list) {

    df <- read.csv(file)
    df$top100 <- NA

    for (r in 1:nrow(df)) {
      df$top100[r] <- df$Rank[r] <= 100
    }
    write.csv(df, file)
  }

})

Output

Output di profiling da profvis(). Nel codice di esempio, la lettura dei dati richiede 40 millisecondi e il riempimento della colonna `top100` 80 millisecondi. Tutti gli altri passaggi sono quasi istantanei.

Parallelizziamo

Il ciclo

  for (file in file_list) {

    df <- read.csv(file)
    df$top100 <- NA

    for (r in 1:nrow(df)) {
      df$top100[r] <- df$Rank[r] <= 100
    }
    write.csv(df, file)
  }

Funzione

add_col <- function(file_path) {

  df <- read.csv(file_path)
  df$top100 <- NA

  for (r in 1:nrow(df)) {
    df$top100[r] <- df$Rank[r] <= 100
  }
  write.csv(df, file_path)
}


cl <- makeCluster(6)

dummy <- parLapply(cl, file_list, add_col)
stopCluster(cl)

Aspetti pratici: numero di core

Rilevare i core

detectCores()

[1] 8

Codice parallelizzato

cl <- makeCluster(detectCores() - 2)


dummy <- parLapply(cl, file_list, add_col)

stopCluster(cl)

Aspetti pratici: tipo di cluster

Cluster PSOCK (predefinito)

cl <- makeCluster(detectCores() - 2)

Crea copie della sessione R corrente
I core non condividono la memoria
Funziona su tutti i sistemi (Windows, Mac, Linux)

Cluster FORK

cl <- makeCluster(detectCores() - 2,
                  type = "FORK")

Crea sottoprocessi dalla sessione R
I core condividono la memoria (più veloce di PSOCK)
Non funziona su Windows

Facciamo esercizio!

Programmazione parallela in R