Parallelizzazione in R

Programmazione parallela in R

Nabeel Imam

Data Scientist

Un esempio pratico

I dati

print(file_list)
 [1] "./uni_data_country/Argentina.csv"
 [2] "./uni_data_country/Armenia.csv"
 [3] "./uni_data_country/Australia.csv"
 [4] "./uni_data_country/Austria.csv"
 [5] "./uni_data_country/Azerbaijan.csv"
 [6] "./uni_data_country/Bahrain.csv"
 [7] "./uni_data_country/Bangladesh.csv"
 [8] "./uni_data_country/Belarus.csv"
 [9] "./uni_data_country/Belgium.csv"
[10] "./uni_data_country/Bolivia.csv"
...

Tre edifici universitari con laureati; a ciascuno è assegnato un rango da 1 a 3.

Programmazione parallela in R

Aggiungi una colonna

for (file in file_list) {

  df <- read.csv(file)


df$top100 <- NA for (r in 1:nrow(df)) { df$top100[r] <- df$world_rank[r] <= 100 }
write.csv(df, file) }
Programmazione parallela in R

Profilazione

Codice

library(profvis)


profvis({
for (file in file_list) { df <- read.csv(file) df$top100 <- NA for (r in 1:nrow(df)) { df$top100[r] <- df$Rank[r] <= 100 } write.csv(df, file) }
})

Output

Output di profiling da profvis(). Nel codice di esempio, la lettura dei dati richiede 40 millisecondi e il riempimento della colonna `top100` 80 millisecondi. Tutti gli altri passaggi sono quasi istantanei.

Programmazione parallela in R

Parallelizziamo

Il ciclo

  for (file in file_list) {

    df <- read.csv(file)
    df$top100 <- NA

    for (r in 1:nrow(df)) {
      df$top100[r] <- df$Rank[r] <= 100
    }
    write.csv(df, file)
  }

Funzione

add_col <- function(file_path) {

  df <- read.csv(file_path)
  df$top100 <- NA

  for (r in 1:nrow(df)) {
    df$top100[r] <- df$Rank[r] <= 100
  }
  write.csv(df, file_path)
}


cl <- makeCluster(6)
dummy <- parLapply(cl, file_list, add_col) stopCluster(cl)
Programmazione parallela in R

Aspetti pratici: numero di core

Rilevare i core

detectCores()
[1] 8

Codice parallelizzato

cl <- makeCluster(detectCores() - 2)


dummy <- parLapply(cl, file_list, add_col) stopCluster(cl)
Programmazione parallela in R

Aspetti pratici: tipo di cluster

Cluster PSOCK (predefinito)

cl <- makeCluster(detectCores() - 2)
  • Crea copie della sessione R corrente
  • I core non condividono la memoria
  • Funziona su tutti i sistemi (Windows, Mac, Linux)

Cluster FORK

cl <- makeCluster(detectCores() - 2,
                  type = "FORK")
  • Crea sottoprocessi dalla sessione R
  • I core condividono la memoria (più veloce di PSOCK)
  • Non funziona su Windows
Programmazione parallela in R

Facciamo esercizio!

Programmazione parallela in R

Preparing Video For Download...