Debugging in parallelo

Programmazione parallela in R

Nabeel Imam

Data Scientist

Cos'è il debugging?

Persone sviluppatrici individuano un bug nel codice su uno schermo e provano a rimuoverlo.

Programmazione parallela in R

Lettura dei file in parallelo

print(file_list)
 [1] "./stocks/2011.csv"
 [2] "./stocks/2012.csv"
 [3] "./stocks/2013.csv"
 [4] "./stocks/2014.csv"
 [5] "./stocks/2015.csv"
 ...
Programmazione parallela in R

La funzione di filtraggio

filterCSV <- function (filepath) {

  # Read CSV
  df <- read.csv(filepath)

  # Filter data
  df <- df %>%
    dplyr::filter(Company == "Tesla")

  # Write to back to same path
  write.csv(df, filepath)
}
Programmazione parallela in R

La apply in parallelo

cl <- makeCluster(4)

clusterEvalQ(cl, library(dplyr))
dummy <- parLapply(cl, file_list, filterCSV)
stopCluster(cl)
Error in checkForRemoteErrors(val) : 
  one node produced an error: ℹ In argument: `Company == "Tesla"`.
Caused by error:
! object 'Company' not found
Programmazione parallela in R

Esecuzione sequenziale

short_list <- file_list[1:5]


dummy <- lapply(short_list, filterCSV)
read.csv(short_list[1])
         Date  Open  High   Low Close Adj.Close   Volume Company Year
1  2011-01-03 5.368 5.400 5.180 5.324     5.324  6415000   Tesla 2011
2  2011-01-04 5.332 5.390 5.204 5.334     5.334  5937000   Tesla 2011
3  2011-01-05 5.296 5.380 5.238 5.366     5.366  7233500   Tesla 2011
...
Programmazione parallela in R

Individua l'errore

Messaggio di errore

Error in checkForRemoteErrors(val) : 
  one node produced an error: 
  In argument: `Company == "Tesla"`.
Caused by error:
! object 'Company' not found

Programmatrici e programmatori esaminano un grande punto esclamativo rosso sullo schermo.

Programmazione parallela in R

Individua l'errore

filterCSV <- function (filepath) {

  # Read CSV
  df <- read.csv(filepath)

  # Filter data
  df <- df %>%
    dplyr::filter(Company == "Tesla")

  # Write to back to same path
  write.csv(df, filepath)
}
filterCSV_debug <- function (filepath) {

  df <- read.csv(filepath)

print(
# Paste file path and column names paste(filepath, ":",
# Collapse column names into one string paste0(colnames(df), collapse = ","))
)
df <- df %>% dplyr::filter(Company == "Tesla") write.csv(df, filepath) }
Programmazione parallela in R

Individua l'errore

cl <- makeCluster(4)
clusterEvalQ(cl, library(dplyr))

dummy <- parLapply(cl, file_list, filterCSV_debug)
stopCluster(cl)
Error in checkForRemoteErrors(val) : 
  one node produced an error: ℹ In argument: `Company == "Microsoft"`.
Caused by error:
! object 'Company' not found
Programmazione parallela in R

Individua l'errore

cl <- makeCluster(4, outfile = "log.txt") # Registra i messaggi di print in "log.txt"

clusterEvalQ(cl, library(dplyr)) parLapply(cl, file_list, filterCSV_debug) stopCluster(cl)
Error in checkForRemoteErrors(val) : 
  one node produced an error: ℹ In argument: `Company == "Tesla"`.
Caused by error:
! object 'Company' not found
Programmazione parallela in R

Esaminare i log

Un testo mostra i percorsi dei file CSV e le relative colonne. Il percorso per i dati 2017 è evidenziato e manca la colonna "Company".

Programmazione parallela in R

Debugging con foreach

cl <- makeCluster(4,
                  # Fornisci un file di testo per registrare i messaggi di print
                  outfile = "log.txt")

registerDoParallel(cl)

foreach(f = file_list,
        .packages = "dplyr") %dopar% {
  filterCSV_debug(f)
}

stopCluster(cl)
Programmazione parallela in R

Il vantaggio di furrr

plan(multisession, workers = 4)
future_map(file_list, filterCSV_debug)
plan(sequential)
Programmazione parallela in R

Il vantaggio di furrr

[1] "./stocks/2011.csv : Date,Open,High,Low,Close,Adj.Close,Volume,Company,Year"
[1] "./stocks/2012.csv : Date,Open,High,Low,Close,Adj.Close,Volume,Company,Year"
[1] "./stocks/2013.csv : Date,Open,High,Low,Close,Adj.Close,Volume,Company,Year"
[1] "./stocks/2014.csv : Date,Open,High,Low,Close,Adj.Close,Volume,Company,Year"
[1] "./stocks/2015.csv : Date,Open,High,Low,Close,Adj.Close,Volume,Company,Year"
[1] "./stocks/2016.csv : Date,Open,High,Low,Close,Adj.Close,Volume,Company,Year"
[1] "./stocks/2017.csv : Date,Open,High,Low,Close,Adj.Close,Volume,Year"
Error in (function (.x, .f, ..., .progress = FALSE)  : 
  ℹ In index: 1.
Caused by error in `dplyr::filter()`:
ℹ In argument: `Company == "Tesla"`.
Caused by error:
! object 'Company' not found
Programmazione parallela in R

I passaggi

Per errori in parallelo
  • Esegui in sequenza su un sottoinsieme dell'input
  • Leggi il messaggio di errore e stampa messaggi utili
  • Individua l'errore stampando o registrando log
  • Correggi l'errore
Programmazione parallela in R

Passons à la pratique !

Programmazione parallela in R

Preparing Video For Download...