Scrivere e visualizzare pipeline DVC

Introduzione al versionamento dei dati con DVC

Ravi Bhadauria

Machine Learning Engineer

Pipeline DVC

  • Sequenza di stage che definisce workflow ML e dipendenze

    • Versionata e tracciata con Git
  • Definita nel file dvc.yaml

    • Dati di input e script (deps)
    • Parametri (params)
    • Comandi di esecuzione degli stage (cmd)
    • Artifact di output (outs)
      • Dati speciali es. metrics e plots
Introduzione al versionamento dei dati con DVC

Aggiungere lo stage di preprocessing

  • Crea stage con dvc stage add
dvc stage add \
-n preprocess \
-p params.yaml:preprocess \
-d raw_data.csv \
-d preprocess.py \
-o processed_data.csv \
python3 preprocess.py
stages:
  preprocess:
    cmd: python3 preprocess.py
    params:
      # Keys from params.yaml
      - params.yaml
        - preprocess
    deps:
    - preprocess.py
    - raw_data.csv
    outs:
    - processed_data.csv
Introduzione al versionamento dei dati con DVC

Aggiungere stage di training e valutazione

  • Aggiungi il training usando l'output dello step precedente
dvc stage add \
-n train_and_evaluate \
-p train_and_evaluate \
-d train_and_evaluate.py \
-d processed_data.csv \
-o plots.png \
-o metrics.json \
python3 train_and_evaluate.py
  • Directed Acyclic Graph (DAG)
stages:
  train_and_evaluate:
    cmd: python3 train_and_evaluate.py
    params:
      # Skip specifying parameter file
      # Defaulted to params.yaml
      - train_and_evaluate
    deps:
    - processed_data.csv
    - train_and_evaluate.py
    outs:
    - plots.png
    - metrics.json
Introduzione al versionamento dei dati con DVC

Aggiornare gli stage

  • Eseguire dvc stage add più volte
ERROR: Stage 'train_and_evaluate' 
esiste già in 'dvc.yaml'.
Usa '--force' per sovrascrivere.
  • Usa dvc stage add --force
dvc stage add --force \
-n train_and_evaluate \
-p train_and_evaluate \
-d train_and_evaluate.py \
-d processed_data.csv \
-o plots.png \
-o metrics.json \
python3 train_and_evaluate.py
Introduzione al versionamento dei dati con DVC

Visualizzare pipeline DVC

# Stampa il DAG nel terminale
dvc dag
# Mostra il DAG fino a uno step
dvc dag <target>
            +------------+     
            | preprocess |     
            +------------+     
                   *           
                   *           
                   *           
        +--------------------+ 
        | train_and_evaluate | 
        +--------------------+
Introduzione al versionamento dei dati con DVC

Visualizzare pipeline DVC

# Mostra gli output degli step come nodi
dvc dag --outs
                    +-------------------------------+              
                    | processed_dataset/weather.csv |              
                    +-------------------------------+              
                          ***               ***                    
                       ***                     ***                 
                     **                           **               
          +--------------+                    +-----------+ 
          | metrics.json |                    | plots.png | 
          +--------------+                    +-----------+
Introduzione al versionamento dei dati con DVC

Visualizzare pipeline DVC

dvc dag --dot
strict digraph  {
"preprocess";
"train_and_evaluate";
"preprocess" -> "train_and_evaluate";
}

Un DAG DVC a due stage tracciato come grafo da file DOT

1 https://dreampuf.github.io/GraphvizOnline/
Introduzione al versionamento dei dati con DVC

Passons à la pratique !

Introduzione al versionamento dei dati con DVC

Preparing Video For Download...