DVC-pipelines schrijven en visualiseren

Introductie tot dataversiebeheer met DVC

Ravi Bhadauria

Machine Learning Engineer

DVC-pipelines

  • Reeks stages die ML-workflow en afhankelijkheden definiëren

    • Geversioneerd en gevolgd met Git
  • Gedefinieerd in dvc.yaml

    • Invoerdata en scripts (deps)
    • Parameters (params)
    • Stage-commando (cmd)
    • Uitvoerartefacten (outs)
      • Speciale data, bijv. metrics en plots
Introductie tot dataversiebeheer met DVC

Preprocessing-stage toevoegen

  • Maak stages met dvc stage add
dvc stage add \
-n preprocess \
-p params.yaml:preprocess \
-d raw_data.csv \
-d preprocess.py \
-o processed_data.csv \
python3 preprocess.py
stages:
  preprocess:
    cmd: python3 preprocess.py
    params:
      # Keys from params.yaml
      - params.yaml
        - preprocess
    deps:
    - preprocess.py
    - raw_data.csv
    outs:
    - processed_data.csv
Introductie tot dataversiebeheer met DVC

Training- en evaluatie-stage toevoegen

  • Voeg een training-stap toe met uitvoer van de vorige stap
dvc stage add \
-n train_and_evaluate \
-p train_and_evaluate \
-d train_and_evaluate.py \
-d processed_data.csv \
-o plots.png \
-o metrics.json \
python3 train_and_evaluate.py
  • Gerichte acyclische graaf (DAG)
stages:
  train_and_evaluate:
    cmd: python3 train_and_evaluate.py
    params:
      # Skip specifying parameter file
      # Defaulted to params.yaml
      - train_and_evaluate
    deps:
    - processed_data.csv
    - train_and_evaluate.py
    outs:
    - plots.png
    - metrics.json
Introductie tot dataversiebeheer met DVC

Stages bijwerken

  • dvc stage add meerdere keren uitvoeren
ERROR: Stage 'train_and_evaluate' 
already exists in 'dvc.yaml'.
Use '--force' to overwrite.
  • Gebruik dvc stage add --force
dvc stage add --force \
-n train_and_evaluate \
-p train_and_evaluate \
-d train_and_evaluate.py \
-d processed_data.csv \
-o plots.png \
-o metrics.json \
python3 train_and_evaluate.py
Introductie tot dataversiebeheer met DVC

DVC-pipelines visualiseren

# Toon DAG in de terminal
dvc dag
# Toon DAG t/m een bepaalde stap
dvc dag <target>
            +------------+     
            | preprocess |     
            +------------+     
                   *           
                   *           
                   *           
        +--------------------+ 
        | train_and_evaluate | 
        +--------------------+
Introductie tot dataversiebeheer met DVC

DVC-pipelines visualiseren

# Toon stapuitvoer als knooppunten
dvc dag --outs
                    +-------------------------------+              
                    | processed_dataset/weather.csv |              
                    +-------------------------------+              
                          ***               ***                    
                       ***                     ***                 
                     **                           **               
          +--------------+                    +-----------+ 
          | metrics.json |                    | plots.png | 
          +--------------+                    +-----------+
Introductie tot dataversiebeheer met DVC

DVC-pipelines visualiseren

dvc dag --dot
strict digraph  {
"preprocess";
"train_and_evaluate";
"preprocess" -> "train_and_evaluate";
}

Een DVC-DAG met twee stages, geplot als graaf uit een DOT-bestand

1 https://dreampuf.github.io/GraphvizOnline/
Introductie tot dataversiebeheer met DVC

Laten we oefenen!

Introductie tot dataversiebeheer met DVC

Preparing Video For Download...