DVC ardışık düzenlerini yazma ve görselleştirme

DVC ile Veri Sürümlendirmeye Giriş

Ravi Bhadauria

Machine Learning Engineer

DVC Ardışık Düzenleri

  • Makine Öğrenimi iş akışını ve bağımlılıklarını tanımlayan aşama dizisi

    • Git ile sürümlenir ve izlenir
  • dvc.yaml dosyasında tanımlıdır

    • Girdi verileri ve betikler (deps)
    • Parametreler (params)
    • Aşama komutları (cmd)
    • Çıktı yapıtları (outs)
      • Özel veriler, ör. metrics ve plots
DVC ile Veri Sürümlendirmeye Giriş

Ön işleme aşaması ekleme

  • dvc stage add ile aşamalar oluşturun
dvc stage add \
-n preprocess \
-p params.yaml:preprocess \
-d raw_data.csv \
-d preprocess.py \
-o processed_data.csv \
python3 preprocess.py
stages:
  preprocess:
    cmd: python3 preprocess.py
    params:
      # Keys from params.yaml
      - params.yaml
        - preprocess
    deps:
    - preprocess.py
    - raw_data.csv
    outs:
    - processed_data.csv
DVC ile Veri Sürümlendirmeye Giriş

Eğitim ve değerlendirme aşaması ekleme

  • Önceki adımın çıktısını kullanarak bir eğitim adımı ekleyin
dvc stage add \
-n train_and_evaluate \
-p train_and_evaluate \
-d train_and_evaluate.py \
-d processed_data.csv \
-o plots.png \
-o metrics.json \
python3 train_and_evaluate.py
  • Yönlendirilmiş Çevrimsiz Grafik (DAG)
stages:
  train_and_evaluate:
    cmd: python3 train_and_evaluate.py
    params:
      # Skip specifying parameter file
      # Defaulted to params.yaml
      - train_and_evaluate
    deps:
    - processed_data.csv
    - train_and_evaluate.py
    outs:
    - plots.png
    - metrics.json
DVC ile Veri Sürümlendirmeye Giriş

Aşamaları güncelleme

  • dvc stage add komutunu birden çok kez çalıştırma
ERROR: Stage 'train_and_evaluate' 
zaten 'dvc.yaml' içinde mevcut.
Üzerine yazmak için '--force' kullanın.
  • dvc stage add --force kullanın
dvc stage add --force \
-n train_and_evaluate \
-p train_and_evaluate \
-d train_and_evaluate.py \
-d processed_data.csv \
-o plots.png \
-o metrics.json \
python3 train_and_evaluate.py
DVC ile Veri Sürümlendirmeye Giriş

DVC ardışık düzenlerini görselleştirme

# DAG'ı terminalde yazdır
dvc dag
# Belirli bir adıma kadar DAG'ı göster
dvc dag <target>
            +------------+     
            | preprocess |     
            +------------+     
                   *           
                   *           
                   *           
        +--------------------+ 
        | train_and_evaluate | 
        +--------------------+
DVC ile Veri Sürümlendirmeye Giriş

DVC ardışık düzenlerini görselleştirme

# Adım çıktılarını düğüm olarak göster
dvc dag --outs
                    +-------------------------------+              
                    | processed_dataset/weather.csv |              
                    +-------------------------------+              
                          ***               ***                    
                       ***                     ***                 
                     **                           **               
          +--------------+                    +-----------+ 
          | metrics.json |                    | plots.png | 
          +--------------+                    +-----------+
DVC ile Veri Sürümlendirmeye Giriş

DVC ardışık düzenlerini görselleştirme

dvc dag --dot
strict digraph  {
"preprocess";
"train_and_evaluate";
"preprocess" -> "train_and_evaluate";
}

DOT dosyasından çizilen iki aşamalı bir DVC DAG

1 https://dreampuf.github.io/GraphvizOnline/
DVC ile Veri Sürümlendirmeye Giriş

Haydi pratik yapalım!

DVC ile Veri Sürümlendirmeye Giriş

Preparing Video For Download...