Fitur dan use case DVC

Pengantar Versioning Data dengan DVC

Ravi Bhadauria

Machine Learning Engineer

Fitur dan use case DVC

Topik yang dibahas

  • Versioning data dan model
  • DVC Pipelines
  • Pelacakan metrik dan plot

Topik lanjutan (tidak dibahas)

  • Pelacakan eksperimen
  • CI/CD untuk machine learning
  • Data registry
Pengantar Versioning Data dengan DVC

Versioning data dan model

Skema versioning data dengan model yang terikat ke commit Git tertentu

1 https://dvc.org/doc/use-cases/versioning-data-and-models
Pengantar Versioning Data dengan DVC

Pipelines

Skema pipeline langkah pelatihan model

  • Definisikan pipeline di dvc.yaml
stages:
  train:
    cmd: python train.py

deps: - code/train.py - data/input_data.csv - params/params.json
outs: - model_output/model.pkl
  • Jalankan dengan dvc repro.
Pengantar Versioning Data dengan DVC

Pelacakan metrik dan plot

$ dvc metrics diff
Path                  Metric    HEAD     workspace    Change
dvclive/metrics.json  AUC       0.78912  0.18114      -0.60798
dvclive/metrics.json  TP        215      768          553

Membandingkan metrik AUC antar eksperimen ML dengan DVC plots

1 https://dvc.org/doc/command-reference/plots/diff
Pengantar Versioning Data dengan DVC

Pelacakan eksperimen

  • Jalankan eksperimen dan log metrik
    • dvc repro
    • dvc exp save
  • Atau gabungkan dua langkah dengan dvc exp run
  • Eksperimen adalah referensi Git kustom
    • Mencegah commit Git membengkak
    • Simpan eksplisit dengan dvc exp save
  • Visualisasikan dengan dvc exp show
Pengantar Versioning Data dengan DVC

CI/CD untuk Machine Learning

Gambar konsep DVC dan CML untuk CI/CD

1 Kredit gambar: https://dvc.org/doc/use-cases/ci-cd-for-machine-learning
Pengantar Versioning Data dengan DVC

Data registry

Gambar DVC digunakan sebagai data registry

1 Kredit gambar: https://dvc.org/doc/use-cases/data-registry
Pengantar Versioning Data dengan DVC

Ayo berlatih!

Pengantar Versioning Data dengan DVC

Preparing Video For Download...