Selamat!

Pengantar Versioning Data dengan DVC

Ravi Bhadauria

Machine Learning Engineer

Versioning data dan DVC

  • Anatomi Model Machine Learning
    • Kode, data, dan hyperparameter mendefinisikan model secara presisi
    • Ketiganya harus dilacak dan diberi versi
  • Git dan DVC
    • Git melacak kode, DVC melacak data
    • Git melacak metadata tentang data sebenarnya
  • DVC memampukan kita
    • Mem-versi data dan model
    • Menjalankan pipeline eksperimen yang reprodusibel
    • Melacak perubahan metrik dan plot
Pengantar Versioning Data dengan DVC

DVC: setup, cache, dan remote

  • Setup
    • Instal dengan pip install dvc
    • Inisialisasi dengan dvc init
    • Gunakan .dvcignore untuk mengatur pola file yang dilacak
  • Cache
    • Tambahkan file dengan dvc add
    • Lacak metadata dengan file .dvc
    • Hapus dengan dvc remove, bersihkan dengan dvc gc
  • Remote
    • Konfigurasi dengan dvc remote add, daftar dengan dvc remote list
    • Unggah/unduh data dengan dvc push dan dvc pull
Pengantar Versioning Data dengan DVC

Pipeline DVC

  • Anatomi berkas dvc.yaml

    • Tambah stage dengan dvc stage add
    • Komponen: steps, commands, dependencies, params, dan outputs
    • Lacak metrik dan plot dengan kunci metrics dan plots
  • Visualisasi dan jalankan DAG

    • Visualisasi dengan dvc dag
    • Jalanankan dengan dvc repro
  • Tampilkan dan bandingkan metrik dan plot

    • Visualisasi dengan dvc plots show dan dvc metrics show
    • Bandingkan dengan dvc plots diff dan dvc metrics diff
Pengantar Versioning Data dengan DVC

Terima kasih!

Pengantar Versioning Data dengan DVC

Preparing Video For Download...