Pengenalan DVC

Pengantar Versioning Data dengan DVC

Ravi Bhadauria

Machine Learning Engineer

Git sebagai Kontrol Versi

  • Sistem kontrol versi kode
  • Pengembangan lokal independen
    • Branch dan merge
    • Kelola riwayat versi
  • Mendukung kolaborasi

Skema model terdesentralisasi Git

Pengantar Versioning Data dengan DVC

Git sebagai Kontrol Versi

  • Interaksi berbasis CLI
  • Berjalan di terminal (shell)
  • Git melacak konten lewat repositori
    • File/folder yang dilacak
    • Metadata Git (dalam folder .git)

Gambar struktur repositori Git

Pengantar Versioning Data dengan DVC

Data Version Control (DVC)

  • DVC: alat Data Version Control
    • Mengelola data dan eksperimen
    • Mirip dengan Git

Gambar konsep versi data dengan Git dan DVC.png

  • Git melacak metadata, DVC menangani versi data
Pengantar Versioning Data dengan DVC

CLI Git vs DVC

Git

  • Inisialisasi repositori di folder kerja
$ git init
  • Tambahkan file ke repositori (staging)
$ git add code.py
  • Commit perubahan (ke riwayat versi)
$ git commit -m "adding first file"

DVC

  • Inisialisasi repositori DVC di folder kerja
$ dvc init
  • Tambahkan file data ke DVC
$ dvc add data/mydata.csv
  • Perbarui semua file data yang dilacak
$ dvc commit
Pengantar Versioning Data dengan DVC

CLI Git vs DVC

Git

  • Dorong perubahan kode ke server remote
$ git push
  • Tarik perubahan dari remote
$ git pull
  • Kloning repositori yang ada dari remote (Github)
$ git clone \
https://github.com/username/repository-name.git

DVC

  • Dorong perubahan data ke server data remote
$ dvc push
  • Sinkronkan proyek DVC Anda
$ dvc pull
  • Unduh file atau direktori yang dilacak DVC
$ dvc get \
https://github.com/username/repo-name model.pkl
Pengantar Versioning Data dengan DVC

Ayo berlatih!

Pengantar Versioning Data dengan DVC

Preparing Video For Download...