Berinteraksi dengan DVC Remote

Pengantar Versioning Data dengan DVC

Ravi Bhadauria

Machine Learning Engineer

Mengunggah dan Mengambil Data

  • Memindahkan data dari cache ke DVC remote
$ dvc push <target>

$ dvc pull <target>
  • Target adalah file individual
$ dvc push data.csv
Pengantar Versioning Data dengan DVC

Mengunggah dan Mengambil Data

  • Push seluruh cache
$ dvc push
  • Perbarui cache tanpa mengubah isi workspace
$ dvc fetch
  • Ganti remote default dengan flag -r
$ dvc push -r aws_remote data.csv
Pengantar Versioning Data dengan DVC

Kemiripan dengan Git

dvc pull

  • Fungsi: Mengunduh data remote ke workspace DVC

  • Use case: Dataset besar atau artefak model

dvc push

  • Fungsi: Mengunggah data ke penyimpanan remote

  • Use case: Berbagi atau menyimpan artefak data

git pull

  • Fungsi: Fetch/Merge dari repo Git remote

  • Use case: Menyinkronkan branch lokal dengan remote

git push

  • Fungsi: Mengunggah perubahan lokal ke remote

  • Use case: Berbagi perubahan ke Git remote

Pengantar Versioning Data dengan DVC

Membuat Versi Data

  • .dvc dilacak oleh Git, bukan DVC

  • Manfaatkan ini untuk checkout versi spesifik file data

  • Checkout file .dvc

$ git checkout <commit_hash|tag|branch>
  • Ambil data dengan MD5 yang tercantum di file .dvc
$ dvc checkout <target>
Pengantar Versioning Data dengan DVC

Melacak Perubahan Data

  • Ubah isi file data, lalu tambahkan perubahan dataset
$ dvc add <target>
  • Commit file .dvc yang berubah ke Git
$ git add <target>.dvc
$ git commit <target>.dvc \
    -m "Dataset updates"
  • Push metadata ke Git
$ git push origin main
  • Unggah file data yang berubah
$ dvc push
Pengantar Versioning Data dengan DVC

Ayo berlatih!

Pengantar Versioning Data dengan DVC

Preparing Video For Download...