Cache DVC dan File Staging

Pengantar Versioning Data dengan DVC

Ravi Bhadauria

Machine Learning Engineer

Cache DVC

  • Penyimpanan tersembunyi untuk file data yang dilacak dan versinya
  • Men-staging file sementara hingga di-commit
    • Utamakan dataset besar dan file biner
  • Berada di direktori .dvc dalam workspace
    • Atur lokasi
      $ dvc cache dir ~/mycache
      

Gambar struktur DVC di dalam workspace

Pengantar Versioning Data dengan DVC

Menambahkan File ke Cache

  • Tambahkan file data ke dvc
$ dvc add data.csv
100% Adding...|====================|1/1 [00:00, 53.55file/s]

To track the changes with git, run:
    git add data.csv.dvc
To enable auto staging, run:
    dvc config core.autostage true
Pengantar Versioning Data dengan DVC

File .dvc

  • Setiap file yang dilacak DVC punya file .dvc terkait

    • data.csv -> data.csv.dvc
  • Untuk membuat versi file data, gunakan git commit -m "data.csv.dvc"

  • Isi file .dvc

outs:

- md5: f38a850818377e97155d22755caa39d0
size: 16
hash: md5
path: data.csv
Pengantar Versioning Data dengan DVC

Interaksi dengan Cache DVC

  • Path file cache menggunakan nilai MD5
$ find .dvc/cache -type f
.dvc/cache/f3/8a850818377e97155d22755caa39d0
  • Hitung MD5 dataset
$ md5 data.csv
MD5 (data.csv) = f38a850818377e97155d22755caa39d0
Pengantar Versioning Data dengan DVC

Interaksi dengan Cache DVC

  • Gunakan dvc add -v untuk output detail

Gambar output saat menjalankan dvc add dengan flag -v

Pengantar Versioning Data dengan DVC

Menghapus dan Membersihkan Cache

  • Hapus file yang ditambahkan dengan dvc remove
$ dvc remove data.csv.dvc
  • Untuk membersihkan cache, gunakan dvc gc
    • Gunakan flag -w untuk menghapus cache workspace
$ dvc gc -w
WARNING: This will remove all cache except items used in the workspace of the current repo.
Are you sure you want to proceed? [y/n]: y
Removed 1 objects from repo cache.
Pengantar Versioning Data dengan DVC

Ringkasan

  • Cache DVC men-staging file data sebelum commit
  • Atur lokasi cache
    • dvc cache dir ~/mycache
  • Tambahkan file ke cache
    • dvc add data.csv
    • Membuat file .dvc berisi metadata
  • Hapus file yang ditambahkan dvc remove data.csv.dvc
    • Bersihkan cache workspace dengan dvc gc -w
Pengantar Versioning Data dengan DVC

Ayo berlatih!

Pengantar Versioning Data dengan DVC

Preparing Video For Download...