DVC Önbelleği ve Hazırlama Dosyaları

DVC ile Veri Sürümlendirmeye Giriş

Ravi Bhadauria

Machine Learning Engineer

DVC Önbelleği

  • İzlenen veri dosyaları ve sürümler için gizli depolama
  • Commit edilene kadar geçici dosyaları hazırlar
    • Büyük veri kümeleri ve ikili dosyaları eklemeyi tercih edin
  • Çalışma alanındaki .dvc dizini içinde bulunur
    • Konumu yapılandırın
      $ dvc cache dir ~/mycache
      

Çalışma alanındaki DVC yapısının görüntüsü

DVC ile Veri Sürümlendirmeye Giriş

Dosyaları Önbelleğe Ekleme

  • Veri dosyalarını dvc'ye ekleyin
$ dvc add data.csv
100% Adding...|====================|1/1 [00:00, 53.55file/s]

To track the changes with git, run:
    git add data.csv.dvc
To enable auto staging, run:
    dvc config core.autostage true
DVC ile Veri Sürümlendirmeye Giriş

.dvc dosyaları

  • Her DVC tarafından izlenen dosyanın bir .dvc karşılığı vardır

    • data.csv -> data.csv.dvc
  • Veri dosyasını sürümlemek için git commit -m "data.csv.dvc" kullanın

  • .dvc dosyalarının içeriği

outs:

- md5: f38a850818377e97155d22755caa39d0
size: 16
hash: md5
path: data.csv
DVC ile Veri Sürümlendirmeye Giriş

DVC Önbelleği ile Etkileşim

  • Önbellek dosyasının yolu MD5 değerini kullanır
$ find .dvc/cache -type f
.dvc/cache/f3/8a850818377e97155d22755caa39d0
  • Veri kümesinin MD5'ini hesaplayın
$ md5 data.csv
MD5 (data.csv) = f38a850818377e97155d22755caa39d0
DVC ile Veri Sürümlendirmeye Giriş

DVC Önbelleği ile Etkileşim

  • Ayrıntılı çıktı için dvc add -v kullanın

-v bayrağıyla dvc add çıktısı görüntüsü

DVC ile Veri Sürümlendirmeye Giriş

Önbellekten Kaldırma ve Temizleme

  • Eklenen dosyaları dvc remove ile kaldırın
$ dvc remove data.csv.dvc
  • Önbelleği temizlemek için dvc gc kullanın
    • Çalışma alanı önbelleğini kaldırmak için -w bayrağını kullanın
$ dvc gc -w
WARNING: This will remove all cache except items used in the workspace of the current repo.
Are you sure you want to proceed? [y/n]: y
Removed 1 objects from repo cache.
DVC ile Veri Sürümlendirmeye Giriş

Özet

  • DVC, veri dosyalarını commit öncesi önbellekte hazırlar
  • Önbellek konumunu yapılandırın
    • dvc cache dir ~/mycache
  • Dosyaları önbelleğe ekleyin
    • dvc add data.csv
    • Üstveri içeren .dvc dosyası oluşturur
  • Eklenen dosyaları kaldırın: dvc remove data.csv.dvc
    • Çalışma alanı önbelleğini dvc gc -w ile temizleyin
DVC ile Veri Sürümlendirmeye Giriş

Hadi pratik yapalım!

DVC ile Veri Sürümlendirmeye Giriş

Preparing Video For Download...