DVC-cache en staging-bestanden

Introductie tot dataversiebeheer met DVC

Ravi Bhadauria

Machine Learning Engineer

DVC-cache

  • Verborgen opslag voor gevolgde databestanden en versies
  • Staget tijdelijke bestanden tot ze gecommit zijn
    • Voeg bij voorkeur grote datasets en binaire bestanden toe
  • Staat in de .dvc-map van de workspace
    • Locatie instellen
      $ dvc cache dir ~/mycache
      

Afbeelding van DVC-structuur in de workspace

Introductie tot dataversiebeheer met DVC

Bestanden aan cache toevoegen

  • Voeg databestanden toe aan dvc
$ dvc add data.csv
100% Adding...|====================|1/1 [00:00, 53.55file/s]

To track the changes with git, run:
    git add data.csv.dvc
To enable auto staging, run:
    dvc config core.autostage true
Introductie tot dataversiebeheer met DVC

.dvc-bestanden

  • Elk door DVC gevolgd bestand heeft een bijbehorend .dvc-bestand

    • data.csv -> data.csv.dvc
  • Versiebeheer van het databestand met git commit -m "data.csv.dvc"

  • Inhoud van .dvc-bestanden

outs:

- md5: f38a850818377e97155d22755caa39d0
size: 16
hash: md5
path: data.csv
Introductie tot dataversiebeheer met DVC

Interacties met DVC-cache

  • Het pad van het cachebestand gebruikt de MD5-waarde
$ find .dvc/cache -type f
.dvc/cache/f3/8a850818377e97155d22755caa39d0
  • Bereken MD5 van dataset
$ md5 data.csv
MD5 (data.csv) = f38a850818377e97155d22755caa39d0
Introductie tot dataversiebeheer met DVC

Interacties met DVC-cache

  • Gebruik dvc add -v voor uitgebreide output

Afbeelding van output bij uitvoeren van dvc add met -v-vlag

Introductie tot dataversiebeheer met DVC

Verwijderen en cache opschonen

  • Verwijder toegevoegde bestanden met dvc remove
$ dvc remove data.csv.dvc
  • Ruim de cache op met dvc gc
    • Gebruik de -w-vlag om de workspace-cache te verwijderen
$ dvc gc -w
WARNING: This will remove all cache except items used in the workspace of the current repo.
Are you sure you want to proceed? [y/n]: y
Removed 1 objects from repo cache.
Introductie tot dataversiebeheer met DVC

Samenvatting

  • DVC-cache staged databestanden vóór commit
  • Locatie van cache instellen
    • dvc cache dir ~/mycache
  • Bestanden aan cache toevoegen
    • dvc add data.csv
    • Maakt een .dvc-bestand met metadata
  • Toegevoegde bestanden verwijderen: dvc remove data.csv.dvc
    • Workspace-cache opschonen met dvc gc -w
Introductie tot dataversiebeheer met DVC

Laten we oefenen!

Introductie tot dataversiebeheer met DVC

Preparing Video For Download...