Introductie tot DVC

Introductie tot dataversiebeheer met DVC

Ravi Bhadauria

Machine Learning Engineer

Git als versiebeheer

  • Versiebeheer voor code
  • Onafhankelijke lokale ontwikkeling
    • Branch en merge
    • Versiehistorie beheren
  • Maakt samenwerken mogelijk

Schematische weergave van het gedecentraliseerde Git-model

Introductie tot dataversiebeheer met DVC

Git als versiebeheer

  • CLI-gebaseerde interactie
  • Draait in de terminal, ook wel shell
  • Git volgt inhoud via een repository
    • Eigenlijke bestanden/mappen om te tracken
    • Git-metadata (in de map .git)

Afbeelding van de Git-repositorystructuur

Introductie tot dataversiebeheer met DVC

Data Version Control (DVC)

  • DVC: tool voor Data Version Control
    • Beheert data en experimenten
    • Lijkt op Git

Conceptafbeelding van data versioning met Git en DVC.png

  • Git trackt metadata, DVC beheert dataversies
Introductie tot dataversiebeheer met DVC

Git vs. DVC CLI

Git

  • Repository initialiseren in werkmap
$ git init
  • Bestanden toevoegen (stagen)
$ git add code.py
  • Wijzigingen committen (naar versiehistorie)
$ git commit -m "adding first file"

DVC

  • DVC-repository initialiseren in werkmap
$ dvc init
  • Databestanden toevoegen aan DVC
$ dvc add data/mydata.csv
  • Alle getrackte databestanden updaten
$ dvc commit
Introductie tot dataversiebeheer met DVC

Git vs. DVC CLI

Git

  • Codewijzigingen pushen naar remote server
$ git push
  • Wijzigingen ophalen van remote
$ git pull
  • Een bestaande repository clonen vanaf remote (GitHub)
$ git clone \
https://github.com/username/repository-name.git

DVC

  • Datawijzigingen pushen naar remote dataserver
$ dvc push
  • Je DVC-project synchroniseren
$ dvc pull
  • Een door DVC getrackt bestand of map downloaden
$ dvc get \
https://github.com/username/repo-name model.pkl
Introductie tot dataversiebeheer met DVC

Laten we oefenen!

Introductie tot dataversiebeheer met DVC

Preparing Video For Download...