Gefeliciteerd!

Introductie tot dataversiebeheer met DVC

Ravi Bhadauria

Machine Learning Engineer

Dataversiebeheer en DVC

  • Anatomie van een machinelearningmodel
    • Code, data en hyperparameters definiëren precies een model
    • Alle drie moeten worden gevolgd en geversioneerd
  • Git en DVC
    • Git volgt code; DVC volgt data
    • Git volgt metadata over de daadwerkelijke data
  • DVC maakt het mogelijk
    • Data en modellen versies geven
    • Reproduceerbare experiment-pipelines draaien
    • Wijzigingen in metrics en plots volgen
Introductie tot dataversiebeheer met DVC

DVC-setup, cache en remotes

  • Setup
    • Installeer met pip install dvc
    • Initialiseer met dvc init
    • Gebruik .dvcignore om te bepalen welke patronen je volgt
  • Cache
    • Voeg bestanden toe met dvc add
    • Volg metadata met .dvc-bestanden
    • Verwijder met dvc remove, opschonen met dvc gc
  • Remotes
    • Configureer met dvc remote add, lijst met dvc remote list
    • Upload/download data met dvc push en dvc pull
Introductie tot dataversiebeheer met DVC

DVC-pipelines

  • Anatomie van het bestand dvc.yaml

    • Voeg stages toe met dvc stage add
    • Onderdelen: steps, commands, dependencies, params en outputs
    • Volg metrics en plots met de keys metrics en plots
  • Visualiseer en run de DAG

    • Visualiseer met dvc dag
    • Run met dvc repro
  • Tonen en vergelijken van metrics en plots

    • Visualiseer met dvc plots show en dvc metrics show
    • Vergelijk met dvc plots diff en dvc metrics diff
Introductie tot dataversiebeheer met DVC

Bedankt!

Introductie tot dataversiebeheer met DVC

Preparing Video For Download...