DVC instellen en initialiseren

Introductie tot dataversiebeheer met DVC

Ravi Bhadauria

Machine Learning Engineer

Installatie

  • DVC is een Python-pakket
    • Universeel te installeren met pip
$ pip install dvc
  • Installeer bij voorkeur in virtual environments
  • Zorg dat Git is geïnstalleerd
Introductie tot dataversiebeheer met DVC

Installatie verifiëren

$ dvc version
DVC versie: 3.40.1 (pip)

Platform: Python 3.9.16 op macOS-14.2.1-arm64-arm-64bit
Config: Globaal: /Users/<username>/Library/Application Support/dvc Systeem: /Library/Application Support/dvc
Repo: dvc, git
1 https://dvc.org/doc/command-reference/version
Introductie tot dataversiebeheer met DVC

DVC initialiseren

  • Zorg dat Git is geïnitialiseerd
$ git init
Initialized empty Git repository in /path/to/repo/.git/
  • Initialiseer DVC in de repository
$ dvc init
Initialized DVC repository.

You can now commit the changes to git.
1 https://dvc.org/doc/command-reference/init
Introductie tot dataversiebeheer met DVC

Verborgen DVC-bestanden

  • Initialisatie maakt interne bestanden die je met Git moet tracken
$ git status
Changes to be committed:
  (use "git rm --cached <file>..." to unstage)
    new file:   .dvc/.gitignore
    new file:   .dvc/config
    new file:   .dvcignore
  • Commit de wijzigingen
$ git commit -m "initialized dvc"
Introductie tot dataversiebeheer met DVC

Bestand .dvcignore

  • Vergelijkbaar met .gitignore

    • Zelfde patroon/syntax
    • Geef bestanden/mappen op die DVC negeert
  • Handig bij veel data die je niet nodig hebt

    • Versnelt DVC-commando's
1 https://dvc.org/doc/user-guide/project-structure/dvcignore-files 2 https://git-scm.com/docs/gitignore
Introductie tot dataversiebeheer met DVC

Voorbeeld

# .dvcignore
# Negeer alle bestanden in de map 'data'
data/*

# Maar negeer 'data/data.csv' niet !data/data.csv
# Negeer alle .tmp-bestanden *.tmp
1 https://dvc.org/doc/user-guide/project-structure/dvcignore-files
Introductie tot dataversiebeheer met DVC

Genegeerde bestanden controleren

  • Gebruik het commando dvc check-ignore
$ dvc check-ignore data/file.txt
data/file.txt
  • Gebruik met -d voor details
$ dvc check-ignore -d data/file.txt
.dvcignore:3:data/*    data/file.txt
1 https://dvc.org/doc/command-reference/check-ignore
Introductie tot dataversiebeheer met DVC

Samenvatting

  • Installeer DVC met pip install dvc
  • Controleer versie, platform enz. van DVC
    • dvc version
  • DVC initialiseren in de workspace
    • dvc init
    • Initialiseert Git eerst
  • .dvcignore specificeert uit te sluiten bestanden
    • Lijkt op .gitignore, zelfde syntax
    • Check of een bestand is uitgesloten
      • dvc check-ignore <filename>
Introductie tot dataversiebeheer met DVC

Laten we oefenen!

Introductie tot dataversiebeheer met DVC

Preparing Video For Download...