Configurazione e inizializzazione di DVC

Introduzione al versionamento dei dati con DVC

Ravi Bhadauria

Machine Learning Engineer

Installazione

  • DVC è un pacchetto Python
    • Installa globalmente con pip
$ pip install dvc
  • Usa ambienti virtuali
  • Assicurati di avere Git installato
Introduzione al versionamento dei dati con DVC

Verifica installazione

$ dvc version
Versione DVC: 3.40.1 (pip)

Piattaforma: Python 3.9.16 su macOS-14.2.1-arm64-arm-64bit
Config: Globale: /Users/<username>/Library/Application Support/dvc Sistema: /Library/Application Support/dvc
Repo: dvc, git
1 https://dvc.org/doc/command-reference/version
Introduzione al versionamento dei dati con DVC

Inizializzare DVC

  • Assicurati che Git sia inizializzato
$ git init
Initialized empty Git repository in /path/to/repo/.git/
  • Inizializza DVC nel repository
$ dvc init
Initialized DVC repository.

You can now commit the changes to git.
1 https://dvc.org/doc/command-reference/init
Introduzione al versionamento dei dati con DVC

File nascosti di DVC

  • L'inizializzazione crea file interni da tracciare con Git
$ git status
Changes to be committed:
  (use "git rm --cached <file>..." to unstage)
    new file:   .dvc/.gitignore
    new file:   .dvc/config
    new file:   .dvcignore
  • Esegui il commit delle modifiche
$ git commit -m "initialized dvc"
Introduzione al versionamento dei dati con DVC

File .dvcignore

  • Simile al file .gitignore

    • Stessa sintassi
    • Elenca file/cartelle che DVC ignora
  • Utile con molti dati non necessari

    • Migliora i tempi delle operazioni DVC
1 https://dvc.org/doc/user-guide/project-structure/dvcignore-files 2 https://git-scm.com/docs/gitignore
Introduzione al versionamento dei dati con DVC

Esempio

# .dvcignore
# Ignora tutti i file nella cartella 'data'
data/*

# Ma non ignorare 'data/data.csv' !data/data.csv
# Ignora tutti i file .tmp *.tmp
1 https://dvc.org/doc/user-guide/project-structure/dvcignore-files
Introduzione al versionamento dei dati con DVC

Verifica dei file ignorati

  • Usa il comando dvc check-ignore
$ dvc check-ignore data/file.txt
data/file.txt
  • Usa il flag -d per i dettagli
$ dvc check-ignore -d data/file.txt
.dvcignore:3:data/*    data/file.txt
1 https://dvc.org/doc/command-reference/check-ignore
Introduzione al versionamento dei dati con DVC

Riepilogo

  • Installa DVC con pip install dvc
  • Verifica versione, piattaforma, ecc. di DVC
    • dvc version
  • Inizializza DVC nella workspace
    • dvc init
    • Prima inizializza Git
  • I file .dvcignore escludono file
    • Simile a .gitignore, stessa sintassi
    • Verifica se un file è escluso
      • dvc check-ignore <filename>
Introduzione al versionamento dei dati con DVC

Ayo berlatih!

Introduzione al versionamento dei dati con DVC

Preparing Video For Download...