Congratulazioni!

Introduzione al versionamento dei dati con DVC

Ravi Bhadauria

Machine Learning Engineer

Versionamento dei dati e DVC

  • Anatomia di un modello di ML
    • Codice, dati e iperparametri definiscono con precisione un modello
    • Tutti e tre vanno tracciati e versionati
  • Git e DVC
    • Git traccia il codice, DVC traccia i dati
    • Git traccia i metadati dei dati effettivi
  • Cosa permette DVC
    • Versionare dati e modelli
    • Eseguire pipeline di esperimenti riproducibili
    • Tracciare cambiamenti in metriche e grafici
Introduzione al versionamento dei dati con DVC

DVC: setup, cache e remoti

  • Setup
    • Installa con pip install dvc
    • Inizializza con dvc init
    • Usa .dvcignore per controllare i pattern di file da tracciare
  • Cache
    • Aggiungi file con dvc add
    • Traccia metadati con i file .dvc
    • Rimuovi con dvc remove, pulisci con dvc gc
  • Remoti
    • Configura con dvc remote add, elenca con dvc remote list
    • Carica e scarica dati con dvc push e dvc pull
Introduzione al versionamento dei dati con DVC

Pipeline DVC

  • Anatomia del file dvc.yaml

    • Aggiungi stage con dvc stage add
    • Componenti: steps, commands, dependencies, params e outputs
    • Traccia metriche e grafici con le chiavi metrics e plots
  • Visualizza ed esegui il DAG

    • Visualizza con dvc dag
    • Esegui con dvc repro
  • Mostra e confronta metriche e grafici

    • Visualizza con dvc plots show e dvc metrics show
    • Confronta con dvc plots diff e dvc metrics diff
Introduzione al versionamento dei dati con DVC

Grazie!

Introduzione al versionamento dei dati con DVC

Preparing Video For Download...