Interagire con i remote DVC

Introduzione al versionamento dei dati con DVC

Ravi Bhadauria

Machine Learning Engineer

Caricare e recuperare dati

  • Spostare i dati dalla cache al remote DVC
$ dvc push <target>

$ dvc pull <target>
  • I target sono file singoli
$ dvc push data.csv
Introduzione al versionamento dei dati con DVC

Caricare e recuperare dati

  • Push dell’intera cache
$ dvc push
  • Aggiorna la cache senza toccare la workspace
$ dvc fetch
  • Sovrascrivi il remote predefinito con il flag -r
$ dvc push -r aws_remote data.csv
Introduzione al versionamento dei dati con DVC

Somiglianze con Git

dvc pull

  • Funzione: scarica i dati dal remote nella workspace DVC

  • Caso d’uso: dataset grandi o artifact di modelli

dvc push

  • Funzione: carica dati sullo storage remoto

  • Caso d’uso: condividere o archiviare artifact

git pull

  • Funzione: fetch/merge dal repo Git remoto

  • Caso d’uso: allineare il branch locale al remoto

git push

  • Funzione: invia le modifiche locali al remoto

  • Caso d’uso: condividere le modifiche sul remote Git

Introduzione al versionamento dei dati con DVC

Versionare i dati

  • .dvc è tracciato da Git, non da DVC

  • Sfruttalo per fare checkout di una versione specifica del file dati

  • Fai checkout del file .dvc

$ git checkout <commit_hash|tag|branch>
  • Recupera i dati con l’MD5 indicato nel file .dvc
$ dvc checkout <target>
Introduzione al versionamento dei dati con DVC

Tracciare le modifiche ai dati

  • Modifica il file dati, poi aggiungi le modifiche al dataset
$ dvc add <target>
  • Fai commit del file .dvc modificato su Git
$ git add <target>.dvc
$ git commit <target>.dvc \
    -m "Dataset updates"
  • Push dei metadati su Git
$ git push origin main
  • Carica il file dati modificato
$ dvc push
Introduzione al versionamento dei dati con DVC

Passons à la pratique !

Introduzione al versionamento dei dati con DVC

Preparing Video For Download...