Introduzione al versionamento dei dati con DVC
Ravi Bhadauria
Machine Learning Engineer
$ dvc push <target>$ dvc pull <target>
$ dvc push data.csv
$ dvc push
$ dvc fetch
-r$ dvc push -r aws_remote data.csv
dvc pull
Funzione: scarica i dati dal remote nella workspace DVC
Caso d’uso: dataset grandi o artifact di modelli
dvc push
Funzione: carica dati sullo storage remoto
Caso d’uso: condividere o archiviare artifact
git pull
Funzione: fetch/merge dal repo Git remoto
Caso d’uso: allineare il branch locale al remoto
git push
Funzione: invia le modifiche locali al remoto
Caso d’uso: condividere le modifiche sul remote Git
.dvc è tracciato da Git, non da DVC
Sfruttalo per fare checkout di una versione specifica del file dati
Fai checkout del file .dvc
$ git checkout <commit_hash|tag|branch>
.dvc$ dvc checkout <target>
$ dvc add <target>
.dvc modificato su Git$ git add <target>.dvc
$ git commit <target>.dvc \
-m "Dataset updates"
$ git push origin main
$ dvc push
Introduzione al versionamento dei dati con DVC