Interactie met DVC-remotes

Introductie tot dataversiebeheer met DVC

Ravi Bhadauria

Machine Learning Engineer

Data uploaden en ophalen

  • Data verplaatsen van cache naar DVC‑remote
$ dvc push <target>

$ dvc pull <target>
  • Targets zijn losse bestanden
$ dvc push data.csv
Introductie tot dataversiebeheer met DVC

Data uploaden en ophalen

  • Hele cache pushen
$ dvc push
  • Cache bijwerken zonder de workspace te wijzigen
$ dvc fetch
  • Standaard‑remote overschrijven met de vlag -r
$ dvc push -r aws_remote data.csv
Introductie tot dataversiebeheer met DVC

Overeenkomsten met Git

dvc pull

  • Functie: downloadt remote data naar de DVC‑workspace

  • Gebruik: grote datasets of model‑artefacten

dvc push

  • Functie: uploadt data naar de remote opslag

  • Gebruik: data‑artefacten delen of opslaan

git pull

  • Functie: haalt binnen/merget van de remote Git‑repo

  • Gebruik: lokale branch in sync met remote

git push

  • Functie: uploadt lokale wijzigingen naar de remote

  • Gebruik: wijzigingen delen naar Git‑remote

Introductie tot dataversiebeheer met DVC

Data versioneren

  • .dvc wordt door Git getrackt, niet door DVC

  • Gebruik dit om een specifieke versie van een databestand te checkouten

  • Checkout het .dvc‑bestand

$ git checkout <commit_hash|tag|branch>
  • Haal data op met de MD5 in het .dvc‑bestand
$ dvc checkout <target>
Introductie tot dataversiebeheer met DVC

Wijzigingen in data bijhouden

  • Pas de inhoud van databe­standen aan en voeg wijzigingen toe aan de dataset
$ dvc add <target>
  • Commit het gewijzigde .dvc‑bestand naar Git
$ git add <target>.dvc
$ git commit <target>.dvc \
    -m "Dataset updates"
  • Push metadata naar Git
$ git push origin main
  • Upload het gewijzigde databestand
$ dvc push
Introductie tot dataversiebeheer met DVC

Laten we oefenen!

Introductie tot dataversiebeheer met DVC

Preparing Video For Download...