DVC-remotes configureren

Introductie tot dataversiebeheer met DVC

Ravi Bhadauria

Machine Learning Engineer

Herhaling

  • DVC-repo initialiseren
    • Voer dvc init uit
    • Repo binnen workspace (/path/to/my-project)
  • DVC-cache instellen
    • Tijdelijke stagingruimte in de map .dvc
      • /path/to/my-project/.dvc/cache
    • Stage tijdelijke bestanden met dvc add
  • Nu: DVC-remotes
    • Externe opslag
    • Assets volgen en delen
Introductie tot dataversiebeheer met DVC

Waarom DVC-remotes?

  • DVC-remotes: locatie voor dataopslag
  • Zoals Git-remotes, maar voor gecachete data
  • Voordelen
    • Synchroniseer grote bestanden en mappen
    • Centraliseer of distribueer opslag
    • Bespaar lokale ruimte

Schematische weergave van datastroom van DVC-werkruimte naar cache en remote

Introductie tot dataversiebeheer met DVC

Ondersteunde opslagtypes

Grafiek van ondersteunde opslagtypes in DVC

Introductie tot dataversiebeheer met DVC

Remotes instellen

  • Remotes instellen

    • dvc remote add <name> <locatie>
  • S3-bucket

$ dvc remote add s3_remote \
   s3://mys3bucket
  • DVC-configwijzigingen
 ['remote "s3_remote"']
     url = s3://mys3bucket
  • GCP-bucket
$ dvc remote add gcp_remote \
   gs://myGCPbucket
  • Azure
$ dvc remote add azure_remote \
   azure://mycontainer/path
Introductie tot dataversiebeheer met DVC

Lokale remotes

  • Lokale remotes voor snel prototypen
  • Gebruik systeemmappen of Network Attached Storage
$ dvc remote add mylocalremote /tmp/dvc
  • Stel standaardremote in met de vlag -d
$ dvc remote add -d mylocalremote /tmp/dvc
  • Standaardremote staat in de sectie core van .dvc/config
[core]
remote = mylocalremote
Introductie tot dataversiebeheer met DVC

Remotes weergeven

  • Remotes weergeven
$ dvc remote list
s3_remote    s3://mys3bucket
local_remote /tmp/dvcremote
  • Leest uit .dvc/config
 ['remote "s3_remote"']
     url = s3://mys3bucket
 ['remote "local_remote"']
     url = /tmp/dvcremote
Introductie tot dataversiebeheer met DVC

Remoteconfig wijzigen

  • Aanpassen met dvc remote modify
$ dvc remote modify s3_remote connect_timeout 300
  • Wijziging in DVC-config
 ['remote "s3_remote"']
     url = s3://mys3bucket
     connect_timeout = 300
Introductie tot dataversiebeheer met DVC

Samenvatting

  • DVC-remotes delen data en ML-modellen
  • Ondersteunen diverse lokale en cloudopslag
  • Remotes toevoegen: dvc remote add
    • Gebruik -d om de standaard in te stellen
  • Remotes weergeven: dvc remote list
  • Remotes wijzigen: dvc remote modify
Introductie tot dataversiebeheer met DVC

Laten we oefenen!

Introductie tot dataversiebeheer met DVC

Preparing Video For Download...