Mengonfigurasi Remote DVC

Pengantar Versioning Data dengan DVC

Ravi Bhadauria

Machine Learning Engineer

Rekap

  • Inisialisasi repositori DVC
    • Jalankan dvc init
    • Repo di dalam workspace (/path/to/my-project)
  • Menyiapkan cache DVC
    • Area staging sementara di direktori .dvc
      • /path/to/my-project/.dvc/cache
    • Stage file sementara dengan dvc add
  • Berikutnya: Remote DVC
    • Penyimpanan eksternal
    • Melacak dan berbagi aset
Pengantar Versioning Data dengan DVC

Kebutuhan akan Remote DVC

  • Remote DVC: Lokasi penyimpanan data
  • Mirip Git remote, tetapi untuk data yang di-cache
  • Manfaat menggunakan remote
    • Sinkronkan file dan folder besar
    • Sentralisasi atau distribusi penyimpanan data
    • Hemat ruang lokal

Skema alur data dari workspace DVC ke cache dan remote

Pengantar Versioning Data dengan DVC

Jenis Penyimpanan yang Didukung

Grafik jenis penyimpanan yang didukung DVC

Pengantar Versioning Data dengan DVC

Menyiapkan Remote

  • Menyiapkan remote

    • dvc remote add <name> <location>
  • Bucket S3

$ dvc remote add s3_remote \
   s3://mys3bucket
  • Perubahan konfigurasi DVC
 ['remote "s3_remote"']
     url = s3://mys3bucket
  • Bucket GCP
$ dvc remote add gcp_remote \
   gs://myGCPbucket
  • Azure
$ dvc remote add azure_remote \
   azure://mycontainer/path
Pengantar Versioning Data dengan DVC

Remote Lokal

  • Remote lokal untuk prototyping cepat
  • Gunakan direktori sistem atau Network Attached Storage
$ dvc remote add mylocalremote /tmp/dvc
  • Atur remote default dengan flag -d
$ dvc remote add -d mylocalremote /tmp/dvc
  • Remote default ditetapkan di bagian core pada .dvc/config
[core]
remote = mylocalremote
Pengantar Versioning Data dengan DVC

Menampilkan Remote

  • Menampilkan daftar remote
$ dvc remote list
s3_remote    s3://mys3bucket
local_remote /tmp/dvcremote
  • Dibaca dari .dvc/config
 ['remote "s3_remote"']
     url = s3://mys3bucket
 ['remote "local_remote"']
     url = /tmp/dvcremote
Pengantar Versioning Data dengan DVC

Mengubah Konfigurasi Remote

  • Kustomisasi dengan dvc remote modify
$ dvc remote modify s3_remote connect_timeout 300
  • Perubahan pada file konfigurasi DVC
 ['remote "s3_remote"']
     url = s3://mys3bucket
     connect_timeout = 300
Pengantar Versioning Data dengan DVC

Ringkasan

  • Remote DVC digunakan untuk berbagi data dan model ML
  • Mendukung berbagai lokasi penyimpanan lokal dan cloud
  • Tambah remote: dvc remote add
    • Gunakan flag -d untuk menetapkan default
  • Daftar remote: dvc remote list
  • Ubah remote: dvc remote modify
Pengantar Versioning Data dengan DVC

Ayo berlatih!

Pengantar Versioning Data dengan DVC

Preparing Video For Download...