Penyiapan dan Inisialisasi DVC

Pengantar Versioning Data dengan DVC

Ravi Bhadauria

Machine Learning Engineer

Instalasi

  • DVC adalah paket Python
    • Instal universal dengan pip
$ pip install dvc
  • Ingat untuk memasang di virtual environment
  • Pastikan Git terpasang
Pengantar Versioning Data dengan DVC

Verifikasi Instalasi

$ dvc version
DVC version: 3.40.1 (pip)

Platform: Python 3.9.16 on macOS-14.2.1-arm64-arm-64bit
Config: Global: /Users/<username>/Library/Application Support/dvc System: /Library/Application Support/dvc
Repo: dvc, git
1 https://dvc.org/doc/command-reference/version
Pengantar Versioning Data dengan DVC

Menginisialisasi DVC

  • Pastikan Git sudah diinisialisasi
$ git init
Initialized empty Git repository in /path/to/repo/.git/
  • Inisialisasi DVC di repositori
$ dvc init
Initialized DVC repository.

You can now commit the changes to git.
1 https://dvc.org/doc/command-reference/init
Pengantar Versioning Data dengan DVC

Berkas Tersembunyi DVC

  • Inisialisasi membuat berkas internal yang perlu dilacak dengan Git
$ git status
Changes to be committed:
  (use "git rm --cached <file>..." to unstage)
    new file:   .dvc/.gitignore
    new file:   .dvc/config
    new file:   .dvcignore
  • Commit perubahannya
$ git commit -m "initialized dvc"
Pengantar Versioning Data dengan DVC

Berkas .dvcignore

  • Mirip berkas .gitignore

    • Pola sama
    • Daftar berkas/direktori yang diabaikan DVC
  • Berguna saat banyak data tidak perlu dilacak

    • Mempercepat operasi DVC
1 https://dvc.org/doc/user-guide/project-structure/dvcignore-files 2 https://git-scm.com/docs/gitignore
Pengantar Versioning Data dengan DVC

Contoh

# .dvcignore
# Abaikan semua berkas di direktori 'data'
data/*

# Tapi jangan abaikan 'data/data.csv' !data/data.csv
# Abaikan semua berkas .tmp *.tmp
1 https://dvc.org/doc/user-guide/project-structure/dvcignore-files
Pengantar Versioning Data dengan DVC

Memeriksa Berkas yang Diabaikan

  • Gunakan perintah dvc check-ignore
$ dvc check-ignore data/file.txt
data/file.txt
  • Gunakan flag -d untuk detail
$ dvc check-ignore -d data/file.txt
.dvcignore:3:data/*    data/file.txt
1 https://dvc.org/doc/command-reference/check-ignore
Pengantar Versioning Data dengan DVC

Ringkasan

  • Pasang DVC dengan pip install dvc
  • Verifikasi versi, platform, dll.
    • dvc version
  • Inisialisasi DVC di workspace
    • dvc init
    • Inisialisasi Git terlebih dahulu
  • Berkas .dvcignore untuk mengecualikan berkas
    • Mirip .gitignore, sintaks sama
    • Cek apakah berkas tertentu dikecualikan
      • dvc check-ignore <filename>
Pengantar Versioning Data dengan DVC

Ayo berlatih!

Pengantar Versioning Data dengan DVC

Preparing Video For Download...