Versioning dataset dengan Data Version Control

CI/CD untuk Machine Learning

Ravi Bhadauria

Machine Learning Engineer

Mengapa versioning data penting

  • Versioning memastikan rekam jejak perubahan data
  • Versioning data itu krusial
    • Reproduktabilitas
    • Eksperimen dan iterasi
    • Kolaborasi
    • Pelacakan bug dan debugging
    • Pemantauan dan pemeliharaan model
    • Audit dan validasi
CI/CD untuk Machine Learning

Data Version Control (DVC)

  • DVC: alat Data Version Control
    • Mengelola data dan eksperimen
    • Mirip Git

Gambar konsep versioning data dengan Git dan DVC.png

  • Git melacak metadata, DVC menangani versioning data
CI/CD untuk Machine Learning

Penyimpanan DVC

  • Data disimpan terpisah
    • SSH, HTTP/HTTPS, sistem file lokal
    • Penyimpanan objek AWS, GCP, dan Azure
  • Instal lokal
pip install dvc
CI/CD untuk Machine Learning

Menginisialisasi DVC

  • Inisialisasi Git git init
  • Inisialisasi DVC
-> dvc init
Initialized DVC repository.
You can now commit the changes to git.
  • Menyiapkan file proyek DVC, siap untuk versioning data
.dvc
|- .gitignore
|- config
|- tmp
CI/CD untuk Machine Learning

Menambahkan file ke DVC

  • Tambah file data dengan perintah dvc add <file>
-> dvc add data.csv
  • Placeholder .dvc berisi metadata file akan dibuat
    • Setiap file yang dilacak DVC punya file .dvc terkait (data.csv -> data.csv.dvc)
    • Dicatat di Git untuk mengelola versi data
  • Cache DVC terisi di .dvc/cache
CI/CD untuk Machine Learning

File data DVC

  • File data
-> cat data.csv
This is a sample data file.
  • File data.csv.dvc
-> cat data.csv.dvc
 outs:
 - md5: ea9972ac9f8fa321ea74969e93acc196

size: 28
hash: md5
path: data.csv
CI/CD untuk Machine Learning

Ringkasan

  • Versioning data memastikan reproduktabilitas dan kolaborasi
  • DVC: alat untuk mengelola versioning data, bekerja dengan Git
  • Inisialisasi DVC dengan dvc init, tambah file dengan dvc add <file>
  • File .dvc menyimpan metadata, Git melacak versinya
CI/CD untuk Machine Learning

Ayo berlatih!

CI/CD untuk Machine Learning

Preparing Video For Download...