Motivasi Versioning Data

Pengantar Versioning Data dengan DVC

Ravi Bhadauria

Machine Learning Engineer

Apa itu Versioning Data?

  • Definisi
    • Memantau perubahan data dari waktu ke waktu
    • Membuat snapshot data per iterasi
    • Mirip dengan versioning kode
  • Manfaat
    • Pengambilan dan peninjauan
    • Konsistensi, akuntabilitas, dan garis keturunan data
  • Aplikasi
    • Data Science dan Machine Learning
    • Data Engineering
    • Analisis Keuangan, Audit, dan Kepatuhan
Pengantar Versioning Data dengan DVC

Versioning Data vs Kode

Versioning Kode

  • Umum di pengembangan perangkat lunak
  • Menggunakan alat seperti Git untuk kontrol versi terdesentralisasi
  • Lebih mudah dikelola karena basis kode kecil

Versioning Data

  • Relatif baru (SciDB diusulkan pada 2012)
  • Rantai alat seperti DVC digunakan bersama Git
  • Lebih sulit dikelola karena ukuran dataset besar
1 doi: 10.1109/ICDE.2012.102
Pengantar Versioning Data dengan DVC

Mengapa Versioning Data di ML?

Gambar komposisi model ML sebagai Kode, Hyperparameter, dan Data

Pengantar Versioning Data dengan DVC

Pengaruh dataset

Dataset A Gambar head dataframe untuk dataset A

Dataset B Gambar head dataframe untuk dataset B

Pengantar Versioning Data dengan DVC

Pengaruh dataset

 

Hyperparameter tetap, dataset berubah

 

Metrik Dataset A Dataset B
Precision 0,78 0,79
Recall 0,54 0,57
F1 Score 0,64 0,66
Accuracy 0,80 0,81
Pengantar Versioning Data dengan DVC

Pengaruh hyperparameter

 

Dataset tetap, hyperparameter berubah

 

Metrik n_estimators=5 n_estimators=10
Precision 0,78 0,85
Recall 0,54 0,52
F1 Score 0,65 0,65
Accuracy 0,80 0,81
Pengantar Versioning Data dengan DVC

Tata Letak Latihan Editor

Gambar beranotasi tata letak latihan editor menampilkan folder, file, dan area terminal.

Pengantar Versioning Data dengan DVC

Ayo berlatih!

Pengantar Versioning Data dengan DVC

Preparing Video For Download...