Veri Sürümlemenin Gerekçesi

DVC ile Veri Sürümlendirmeye Giriş

Ravi Bhadauria

Machine Learning Engineer

Veri Sürümleme Nedir?

  • Tanım
    • Zaman içinde veri değişimlerini izler
    • Yinelemelerde verinin anlık görüntüsünü alır
    • Kod sürümlemeye benzer
  • Yararlar
    • Geri getirme ve inceleme
    • Veri tutarlılığı, hesap verebilirlik ve soy ağacı
  • Kullanımlar
    • Veri Bilimi ve Makine Öğrenimi
    • Veri Mühendisliği
    • Finansal Analiz, Denetim ve Uyum
DVC ile Veri Sürümlendirmeye Giriş

Veri vs Kod Sürümleme

Kod Sürümleme

  • Yazılım geliştirmede iyi bilinir
  • Dağıtık sürüm kontrolü için Git gibi araçlar kullanılır
  • Kod tabanları küçük olduğundan yönetimi daha kolaydır

Veri Sürümleme

  • Nispeten yeni (SciDB 2012’de önerildi)
  • DVC gibi araç zincirleri Git ile birlikte kullanılır
  • Büyük veri kümeleri nedeniyle yönetimi görece zordur
1 doi: 10.1109/ICDE.2012.102
DVC ile Veri Sürümlendirmeye Giriş

ML’de Neden Veri Sürümleme?

Bir ML modelinin Kod, Hiperparametreler ve Veriden oluştuğunu gösteren görsel

DVC ile Veri Sürümlendirmeye Giriş

Veri kümesi etkisi

Veri Kümesi A Veri kümesi A’nın dataframe head görüntüsü

Veri Kümesi B Veri kümesi B’nin dataframe head görüntüsü

DVC ile Veri Sürümlendirmeye Giriş

Veri kümesi etkisi

 

Hiperparametreler sabit, veri kümesi değişti

 

Metrik Veri Kümesi A Veri Kümesi B
Precision 0.78 0.79
Recall 0.54 0.57
F1 Score 0.64 0.66
Accuracy 0.80 0.81
DVC ile Veri Sürümlendirmeye Giriş

Hiperparametre etkisi

 

Veri kümesi sabit, hiperparametreler değişti

 

Metrik n_estimators=5 n_estimators=10
Precision 0.78 0.85
Recall 0.54 0.52
F1 Score 0.64 0.65
Accuracy 0.80 0.81
DVC ile Veri Sürümlendirmeye Giriş

Editör Alıştırmaları Düzeni

Klasör, dosya ve terminal alanlarını gösteren açıklamalı editör alıştırması düzeni.

DVC ile Veri Sürümlendirmeye Giriş

Hadi pratik yapalım!

DVC ile Veri Sürümlendirmeye Giriş

Preparing Video For Download...