Motivatie voor dataversiebeheer

Introductie tot dataversiebeheer met DVC

Ravi Bhadauria

Machine Learning Engineer

Wat is dataversiebeheer?

  • Definitie
    • Volgt dataveranderingen in de tijd
    • Maakt snapshots per iteratie
    • Vergelijkbaar met codeversiebeheer
  • Voordelen
    • Herstel en controle
    • Dataconsistentie, verantwoording en herkomst
  • Toepassingen
    • Data Science en Machine Learning
    • Data Engineering
    • Financiële analyse, auditing en compliance
Introductie tot dataversiebeheer met DVC

Data- vs. codeversiebeheer

Codeversiebeheer

  • Bekend in softwareontwikkeling
  • Gebruikt tools zoals Git voor gedecentraliseerde versiecontrole
  • Makkelijker te beheren omdat codebases klein zijn

Dataversiebeheer

  • Relatief nieuw (SciDB voorgesteld in 2012)
  • Toolchains zoals DVC in combinatie met Git
  • Moeilijker te beheren door grote datasets
1 doi: 10.1109/ICDE.2012.102
Introductie tot dataversiebeheer met DVC

Waarom dataversiebeheer in ML?

Afbeelding van ML-model als code, hyperparameters en data

Introductie tot dataversiebeheer met DVC

Invloed van de dataset

Dataset A Afbeelding van dataframe-head van dataset A

Dataset B Afbeelding van dataframe-head van dataset B

Introductie tot dataversiebeheer met DVC

Invloed van de dataset

 

Hyperparameters gelijk, dataset gewijzigd

 

Metriek Dataset A Dataset B
Precisie 0.78 0.79
Recall 0.54 0.57
F1-score 0.64 0.66
Nauwkeurigheid 0.80 0.81
Introductie tot dataversiebeheer met DVC

Invloed van hyperparameters

 

Dataset gelijk, hyperparameters gewijzigd

 

Metriek n_estimators=5 n_estimators=10
Precisie 0.78 0.85
Recall 0.54 0.52
F1-score 0.64 0.65
Nauwkeurigheid 0.80 0.81
Introductie tot dataversiebeheer met DVC

Layout van editoroefeningen

Geannoteerde afbeelding van de editoroefening met map-, bestand- en terminalgebied.

Introductie tot dataversiebeheer met DVC

Laten we oefenen!

Introductie tot dataversiebeheer met DVC

Preparing Video For Download...